超越 AlphaFold：Boltz 开源药物发现的未来

原始标题: 🔬Beyond AlphaFold: How Boltz is Open-Sourcing the Future of Drug Discovery

发布日期: 2026-02-12 | 来源频道: @latent-space

📝 深度摘要

1. AlphaFold 2：一场改变了结构生物学游戏规则的革命

2018-2021年间的CASP（Critical Assessment of protein Structure Prediction，蛋白质结构预测关键评估）竞赛见证了结构生物学领域最激动人心的时刻。AlphaFold 2在CASP 14上的表现堪称"核弹级"——它以压倒性优势击败了所有传统方法，将预测精度提升到了一个前所未有的水平，整个领域为之震动。

为什么这如此重要？ 蛋白质是生命活动的分子机器。我们细胞内几乎所有的生物过程——从代谢到信号传导，从DNA复制到免疫防御——都依赖于蛋白质与其他分子的相互作用。理解它们的三维结构，就是理解生命运作机制的关键钥匙。传统上，科学家需要通过X射线晶体学、核磁共振（NMR）或冷冻电子显微镜（Cryo-EM）等实验方法耗费数月甚至数年才能解析一个蛋白质结构，而AlphaFold 2在几小时内就能给出答案。这不仅是效率的量级提升，更是范式的根本转变。

核心技术原理：共进化（Co-evolution）信号的深层解读。AlphaFold 2的核心洞见在于：不同物种中相同位置氨基酸的突变并非随机——当一个位置发生突变时，为了维持蛋白质的功能，另一个物理上接近的位置往往也会发生补偿性突变。这种"共进化"模式本质上是一个极其强大的结构hint——它告诉模型哪些氨基酸在三维空间中靠得很近。想象一下：如果一把椅子的一个腿断了，为了保持平衡，其他腿通常也会以某种方式调整。这种跨位置的协同进化信号，就像大自然在数十亿年里做的大量"实验"，积累了关于蛋白质结构的海量信息。

模型架构的精妙设计：pairwise attention机制。AlphaFold 2的架构非常独特，它不是一次只处理一个氨基酸序列token，而是同时考虑所有氨基酸对（pairwise）之间的关系。MSA（多序列比对，Multiple Sequence Alignment）提供了初始的接触预测——哪些位置可能靠在一起。然后，模型通过一种类似于消息传递的算法逐步精炼这些预测，每一轮迭代都在改进对整个蛋白质结构的理解，最终通过一个专门的structure module解码出完整的三维坐标。这种设计本质上是在利用物理约束——蛋白质链是连续连接的，相邻氨基酸在空间中不可能相距太远——来引导模型走向正确的解空间。

2. AlphaFold 3：更强大但选择闭源的转折点

AlphaFold 2之后，整个领域面临一个显而易见的问题：既然单个蛋白质链（monomeric protein）已经基本解决了，那么更复杂的问题呢？——蛋白质-蛋白质相互作用、蛋白质-小分子相互作用、蛋白质-RNA/DNA相互作用怎么办？

AlphaFold 3给出了震撼的回答：一个模型搞定所有。它将所有这些交互模式统一到了一个框架中，训练了一个超大的生成模型。这不仅仅是"功能扩展"，更是一次质的飞跃——从预测单个静态结构，到建模整个生物分子相互作用网络。

关键架构演进：从回归到生成的范式转变。这是AlphaFold 3最重要的技术突破，没有之一。AlphaFold 2本质上是一个regression问题——给一个输入，预测一个"正确答案"。但AlphaFold 3转向了generative modeling——建模整个结构空间的后验分布，然后从中采样。为什么这很重要？因为生物学中的结构往往是多态的（polymorphic）。一个蛋白质可能有多个能量相近的构象，在不同条件下可以切换。生成模型允许我们建模这种不确定性，而回归模型只能给出一个"平均"的答案，这个答案在实际中可能恰好是最差的。

另一个反直觉的事实：参数极少但计算成本极高。与当今动辄上百亿参数的LLM不同，AlphaFold 3只有不到1亿参数——准确说是约7000万参数。但它的计算成本极高——因为它的attention是O(n³)而不是LLM的O(n²)。这是因为蛋白质结构预测需要考虑所有氨基酸对之间的交互，而不是序列中的token对。这让Boltz团队的人感叹：在LLM领域，模型大就是猛；但在结构生物学领域，参数少不一定弱，关键是有效参数能做的事情。

然而，AlphaFold 3选择了闭源。Google DeepMind将模型保留在内部，随后成立了Isomorphic Labs专注于药物研发。全世界的研究者和制药公司突然发现：他们失去了一个强大的工具，曾经触手可及的最先进模型一夜之间变成了"别人家的东西"。这直接催生了Boltz的诞生。

3. Boltz1：MIT博士生的"复仇"之战

Gabriella Corso和Jeremy Volvin——两位刚走出MIT校园的博士毕业生——决定自己干。2024年5月项目启动，仅用6个月就发布了Boltz1，这个速度让整个业界为之震惊。

这不是巧合，而是有备而来的必然。在AlphaFold 3论文发布之前，Corso和Volvin已经在MIT从事相关研究。他们已经在探索diffusion model + pairwise representation的技术路线。AlphaFold 3论文验证了他们的想法，并提供了足够的技术细节让他们可以快速追赶。这就像两个人同时想到一个idea，其中一个人先发表了，另一个人的follow-up就变得非常高效。

计算资源极度紧张的传奇故事。他们当时只有一次训练大模型的机会——这就是他们全部的compute budget。没有预算来"试错"——如果第一次训练失败，就没有第二次。在训练过程中不断发现bug，但无法从头开始，只能"边跑边修"——在训练中途停止，修复bug，然后从断点继续训练。这让模型经历了一个非常另类的"curriculum learning"——它不是在完美数据集上一次性学会，而是在"带病运行"中逐渐康复。最终居然work了，团队自己都感到不可思议。一位团队成员回忆：“我们从未真正回到起点。我们只是在训练过程中不断打补丁。这在现在看来是不可能复现的。”

Boltz1 vs AlphaFold 3：差距有多大？ 在大多数任务上，Boltz1已经非常接近AlphaFold 3——考虑到资源差距，这是相当惊人的成就。但在某些特定场景（如抗体-抗原预测）上，AlphaFold 3仍然保持优势。这是一个重要的提醒：做结构生物学，不能只看benchmark的平均分，还要看edge cases。平均分95分和99分看似差距不大，但在真实药物研发中，那4分的差距可能就意味着能否找到可用的分子。

4. 验证的艺术：CASP、PDB和真实实验的三角验证

结构生物学领域有一个独特的优势：PDB（Protein Data Bank，蛋白质数据库）。全球所有科学家都会把他们解析的蛋白质结构提交到这里，形成了一个真正的公共资源。这就像NLP领域的Wikipedia一样珍贵。

如何科学地评估模型泛化能力？ 训练数据只用到某个特定日期之前发布的结构，测试则用之后发布的新结构。这就像机器学习中标准的train/test split一样简单直接，但非常有效。CASP比赛就是这个思路的系统化实施——组织者会刻意选择一些"hard"的靶标，这些结构在比赛前从未公开发表。

但Corso在播客中强调：真正的validation必须走出computational benchmarks。他们的团队与Nick Polizzi（哈佛大学）合作时发现了一个关键问题：模型在训练数据分布内的蛋白质上表现很好，但在分布外（out-of-distribution）的蛋白质上急剧下降。这就是为什么他们的团队从DiffDoc -> DiffDock-L -> DockGen一路走来——每次都是先发现模型哪里不行，然后构建新的benchmark，再针对性改进模型。这种"以问题为导向"的研发节奏，是学术研究最健康的状态。

一个令人印象深刻的社区贡献：Tim O’Donnell在Boltz的Slack频道上提出了一个看似"暴力"但意外有效的方法。对于抗体-抗原预测这个难题，模型容易锁定错误的结合位点——它会"固执地"认为抗体应该结合到抗原的某个特定位置。他的解决方案是：让模型分别假设结合在第1、11、21…个氨基酸位置（每10个残基扫描一次），然后看哪个假设的confidence最高，最后选择confidence最高的结果。这本质上是一种inference-time search，在某些case上显著提升了准确率。这种"人民群众的智慧"正是开源社区的独特价值——团队自己可能永远想不出这种方案。

5. 开源策略：社区即力量

Boltz选择开源的原因：模型的真正价值不在于模型本身，而在于整个生态系统。开源让全球的biologist、chemist都能使用，并产生大量反馈——特别是关于"模型哪里不行"。这些负面反馈比任何benchmark都更有价值，因为它们指向了模型真正需要改进的方向。

Slack社区已经形成自运转的生态：数千人的社区，老用户会回答新用户的问题，形成了良性循环。GitHub上也有活跃的贡献。创始团队坦言：最开始的几个月，回答社区问题是"几乎不可能完成"的任务——人太少，问题太多。但随着时间推移，社区开始自运转，老用户主动帮助新用户，这让团队可以专注于核心模型开发。

意外的社区贡献让人惊喜：有人为架构中一个存在已久的模块写了复杂的GPU kernel——这个模块从AlphaFold 2时期就存在，但直到Boltz发布才有人愿意为它优化；有人发现了用模型做cyclic peptides（环肽）的方法——这是一个团队自己都没想到的用例；还有人将模型移植到了不同的硬件平台。这些都是开源的"意外收获"。

“易于使用"是核心竞争力。创始团队在发布时花了大量时间整理代码、编写文档、制作example。这让Boltz比同期其他开源模型更容易被采用——很多学术团队不是不想用先进模型，而是被复杂的安装和使用流程吓退。Boltz的低门槛策略形成了飞轮效应：更多用户 -> 更多反馈 -> 更好产品 -> 更多用户。

6. Boltz2：Affinity Prediction——从结构到功能

结构预测只是第一步。药物研发中真正关键的问题是：两个分子结合有多紧密？ 这就是affinity（亲和力）预测——它是药物设计的核心：你要找的不仅是"能结合"的分子，而是"结合得很紧"的分子。

Boltz2的技术路线：Foundation Model + Fine-tuning。利用Boltz1学到的蛋白质交互知识作为foundation model（就像GPT系列用大规模文本预训练），然后在特定任务上fine-tune来做affinity prediction。这与LLM的pre-training -> instruction fine-tuning -> RLHF的范式如出一辙——先学通用能力，再学特定技能。

为什么这比结构预测难得多？ 不同于结构预测有PDB的ground truth（每年都有成千上万的结构被解析并公开），affinity数据非常稀缺且昂贵。每个亲和力数据点都需要在实验室做大量测定——你需要表达蛋白质、纯化、配体、然后做各种结合实验。数据成本可能是结构数据的数千倍。模型必须从很少的样本中学习复杂的物理化学规律——这需要极强的泛化能力。

团队在2025年的新突破：他们发现，直接预测affinity比用模型的confidence作为代理要准确得多。这意味着他们需要专门训练一个affinity prediction head，而不是简单地把structure prediction的confidence当作affinity的估计。这是一个重要的insight。

7. BoltzGen：蛋白质设计的范式转移——从预测到创造

如果说Boltz1/2是"更好的预测”，那BoltzGen就是真正的范式转移：不只是预测现有蛋白质的结构，而是从头设计全新的蛋白质序列。这不是在已知的蛋白质上做微调，而是真正的"从零创造"。

核心技术：structure-based design（基于结构的设计）。传统蛋白质设计的思路是：先猜一个氨基酸序列，然后把序列放进结构预测模型，看预测出的结构是否满足要求，不满足就修改序列再试——这本质上是"猜 -> 验证 -> 修改"的低效循环。BoltzGen打破了这一点：模型一上来就直接生成满足约束的3D结构，然后从原子排布中"反推"出对应的氨基酸序列。这就像先画出汽车的3D模型，再反推它由哪些零件组成——思路完全颠倒，但效率高出几个数量级。

为什么这是一个big deal？ 传统的"序列 -> 结构"单向道让设计空间受到极大限制——你只能在你"猜得到"的序列附近做搜索。BoltzGen实现了structure -> sequence的双向映射，设计空间急剧扩大。模型可以探索传统方法根本不敢想的结构空间。

Scaling law正在生效。团队观察到两个关键规律：1）更大的模型 + 更多的训练数据 = 更好的设计能力；2）inference time scaling（推理时Scaling）——采样更多候选、然后用ranking model排序，往往能得到更好的结果。这和LLM领域的"更多的token生成 -> 更好的质量"的规律惊人地相似。

Scaling up validation：为了证明模型的真实能力，团队在BoltzGen论文中做了有史以来最大规模的实验验证之一——协调了25个学术和工业实验室同时测试模型生成的设计。

8. 25个实验室的大规模验证：BoltzGen的硬核成绩单

BoltzGen论文中最令人印象深刻的不是模型架构本身，而是validation的广度和深度。团队协调了25个学术和工业实验室同时测试模型生成的设计——这本身就是一个巨大的组织协调工作。

验证的多样性覆盖了蛋白质设计的核心场景：

14个nanobody（纳米抗体）靶点——nanobody是新一代抗体药物的核心元件
小分子结合蛋白——这是药物靶点的核心类型
无序蛋白质（intrinsically disordered proteins）——这是传统方法最头痛的问题
9个"泛化测试"靶点——这些靶点在PDB中没有任何已知相互作用，模型完全无法从训练数据中copy或模仿，必须从零设计

关键数据：在9个泛化测试中，三分之二的靶点获得了纳摩尔级（nanomolar）binder。纳摩尔级结合强度是药物候选分子的"入门门槛"——只有结合够紧的分子才有可能成为药物。之前很多"AI设计蛋白质"的论文只在"容易"的靶点上报告结果（那些在训练数据中见过很多类似例子的靶点），而BoltzGen展示了在真正的hard case上也有显著成功率。这才是真正考验泛化能力的地方。

更具体的案例分析：

15个nanobody designs -> 14个靶点全部成功获得有效binder
小分子结合蛋白设计 -> 成功设计出结合目标小分子的mini蛋白
无序蛋白靶点 -> 成功设计出能结合无序区域的binder

实验设计的方法论启示：团队刻意选择了"不容易"的靶点——不是随便选一个PDB里有的结构来做验证，而是选择了真正需要"创造"而非"复制"的场景。这种验证思路值得所有AI for Science论文学习：不要只报告"模型在已知问题上表现好"，而要诚实地展示"模型在未知问题上的表现"。

9. BoltzLab：从模型到产品的最后一公里

为什么必须成立公司？ 把模型放在GitHub上远远不够。化学家、生物学家不会自己搭建GPU集群、安装依赖、调试CUDA驱动。他们想要的是一个"即插即用"的产品——就像普通人不会自己从头编译Linux内核来发邮件。

BoltzLab的三个层次架构：

第一层：Agent工作流（Intelligence Layer）。不是让用户手动调用模型（“先跑Boltz1预测结构，再跑Boltz2预测affinity，再跑BoltzGen生成候选…"），而是构建了自动化的pipeline——protein agent负责蛋白质设计，small molecule agent负责小分子设计。这些agent内部调用了多个模型（生成 + scoring + ranking），形成了一个复杂的自动化系统。Agent这个词在Boltz的语境下不是LLM agent，而更像是"自动化智能体”——它知道什么情况下调用什么模型。

第二层：基础设施（Compute Layer）。设计一个候选分子需要大量计算——你可能需要采样数万个候选，然后用ranking model排序，最后挑出最好的十几个送到实验室做验证。用户自己跑可能需要几周，BoltzLab通过大规模GPU集群将这个过程压缩到几分钟。“用1万GPU跑1分钟"和"用1个GPU跑几天"成本相同，所以要maximize parallelism——这是云服务的核心经济学。团队透露，BoltzLab上的小分子筛选pipeline比开源版本快10倍。

第三层：UI + API（Interface Layer）。API让企业集成到现有workflow（Schrödinger、ChemDraw等药物设计软件可以直连BoltzLab），UI则让非计算背景的科学家也能使用——拖拖拽拽就能设计蛋白质。团队甚至构建了collaboration功能——多个化学家可以各自ranking候选分子，然后做consensus——这还原了真实药物发现团队的工作模式。

定价策略体现价值观：学术用户有大量免费credit——“我们希望学术研究者能用我们的工具推动整个领域的进步”；创业公司和biotech也有free tier——“我们也是从创业公司成长过来的，知道早期每一分钱都很重要”；大企业可以部署on-premise版本——“我们理解大药厂的安全要求”。这反映了Boltz"democratize access”（民主化访问）的使命——不是只服务大客户，而是服务整个生态系统。

10. 与药物化学家的合作：打破"迷信"的正确姿势

一个有趣的观点：药物化学家是"最迷信、最怀疑"的科学家群体。他们靠经验和直觉吃饭——从业30年的老炮看一个分子结构就知道它"感觉对不对"。对ML model往往持怀疑态度：“计算机懂什么化学反应？”

Boltz的解决方案不是"培训他们"，而是"让他们自己发现"。团队招募了有药物化学背景的成员（Jeffrey），他本身就是资深药物化学家。关键是让化学家直接使用平台，而不是对他们进行"AI科普"。

合作模式：化学家有各种hypothesis——“也许这个蛋白可以用这种方式结合”，“那个位点太小，传统方法想不到”。他们把hypothesis告诉BoltzLab，让平台生成对应的design，然后评估结果。化学家发现：原来计算机真的能设计出自己没想到的分子——而且是"我完全没想到，但仔细一想很有道理"的分子。

没有比wet-lab结果更有说服力的。模型预测的分子在实验室里真的结合了靶点——这就是最有力的"销售话术"。Jeffrey后来成为了平台最活跃的用户之一，有时候用几百张GPU同时跑多个筛选——这比团队里做ML的人用得都多。

11. 未来方向：从工具到生态的演进

Boltz不想成为药物公司。他们的定位是"工具提供商"，服务学术界、服务生物技术公司、服务大药厂。“我们永远不会自己制药——那是我们的客户的工作。”

可开发性（Developability）是下一个前沿。设计出的分子不仅要能结合靶点，还要：

能被细胞高效表达
不能有免疫原性（否则会被人体免疫系统攻击）
要有合适的药代动力学（吸收、分布、代谢、排泄）
要能大规模生产成本可接受

这些"成药性"属性是药物从"设计"到"成药"的关键鸿沟。传统药物化学需要大量经验法则（“这个基团容易代谢”、“那个基团有毒性”），现在Boltz正在尝试用模型来预测这些属性。

更高层次的生物学理解：不仅仅是蛋白-蛋白相互作用，还要理解信号通路、细胞内网络、疾病机制。未来的药物设计可能需要考虑"靶点在这个通路中的上下游"、“调控这个蛋白会如何影响整个细胞网络”——这超出了当前模型的能力范围，但Boltz已经开始思考。

与实验的闭环：设计 -> 测试 -> 结果反馈 -> 改进模型，形成持续迭代。团队正在建立这个闭环——每次客户在BoltzLab上做一个筛选，然后把实验结果（“这个分子结合了，那个没结合”）反馈给Boltz，这些数据可以用来改进模型。这才是真正的"data flywheel"。

多特异性药物的愿景：一个分子同时靶向多个靶点——这在今天几乎不可能，因为需要同时满足多个约束，但随着模型能力提升，可能变得可行。这将开启一个全新的药物设计空间。

12. 行业启示：AI for Science的完整路线图

从AlphaFold到Boltz的演进，展示了AI for Science的一条完整可行路径：

第一步：证明AI能解决核心问题——AlphaFold 2解决单体蛋白结构预测。这是一个"登月"式的突破，让全世界看到"原来AI真的可以"。

第二步：扩展到更复杂的任务——AlphaFold 3 -> Boltz1/Boltz2处理相互作用、affinity prediction。从单体到多体，从静态到动态。

第三步：从预测到生成——BoltzGen从零设计蛋白质。不是在已知数据上做微调，而是真正的"创造"。

第四步：产品化 + 生态——BoltzLab + 开源社区 + 学术合作。技术只有在被广泛使用后才能产生价值。

关键的Lessons（硬核总结）：

开源 + 社区反馈 = 快速迭代。封闭开发是跟不上开源的——全世界的智慧比任何一个团队都强。
验证必须走出benchmark，到真实的wet-lab场景。在"标准测试集"上刷分没有意义，真正的考验是"模型从未见过的问题"。
产品化是技术落地的最后一道坎。论文代码和可用产品之间隔了100个工程团队。
“Democratize"不是口号，而是商业策略。让尽可能多的人用你的工具，形成生态，然后从中找到付费客户。
Scaling laws依然有效——更多数据、更多计算、更多验证 = 更好的模型。

对AI工程师的深层启示：这不是"next token prediction”，这是一个全新的工程挑战。数据稀缺、实验昂贵、泛化困难——这些问题需要和LLM完全不同的方法论。AI for Science领域的工程师需要既懂ML又懂domain知识——这是未来十年最稀缺的技能组合之一。

这期播客是一个关于"如何从学术论文到商业产品"的完整案例研究。Boltz团队展示了：即使面对Google DeepMind这样的巨头，初创公司也可以通过开源、社区、快速迭代找到自己的位置。更重要的是，他们展示了AI for Science的正确打开方式——不是炫技，而是真正解决科学家的问题；不是只发论文，而是构建有人用的产品；不是闭门造车，而是拥抱社区。

Boltz的故事还在继续——他们正在招聘ML工程师、软件工程师和科学家。如果你想要一个不是"next token prediction"的AI挑战，如果你想塑造未来5-10年生物学和药物发现的样子，Boltz可能是下一个值得加入的地方。

📺 播客地址

播客时长: 82分钟

1. AlphaFold 2：一场改变了结构生物学游戏规则的革命#

2. AlphaFold 3：更强大但选择闭源的转折点#

3. Boltz1：MIT博士生的"复仇"之战#

4. 验证的艺术：CASP、PDB和真实实验的三角验证#

5. 开源策略：社区即力量#

6. Boltz2：Affinity Prediction——从结构到功能#

7. BoltzGen：蛋白质设计的范式转移——从预测到创造#

8. 25个实验室的大规模验证：BoltzGen的硬核成绩单#

9. BoltzLab：从模型到产品的最后一公里#

10. 与药物化学家的合作：打破"迷信"的正确姿势#

11. 未来方向：从工具到生态的演进#

12. 行业启示：AI for Science的完整路线图#