原始标题: 🔬Beyond AlphaFold: How Boltz is Open-Sourcing the Future of Drug Discovery
发布日期: 2026-02-12 | 来源频道: @latent-space
📝 深度摘要
1. AlphaFold 2:一场改变了结构生物学游戏规则的革命
2018-2021年间的CASP(Critical Assessment of protein Structure Prediction,蛋白质结构预测关键评估)竞赛见证了结构生物学领域最激动人心的时刻。AlphaFold 2在CASP 14上的表现堪称"核弹级"——它以压倒性优势击败了所有传统方法,将预测精度提升到了一个前所未有的水平,整个领域为之震动。
为什么这如此重要? 蛋白质是生命活动的分子机器。我们细胞内几乎所有的生物过程——从代谢到信号传导,从DNA复制到免疫防御——都依赖于蛋白质与其他分子的相互作用。理解它们的三维结构,就是理解生命运作机制的关键钥匙。传统上,科学家需要通过X射线晶体学、核磁共振(NMR)或冷冻电子显微镜(Cryo-EM)等实验方法耗费数月甚至数年才能解析一个蛋白质结构,而AlphaFold 2在几小时内就能给出答案。这不仅是效率的量级提升,更是范式的根本转变。
核心技术原理:共进化(Co-evolution)信号的深层解读。AlphaFold 2的核心洞见在于:不同物种中相同位置氨基酸的突变并非随机——当一个位置发生突变时,为了维持蛋白质的功能,另一个物理上接近的位置往往也会发生补偿性突变。这种"共进化"模式本质上是一个极其强大的结构hint——它告诉模型哪些氨基酸在三维空间中靠得很近。想象一下:如果一把椅子的一个腿断了,为了保持平衡,其他腿通常也会以某种方式调整。这种跨位置的协同进化信号,就像大自然在数十亿年里做的大量"实验",积累了关于蛋白质结构的海量信息。
模型架构的精妙设计:pairwise attention机制。AlphaFold 2的架构非常独特,它不是一次只处理一个氨基酸序列token,而是同时考虑所有氨基酸对(pairwise)之间的关系。MSA(多序列比对,Multiple Sequence Alignment)提供了初始的接触预测——哪些位置可能靠在一起。然后,模型通过一种类似于消息传递的算法逐步精炼这些预测,每一轮迭代都在改进对整个蛋白质结构的理解,最终通过一个专门的structure module解码出完整的三维坐标。这种设计本质上是在利用物理约束——蛋白质链是连续连接的,相邻氨基酸在空间中不可能相距太远——来引导模型走向正确的解空间。
2. AlphaFold 3:更强大但选择闭源的转折点
AlphaFold 2之后,整个领域面临一个显而易见的问题:既然单个蛋白质链(monomeric protein)已经基本解决了,那么更复杂的问题呢?——蛋白质-蛋白质相互作用、蛋白质-小分子相互作用、蛋白质-RNA/DNA相互作用怎么办?
AlphaFold 3给出了震撼的回答:一个模型搞定所有。它将所有这些交互模式统一到了一个框架中,训练了一个超大的生成模型。这不仅仅是"功能扩展",更是一次质的飞跃——从预测单个静态结构,到建模整个生物分子相互作用网络。
关键架构演进:从回归到生成的范式转变。这是AlphaFold 3最重要的技术突破,没有之一。AlphaFold 2本质上是一个regression问题——给一个输入,预测一个"正确答案"。但AlphaFold 3转向了generative modeling——建模整个结构空间的后验分布,然后从中采样。为什么这很重要?因为生物学中的结构往往是多态的(polymorphic)。一个蛋白质可能有多个能量相近的构象,在不同条件下可以切换。生成模型允许我们建模这种不确定性,而回归模型只能给出一个"平均"的答案,这个答案在实际中可能恰好是最差的。
另一个反直觉的事实:参数极少但计算成本极高。与当今动辄上百亿参数的LLM不同,AlphaFold 3只有不到1亿参数——准确说是约7000万参数。但它的计算成本极高——因为它的attention是O(n³)而不是LLM的O(n²)。这是因为蛋白质结构预测需要考虑所有氨基酸对之间的交互,而不是序列中的token对。这让Boltz团队的人感叹:在LLM领域,模型大就是猛;但在结构生物学领域,参数少不一定弱,关键是有效参数能做的事情。
然而,AlphaFold 3选择了闭源。Google DeepMind将模型保留在内部,随后成立了Isomorphic Labs专注于药物研发。全世界的研究者和制药公司突然发现:他们失去了一个强大的工具,曾经触手可及的最先进模型一夜之间变成了"别人家的东西"。这直接催生了Boltz的诞生。
3. Boltz1:MIT博士生的"复仇"之战
Gabriella Corso和Jeremy Volvin——两位刚走出MIT校园的博士毕业生——决定自己干。2024年5月项目启动,仅用6个月就发布了Boltz1,这个速度让整个业界为之震惊。
这不是巧合,而是有备而来的必然。在AlphaFold 3论文发布之前,Corso和Volvin已经在MIT从事相关研究。他们已经在探索diffusion model + pairwise representation的技术路线。AlphaFold 3论文验证了他们的想法,并提供了足够的技术细节让他们可以快速追赶。这就像两个人同时想到一个idea,其中一个人先发表了,另一个人的follow-up就变得非常高效。
计算资源极度紧张的传奇故事。他们当时只有一次训练大模型的机会——这就是他们全部的compute budget。没有预算来"试错"——如果第一次训练失败,就没有第二次。在训练过程中不断发现bug,但无法从头开始,只能"边跑边修"——在训练中途停止,修复bug,然后从断点继续训练。这让模型经历了一个非常另类的"curriculum learning"——它不是在完美数据集上一次性学会,而是在"带病运行"中逐渐康复。最终居然work了,团队自己都感到不可思议。一位团队成员回忆:“我们从未真正回到起点。我们只是在训练过程中不断打补丁。这在现在看来是不可能复现的。”
Boltz1 vs AlphaFold 3:差距有多大? 在大多数任务上,Boltz1已经非常接近AlphaFold 3——考虑到资源差距,这是相当惊人的成就。但在某些特定场景(如抗体-抗原预测)上,AlphaFold 3仍然保持优势。这是一个重要的提醒:做结构生物学,不能只看benchmark的平均分,还要看edge cases。平均分95分和99分看似差距不大,但在真实药物研发中,那4分的差距可能就意味着能否找到可用的分子。
4. 验证的艺术:CASP、PDB和真实实验的三角验证
结构生物学领域有一个独特的优势:PDB(Protein Data Bank,蛋白质数据库)。全球所有科学家都会把他们解析的蛋白质结构提交到这里,形成了一个真正的公共资源。这就像NLP领域的Wikipedia一样珍贵。
如何科学地评估模型泛化能力? 训练数据只用到某个特定日期之前发布的结构,测试则用之后发布的新结构。这就像机器学习中标准的train/test split一样简单直接,但非常有效。CASP比赛就是这个思路的系统化实施——组织者会刻意选择一些"hard"的靶标,这些结构在比赛前从未公开发表。
但Corso在播客中强调:真正的validation必须走出computational benchmarks。他们的团队与Nick Polizzi(哈佛大学)合作时发现了一个关键问题:模型在训练数据分布内的蛋白质上表现很好,但在分布外(out-of-distribution)的蛋白质上急剧下降。这就是为什么他们的团队从DiffDoc -> DiffDock-L -> DockGen一路走来——每次都是先发现模型哪里不行,然后构建新的benchmark,再针对性改进模型。这种"以问题为导向"的研发节奏,是学术研究最健康的状态。
一个令人印象深刻的社区贡献:Tim O’Donnell在Boltz的Slack频道上提出了一个看似"暴力"但意外有效的方法。对于抗体-抗原预测这个难题,模型容易锁定错误的结合位点——它会"固执地"认为抗体应该结合到抗原的某个特定位置。他的解决方案是:让模型分别假设结合在第1、11、21…个氨基酸位置(每10个残基扫描一次),然后看哪个假设的confidence最高,最后选择confidence最高的结果。这本质上是一种inference-time search,在某些case上显著提升了准确率。这种"人民群众的智慧"正是开源社区的独特价值——团队自己可能永远想不出这种方案。
5. 开源策略:社区即力量
Boltz选择开源的原因:模型的真正价值不在于模型本身,而在于整个生态系统。开源让全球的biologist、chemist都能使用,并产生大量反馈——特别是关于"模型哪里不行"。这些负面反馈比任何benchmark都更有价值,因为它们指向了模型真正需要改进的方向。
Slack社区已经形成自运转的生态:数千人的社区,老用户会回答新用户的问题,形成了良性循环。GitHub上也有活跃的贡献。创始团队坦言:最开始的几个月,回答社区问题是"几乎不可能完成"的任务——人太少,问题太多。但随着时间推移,社区开始自运转,老用户主动帮助新用户,这让团队可以专注于核心模型开发。
意外的社区贡献让人惊喜:有人为架构中一个存在已久的模块写了复杂的GPU kernel——这个模块从AlphaFold 2时期就存在,但直到Boltz发布才有人愿意为它优化;有人发现了用模型做cyclic peptides(环肽)的方法——这是一个团队自己都没想到的用例;还有人将模型移植到了不同的硬件平台。这些都是开源的"意外收获"。
“易于使用"是核心竞争力。创始团队在发布时花了大量时间整理代码、编写文档、制作example。这让Boltz比同期其他开源模型更容易被采用——很多学术团队不是不想用先进模型,而是被复杂的安装和使用流程吓退。Boltz的低门槛策略形成了飞轮效应:更多用户 -> 更多反馈 -> 更好产品 -> 更多用户。
6. Boltz2:Affinity Prediction——从结构到功能
结构预测只是第一步。药物研发中真正关键的问题是:两个分子结合有多紧密? 这就是affinity(亲和力)预测——它是药物设计的核心:你要找的不仅是"能结合"的分子,而是"结合得很紧"的分子。
Boltz2的技术路线:Foundation Model + Fine-tuning。利用Boltz1学到的蛋白质交互知识作为foundation model(就像GPT系列用大规模文本预训练),然后在特定任务上fine-tune来做affinity prediction。这与LLM的pre-training -> instruction fine-tuning -> RLHF的范式如出一辙——先学通用能力,再学特定技能。
为什么这比结构预测难得多? 不同于结构预测有PDB的ground truth(每年都有成千上万的结构被解析并公开),affinity数据非常稀缺且昂贵。每个亲和力数据点都需要在实验室做大量测定——你需要表达蛋白质、纯化、配体、然后做各种结合实验。数据成本可能是结构数据的数千倍。模型必须从很少的样本中学习复杂的物理化学规律——这需要极强的泛化能力。
团队在2025年的新突破:他们发现,直接预测affinity比用模型的confidence作为代理要准确得多。这意味着他们需要专门训练一个affinity prediction head,而不是简单地把structure prediction的confidence当作affinity的估计。这是一个重要的insight。
7. BoltzGen:蛋白质设计的范式转移——从预测到创造
如果说Boltz1/2是"更好的预测”,那BoltzGen就是真正的范式转移:不只是预测现有蛋白质的结构,而是从头设计全新的蛋白质序列。这不是在已知的蛋白质上做微调,而是真正的"从零创造"。
核心技术:structure-based design(基于结构的设计)。传统蛋白质设计的思路是:先猜一个氨基酸序列,然后把序列放进结构预测模型,看预测出的结构是否满足要求,不满足就修改序列再试——这本质上是"猜 -> 验证 -> 修改"的低效循环。BoltzGen打破了这一点:模型一上来就直接生成满足约束的3D结构,然后从原子排布中"反推"出对应的氨基酸序列。这就像先画出汽车的3D模型,再反推它由哪些零件组成——思路完全颠倒,但效率高出几个数量级。
为什么这是一个big deal? 传统的"序列 -> 结构"单向道让设计空间受到极大限制——你只能在你"猜得到"的序列附近做搜索。BoltzGen实现了structure -> sequence的双向映射,设计空间急剧扩大。模型可以探索传统方法根本不敢想的结构空间。
Scaling law正在生效。团队观察到两个关键规律:1)更大的模型 + 更多的训练数据 = 更好的设计能力;2)inference time scaling(推理时Scaling)——采样更多候选、然后用ranking model排序,往往能得到更好的结果。这和LLM领域的"更多的token生成 -> 更好的质量"的规律惊人地相似。
Scaling up validation:为了证明模型的真实能力,团队在BoltzGen论文中做了有史以来最大规模的实验验证之一——协调了25个学术和工业实验室同时测试模型生成的设计。
8. 25个实验室的大规模验证:BoltzGen的硬核成绩单
BoltzGen论文中最令人印象深刻的不是模型架构本身,而是validation的广度和深度。团队协调了25个学术和工业实验室同时测试模型生成的设计——这本身就是一个巨大的组织协调工作。
验证的多样性覆盖了蛋白质设计的核心场景:
- 14个nanobody(纳米抗体)靶点——nanobody是新一代抗体药物的核心元件
- 小分子结合蛋白——这是药物靶点的核心类型
- 无序蛋白质(intrinsically disordered proteins)——这是传统方法最头痛的问题
- 9个"泛化测试"靶点——这些靶点在PDB中没有任何已知相互作用,模型完全无法从训练数据中copy或模仿,必须从零设计
关键数据:在9个泛化测试中,三分之二的靶点获得了纳摩尔级(nanomolar)binder。纳摩尔级结合强度是药物候选分子的"入门门槛"——只有结合够紧的分子才有可能成为药物。之前很多"AI设计蛋白质"的论文只在"容易"的靶点上报告结果(那些在训练数据中见过很多类似例子的靶点),而BoltzGen展示了在真正的hard case上也有显著成功率。这才是真正考验泛化能力的地方。
更具体的案例分析:
- 15个nanobody designs -> 14个靶点全部成功获得有效binder
- 小分子结合蛋白设计 -> 成功设计出结合目标小分子的mini蛋白
- 无序蛋白靶点 -> 成功设计出能结合无序区域的binder
实验设计的方法论启示:团队刻意选择了"不容易"的靶点——不是随便选一个PDB里有的结构来做验证,而是选择了真正需要"创造"而非"复制"的场景。这种验证思路值得所有AI for Science论文学习:不要只报告"模型在已知问题上表现好",而要诚实地展示"模型在未知问题上的表现"。
9. BoltzLab:从模型到产品的最后一公里
为什么必须成立公司? 把模型放在GitHub上远远不够。化学家、生物学家不会自己搭建GPU集群、安装依赖、调试CUDA驱动。他们想要的是一个"即插即用"的产品——就像普通人不会自己从头编译Linux内核来发邮件。
BoltzLab的三个层次架构:
第一层:Agent工作流(Intelligence Layer)。不是让用户手动调用模型(“先跑Boltz1预测结构,再跑Boltz2预测affinity,再跑BoltzGen生成候选…"),而是构建了自动化的pipeline——protein agent负责蛋白质设计,small molecule agent负责小分子设计。这些agent内部调用了多个模型(生成 + scoring + ranking),形成了一个复杂的自动化系统。Agent这个词在Boltz的语境下不是LLM agent,而更像是"自动化智能体”——它知道什么情况下调用什么模型。
第二层:基础设施(Compute Layer)。设计一个候选分子需要大量计算——你可能需要采样数万个候选,然后用ranking model排序,最后挑出最好的十几个送到实验室做验证。用户自己跑可能需要几周,BoltzLab通过大规模GPU集群将这个过程压缩到几分钟。“用1万GPU跑1分钟"和"用1个GPU跑几天"成本相同,所以要maximize parallelism——这是云服务的核心经济学。团队透露,BoltzLab上的小分子筛选pipeline比开源版本快10倍。
第三层:UI + API(Interface Layer)。API让企业集成到现有workflow(Schrödinger、ChemDraw等药物设计软件可以直连BoltzLab),UI则让非计算背景的科学家也能使用——拖拖拽拽就能设计蛋白质。团队甚至构建了collaboration功能——多个化学家可以各自ranking候选分子,然后做consensus——这还原了真实药物发现团队的工作模式。
定价策略体现价值观:学术用户有大量免费credit——“我们希望学术研究者能用我们的工具推动整个领域的进步”;创业公司和biotech也有free tier——“我们也是从创业公司成长过来的,知道早期每一分钱都很重要”;大企业可以部署on-premise版本——“我们理解大药厂的安全要求”。这反映了Boltz"democratize access”(民主化访问)的使命——不是只服务大客户,而是服务整个生态系统。
10. 与药物化学家的合作:打破"迷信"的正确姿势
一个有趣的观点:药物化学家是"最迷信、最怀疑"的科学家群体。他们靠经验和直觉吃饭——从业30年的老炮看一个分子结构就知道它"感觉对不对"。对ML model往往持怀疑态度:“计算机懂什么化学反应?”
Boltz的解决方案不是"培训他们",而是"让他们自己发现"。团队招募了有药物化学背景的成员(Jeffrey),他本身就是资深药物化学家。关键是让化学家直接使用平台,而不是对他们进行"AI科普"。
合作模式:化学家有各种hypothesis——“也许这个蛋白可以用这种方式结合”,“那个位点太小,传统方法想不到”。他们把hypothesis告诉BoltzLab,让平台生成对应的design,然后评估结果。化学家发现:原来计算机真的能设计出自己没想到的分子——而且是"我完全没想到,但仔细一想很有道理"的分子。
没有比wet-lab结果更有说服力的。模型预测的分子在实验室里真的结合了靶点——这就是最有力的"销售话术"。Jeffrey后来成为了平台最活跃的用户之一,有时候用几百张GPU同时跑多个筛选——这比团队里做ML的人用得都多。
11. 未来方向:从工具到生态的演进
Boltz不想成为药物公司。他们的定位是"工具提供商",服务学术界、服务生物技术公司、服务大药厂。“我们永远不会自己制药——那是我们的客户的工作。”
可开发性(Developability)是下一个前沿。设计出的分子不仅要能结合靶点,还要:
- 能被细胞高效表达
- 不能有免疫原性(否则会被人体免疫系统攻击)
- 要有合适的药代动力学(吸收、分布、代谢、排泄)
- 要能大规模生产成本可接受
这些"成药性"属性是药物从"设计"到"成药"的关键鸿沟。传统药物化学需要大量经验法则(“这个基团容易代谢”、“那个基团有毒性”),现在Boltz正在尝试用模型来预测这些属性。
更高层次的生物学理解:不仅仅是蛋白-蛋白相互作用,还要理解信号通路、细胞内网络、疾病机制。未来的药物设计可能需要考虑"靶点在这个通路中的上下游"、“调控这个蛋白会如何影响整个细胞网络”——这超出了当前模型的能力范围,但Boltz已经开始思考。
与实验的闭环:设计 -> 测试 -> 结果反馈 -> 改进模型,形成持续迭代。团队正在建立这个闭环——每次客户在BoltzLab上做一个筛选,然后把实验结果(“这个分子结合了,那个没结合”)反馈给Boltz,这些数据可以用来改进模型。这才是真正的"data flywheel"。
多特异性药物的愿景:一个分子同时靶向多个靶点——这在今天几乎不可能,因为需要同时满足多个约束,但随着模型能力提升,可能变得可行。这将开启一个全新的药物设计空间。
12. 行业启示:AI for Science的完整路线图
从AlphaFold到Boltz的演进,展示了AI for Science的一条完整可行路径:
第一步:证明AI能解决核心问题——AlphaFold 2解决单体蛋白结构预测。这是一个"登月"式的突破,让全世界看到"原来AI真的可以"。
第二步:扩展到更复杂的任务——AlphaFold 3 -> Boltz1/Boltz2处理相互作用、affinity prediction。从单体到多体,从静态到动态。
第三步:从预测到生成——BoltzGen从零设计蛋白质。不是在已知数据上做微调,而是真正的"创造"。
第四步:产品化 + 生态——BoltzLab + 开源社区 + 学术合作。技术只有在被广泛使用后才能产生价值。
关键的Lessons(硬核总结):
-
开源 + 社区反馈 = 快速迭代。封闭开发是跟不上开源的——全世界的智慧比任何一个团队都强。
-
验证必须走出benchmark,到真实的wet-lab场景。在"标准测试集"上刷分没有意义,真正的考验是"模型从未见过的问题"。
-
产品化是技术落地的最后一道坎。论文代码和可用产品之间隔了100个工程团队。
-
“Democratize"不是口号,而是商业策略。让尽可能多的人用你的工具,形成生态,然后从中找到付费客户。
-
Scaling laws依然有效——更多数据、更多计算、更多验证 = 更好的模型。
对AI工程师的深层启示:这不是"next token prediction”,这是一个全新的工程挑战。数据稀缺、实验昂贵、泛化困难——这些问题需要和LLM完全不同的方法论。AI for Science领域的工程师需要既懂ML又懂domain知识——这是未来十年最稀缺的技能组合之一。
这期播客是一个关于"如何从学术论文到商业产品"的完整案例研究。Boltz团队展示了:即使面对Google DeepMind这样的巨头,初创公司也可以通过开源、社区、快速迭代找到自己的位置。更重要的是,他们展示了AI for Science的正确打开方式——不是炫技,而是真正解决科学家的问题;不是只发论文,而是构建有人用的产品;不是闭门造车,而是拥抱社区。
Boltz的故事还在继续——他们正在招聘ML工程师、软件工程师和科学家。如果你想要一个不是"next token prediction"的AI挑战,如果你想塑造未来5-10年生物学和药物发现的样子,Boltz可能是下一个值得加入的地方。
📺 播客地址
播客时长: 82分钟