🔬搜索所有可能材料的无限空间——Prof. Max Welling, CuspAI

原始标题: 🔬Searching the Space of All Possible Materials — Prof. Max Welling, CuspAI

发布日期: 2026-02-25 | 来源频道: @latent-space

📝 深度摘要

1. 核心技术主旨 (The TL;DR)

本期节目揭示了 AI for Science 领域正在发生的范式级转移——从传统的"假设驱动实验"循环，迈向"搜索所有可能分子"的全新范式。Max Welling 作为变分自编码器（VAE）先驱，如今创立 CuspAI 专注材料发现领域，宣告了 AI 在科学研究中的核心角色正在从"辅助工具"进化为"第一性原理引擎"。AlphaFold 成功证明蛋白质折叠可解，机器学习力场（MLFF）突破分子动力学模拟瓶颈，而 CuspAI 正在构建的"数字化双胞胎"和"Physics Processing Unit"概念，则预示着材料科学的研发周期将从数年压缩至数月。这不是渐进式改进，而是一场从根子上重构科学发现流程的革命。

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)

嘉宾身份： Prof. Max Welling —— CuspAI 联合创始人、阿姆斯特丹大学兼职教授、多伦多大学 Vector Institute 创始成员

核心产品/架构： CuspAI 是一家成立仅 20 个月的 AI 材料发现公司，团队 40 人，已融资 1.3 亿美元。核心产品是基于等变性（Equivariance）图神经网络的材料生成与筛选平台，通过"数字化双胞胎"实现多尺度、多保真度模拟，目标是让材料发现从经验驱动转向 AI 驱动。

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)

a. 系统架构与硬件交互 (Infra & System Design)

CuspAI 的技术架构围绕"搜索空间"这一核心概念展开。传统材料科学依赖实验试错，每一次合成测试都需要数周甚至数月。Max Welling 提出的"搜索所有可能分子"（search all possible molecules）意味着构建一个超大规模的虚拟材料库，配合高效的筛选算法从中捞出具有目标属性的候选材料。

这套系统的硬件层需要强大的算力支撑——不仅是训练大模型所需的 GPU 集群，更重要的是运行量子化学模拟和分子动力学模拟的计算资源。Max 提出的"Physics Processing Unit"概念本质上是让自然物理规律本身成为计算单元：通过设计合理的实验流程，让自然界（实验）来完成"计算"，而 AI 在这个过程中充当智能调度器的角色。

b. AI 范式与工作流重构 (AI Paradigms & Workflows)

从 VAE 到图神经网络，Max Welling 的学术轨迹本身就是 AI 范式演进的缩影。他在变分自编码器领域的开创性工作为后续生成模型奠定基础，而近年对等变性（Equivariance）的研究则代表了一种更深层的范式转移——将对称性（symmetry）本身编码进神经网络的结构中。

等变性的数学原理极其优雅：如果一个物理系统具有某种对称性（比如旋转不变性），那么神经网络的输出也应该保持这种对称性。传统做法是通过数据增强（data augmentation）让网络"学会"这种对称性，但等变性神经网络直接从架构层面保证这一性质，带来的直接好处是：大幅减少训练数据需求。在材料科学领域，高质量的标注数据极其稀缺，等变性提供了一条绕过数据瓶颈的路径。

工作流层面，CuspAI 采用"数字化双胞胎"架构：在虚拟世界中构建材料的多尺度模型（从电子结构到宏观物性），用不同保真度（fidelity）的模拟器层层筛选，最终锁定少数高置信度候选送进真实实验室。这种"模拟-验证-迭代"的闭环，将传统材料研发从线性流程转变为快速迭代的循环。

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)

材料发现的评估体系比 NLP/CV 领域更加复杂。蛋白质有明确的折叠目标（Native structure），但材料科学的评估指标极其多元——导电性、强度、热稳定性、催化效率、成本、可量产性……每一种属性都是一维评估轴，组合起来构成高维评估空间。

工程阻力方面，Max 坦诚提到了几个核心挑战：

多尺度模拟的计算成本：从原子级别（量子力学）到宏观级别（连续介质力学），每一层的模拟都需要不同的方法论和计算资源，如何在不同保真度之间平滑过渡是工程难题。
数据稀缺与质量：虽然 AI for Science 整体在爆发，但高质量的材料数据集远不如 ImageNet 或 GitHub 代码那样随手可得。实验数据的标准化程度低，不同实验室的测量条件差异大。
从虚拟到真实的迁移（Sim-to-Real Gap）：模拟再精确，也难以完全复现真实世界的复杂性。实验室中的合成条件、温度湿度控制、杂质混入等因素，都可能导致模拟预测与实际结果产生偏差。

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)

a. 颠覆性反共识洞察 (Contrarian Hot Takes)

Max Welling 在节目中抛出了几个极具冲击力的观点：

“AI for Science 的爆发比大模型更底层。” 他认为，AlphaFold 解决的问题（蛋白质折叠）是 nature 自己设计好的 puzzle，AI 只是找到了钥匙，而这个范式可以复制到任何存在"底层规律"的科学领域。材料科学正是下一个。

“完全自动化的’暗实验室’（Dark Lab）是伪命题。” 不同于一些 AI 创业公司宣称的"让 AI 自己做完所有实验"，Max 坚定地认为人类专家在可预见的未来仍然不可或缺。他的理由务实而深刻：重大材料突破需要 deep domain knowledge——你需要知道为什么这个分子结构值得尝试、哪些物理想象是合理的、实验失败后的下一步该怎么调整。这些都是当前 AI 的盲区。

“Jeff Bezos 投了 62 亿美元不是泡沫，是信号。” AI for Science 领域累计融资 62 亿美元，说明顶级资本已经用脚投票确认了这个赛道的战略价值。

b. 商业模式与成本经济学 (Business Model & Unit Economics)

CuspAI 目前采用 B2B 模式，与工业伙伴合作开发材料。这种策略的现实考量是：材料科学的最终用户（电池厂商、涂料公司、制药巨头）有明确的研发需求，但缺乏自建 AI 能力。CuspAI 提供的是"AI 材料发现即服务"。

成本经济学层面，Max 提到的核心逻辑是：传统材料研发需要 5-10 年、数亿美元投入，而 AI 辅助的材料发现有望将周期压缩到 1-2 年、成本降低一个数量级。对于年研发预算数十亿美元的工业巨头来说，这是一个无需思考的选择。

但商业化的难点在于：材料发现是长周期、高风险业务。一个候选材料从虚拟筛选到最终量产，可能需要 5-10 年。这意味着 CuspAI 的收入确认周期极长，需要在"短期技术服务收入"和"长期里程碑付款"之间找到平衡。

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)

a. 人才密度与招聘哲学 (Max 并未在原文中详细展开招聘哲学，仅提及团队背景)

[未提及具体细节] 从有限的信息推断，CuspAI 的 40 人团队应该是一支高度跨学科的队伍——需要 AI/ML 研究者、量子化学家、材料科学家、软件工程师的深度协作。Max 本人的学术背景（VAE + 图神经网络 + 量子引力）本身就是跨界的最佳注脚。

b. 硬核极客日常与轶事 (Geek Lore & Quirks)

Max Welling 的学术生涯本身就是一段极客传奇：从量子引力研究转向机器学习，在 VAE 尚未被广泛认可时就坚持深耕，最终成为该领域的先驱。这种"从物理第一性原理出发思考 AI"的思维方式，深深影响了他对 AI for Science 的理解——他关注的不是"如何训练一个更大的模型"，而是"如何让 AI 学会物理的对称性"。

值得玩味的是 Max 对"新书"的提及：《Generative AI and Stochastic Thermodynamics》预计 2025 年 4 月出版，书中他将扩散模型与随机热力学的数学框架进行深度类比——自由能（Free Energy）、Schrödinger Bridges、MCMC 采样，这些在物理学家看来是"理解自然界"工具，在 Max 眼中同样是"理解 AI 生成过程"的钥匙。这种跨学科的思维跃迁，是典型的学术极客式浪漫。

6. 未来推演与终局思考 (Future Outlook & Endgame)

a 短期技术前瞻 (Next 12-18 Months)

在未来 12-18 个月内，Max 预计材料发现领域将出现以下进展：

更多"AI-first"材料进入中试阶段：CuspAI 与工业伙伴合作的材料将陆续进入真实测试，数据反馈将进一步验证/修正 AI 模型的预测能力。
等变性图神经网络的工程化成熟：等变性的数学优美性已经得到学术认可，接下来是如何将其产品化——更快的推理速度、更友好的开发接口、更大规模的部署。
多保真度模拟流程的标准化：行业将形成一套被广泛认可的"虚拟筛选 → 实验验证"最佳实践，降低中小玩家的入场门槛。

b. 长期演进形态 (The Endgame)

长期来看，Max 的终局思考可以归纳为三个阶段：

渐进式自动化：不是一步到位搞"暗实验室"，而是在每一个环节逐步引入 AI 辅助。从虚拟筛选到合成规划，从实验设计到结果分析，每一个步骤都有 AI 加持。
重大材料突破先于完全自动化：在追求"完全自动化"之前，先用 AI 发现几个改变行业的材料（室温超导体、高效低成本电池材料、可降解塑料……）。用 Max 的话说：“先证明自己有用，再谈完全替代人类。”
人机协作的新科学范式：最终的终局不是 AI 取代科学家，而是 AI 成为科学家的"思维放大器"（cognitive amplifier）。科学家提出假设，AI 负责大规模探索和验证；科学家负责判断"为什么"，AI 负责执行"是什么"。这是一种新型的人机协作科学范式。

7. 原汁原味金句 (Based Quotes)

“We are not just doing AI for science. We are searching the space of all possible molecules, and that changes everything.”

我们不只是用 AI 做科学研究。我们正在搜索所有可能分子的空间，而这改变了一切。

“Equivariance is not a trick. It’s a way of encoding the laws of physics directly into the neural network architecture.”

等变性不是小技巧。它是一种直接将物理定律编码进神经网络架构的方式。

“Complete automation of labs is a premature goal. First, we need to demonstrate that AI can discover breakthrough materials.”

实验室的完全自动化是一个过早的目标。首先，我们需要证明 AI 能够发现突破性材料。

“The $6.2 billion Jeff Bezos invested is not a bubble. It’s a signal.”

Jeff Bezos 投的 62 亿美元不是泡沫。那是一个信号。

“Generative AI and stochastic thermodynamics share the same mathematical heart — it’s just that physicists figured it out first.”

生成式 AI 与随机热力学共享同一个数学内核——只是物理学家先搞清楚了而已。

📺 播客地址

播客时长: 34分钟

1. 核心技术主旨 (The TL;DR)#

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)#

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)#

a. 系统架构与硬件交互 (Infra & System Design)#

b. AI 范式与工作流重构 (AI Paradigms & Workflows)#

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)#

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)#

a. 颠覆性反共识洞察 (Contrarian Hot Takes)#

b. 商业模式与成本经济学 (Business Model & Unit Economics)#

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)#

a. 人才密度与招聘哲学 (Max 并未在原文中详细展开招聘哲学，仅提及团队背景)#

b. 硬核极客日常与轶事 (Geek Lore & Quirks)#

6. 未来推演与终局思考 (Future Outlook & Endgame)#

a 短期技术前瞻 (Next 12-18 Months)#

b. 长期演进形态 (The Endgame)#

7. 原汁原味金句 (Based Quotes)#