原始标题: Why Scale Will Not Solve AGI | Vishal Misra - The a16z Show
发布日期: 2026-03-17 | 来源频道: @a16z
📝 深度摘要
1. 讨论背景与核心主题
本次对话发生于a16z播客节目,主讲嘉宾为哥伦比亚大学计算机科学教授Vishal Misra。Misra是网络与机器学习交叉领域的权威学者,其研究兴趣涵盖分布式系统、机器学习理论基础及大语言模型内部机制。作为曾早期接触GPT-3的学者之一,Misra在2020年即实现了首个检索增强生成(RAG)生产级落地案例——为ESPN体育数据平台构建基于GPT-3的板球统计查询系统。
本次对话的核心议题围绕一个根本性命题展开:单纯通过扩大模型规模能否实现通用人工智能(AGI)? Misra及其团队通过系列论文提出系统性论证,认为当前大语言模型即便在参数规模达到数千亿之后,仍无法跨越从"相关性"到"因果性"的认知鸿沟,而这一鸿沟恰是AGI的核心门槛。对话详细阐述了Misra提出的贝叶斯推理框架、贝叶斯风洞实验设计、以及其对AGI实现路径的独特判断。
2. 核心干货概览
战略宏观要点:
第一,规模并非万能解药。当前业界普遍存在"Scaling Law信仰",认为更大模型、更多数据、更多计算资源即可解决一切问题。Misra明确指出这一路径存在根本性天花板——即便将模型规模扩展至难以想象的程度,也无法仅凭规模突破实现真正的AGI。
第二,LLM本质是贝叶斯推理机。Misra通过其"矩阵抽象"理论证明,大语言模型本质上是在进行后验概率更新——当给予新的上下文示例时,模型会根据贝叶斯定理更新其对任务的理解。这一发现彻底改变了业界对LLM能力的认知范式。
第三,AGI需要两大突破:可塑性与因果推理。Misra断言,实现真正AGI必须同时满足两个条件:一是实现持续学习(continual learning)机制,使模型能够在推理过程中动态调整权重而非仅依赖冻结的权重;二是从相关性学习跃迁至因果建模,构建能够进行反事实推理的模拟器。
第四,爱因斯坦测试是AGI的试金石。Misra提出一个大胆的检验标准:如果将LLM仅训练于1916年之前的物理知识(牛顿力学、迈克尔逊-莫雷实验等),它能否独立推导出广义相对论?如果答案为否,则当前所有LLM均未触及AGI门槛。
3. 深度决策链还原:宏观逻辑与产业重构
从矩阵抽象到贝叶斯推理的理论路径
Misra的学术探索始于一个朴素的困惑:当GPT-3在2020年发布时,他成功运用上下文学习(in-context learning)能力构建了板球数据库的自然语言查询接口。这一任务的独特之处在于:他设计的领域特定语言(DSL)从未出现在GPT-3的训练数据中,模型必须仅凭少量示例理解DSL的语义结构并完成推理。这引发了一个根本性问题:LLM如何在完全陌生的任务上实现即时学习?
Misra提出的"矩阵抽象"框架为理解这一现象提供了数学基础:设LLM的词汇表规模为V(例如GPT系列约50,000个token),令每一个可能的Prompt对应矩阵的一行,每一列代表下一个token的概率分布。在理想情况下,这个矩阵的规模远超可观测宇宙中的电子总数——这意味着任何LLM都只能是对真实分布的压缩近似。当LLM接收新示例时,它本质上是在这个稀疏矩阵中进行贝叶斯后验更新,逐步调整对任务目标的概率认知。
贝叶斯风洞实验:形式化验证
为回应学术界对"贝叶斯更新"这一表述的质疑——批评者认为任何序列处理都可被泛化为贝叶斯推理——Misra团队设计了更为严格的"贝叶斯风洞"实验。实验核心设计如下:构建一个组合空间庞大的任务,使其无法被小规模模型通过记忆完成;精确计算该任务的理论贝叶斯后验分布;然后在完全白盒环境下训练Transformer、Mamba、LSTM、MLP等不同架构,验证其推理结果与理论分布的吻合度。
实验结果具有决定性意义:Transformer在10^-3比特精度级别完美复现了贝叶斯后验分布,Mamba表现良好,LSTM仅能完成部分任务,而MLP完全失效。这一发现揭示了一个关键洞见:模型架构本身而非训练数据决定了贝叶斯推理能力的上限。这意味着当前主流Transformer架构具备实现贝叶斯更新的内在几何结构,而业界对更大模型的盲目追求可能忽略了架构层面的根本性约束。
从香农熵到因果推理的认知跃迁
在理论框架确立后,Misra将分析推向更深层次:当前LLM本质上是香农熵(Shannon Entropy)层面的相关性学习机器。香农熵衡量的是对已知序列的下一个元素进行概率预测的能力——这正是当前所有大语言模型的核心训练目标(预测下一个token)。然而,真正的智能需要的是科尔莫戈罗夫复杂度(Kolmogorov Complexity)层面的能力:给定一个现象,找出生成该现象的最短程序。
Misra以圆周率π为例进行阐释:π的数字序列具有无限的香农熵(无法通过统计规律预测下一位),但其科尔莫戈罗夫复杂度极低(存在极短的程序可精确生成整个序列)。当前所有深度学习模型仍停留在香农熵世界,它们能够捕捉token之间的相关性模式,但无法像人类大脑那样构建对现实的因果表征。
爱因斯坦测试:因果推理的终极检验
为将理论转化为可操作的AGI检验标准,Misra提出了著名的"爱因斯坦测试":将LLM仅训练于1916年之前的物理学数据(牛顿力学、迈克尔逊-莫雷实验关于光速恒定的证据、水星轨道异常等),观察它能否独立推导出爱因斯坦的广义相对论方程。这个测试的设计精妙之处在于:所有必要的数据线索都已存在于训练集中,模型需要完成的是从相关证据到因果理论的认知跃迁——这正是爱因斯坦当年所做的事情。
Misra论证认为,当前LLM无法通过这一测试,原因恰恰在于其训练范式的根本限制:模型被训练为最大化对"已有陈述"的预测精度,这产生了一种"数据引力"效应——当整个学术共同体都说X时,即便存在少量Y的证据,模型也会倾向于将Y标记为异常而非革命的起点。这解释了为何LLM能够出色地完成现有任务,却无法产生真正意义上的范式突破。
持续学习与可塑性:被忽视的另一半
除因果推理外,Misra强调的第二个AGI必要条件是持续学习能力。当前LLM在预训练阶段完成后,其权重即被冻结——这意味着每次新的对话都是从头开始,模型无法将之前学到的知识沉淀为持续存在的权重调整。这与人类大脑形成鲜明对比:人类在整个生命周期中保持神经可塑性,能够不断整合新知识而不遗忘已有技能。
持续学习面临的核心难题是"灾难性遗忘"(catastrophic forgetting)——当模型学习新任务时,往往会破坏对旧任务的表达能力。Misra指出,这一问题的根源在于当前架构缺乏对权重动态调整的内在支持。他对Donald Knuth近期利用LLM解决哈密顿回路问题的案例进行分析,认为Knuth实际上是通过巧妙的提示工程"黑进了"持续学习机制——让LLM在上下文中逐步积累解决方案,但这并非真正的权重级学习。
4. 核心干货运用:创始人与战略家手册
对AI创业者的战略启示
对于正在构建AI产品的创业者而言,Misra的研究提供了几个关键的战略判断依据。首先,RAG技术的战略价值被低估。Misra早在2020年即实现RAG生产落地,其核心理念是通过外部知识检索弥补LLM的"数据引力"缺陷。当模型自身无法突破训练数据的限制时,RAG提供了绕过这一限制的工程化路径——这在需要最新信息或专业领域知识的应用场景中尤为关键。
其次,架构层面的创新机会远未穷尽。当前业界对Transformer架构的依赖已趋于饱和,但Misra的实验表明Mamba等新型架构已展现出接近Transformer的贝叶斯推理能力。这意味着在特定场景下,更轻量或更专业化的架构可能成为更优选择。创业者不应盲目追逐更大的基础模型,而应根据任务特性选择最适配的推理引擎。
第三,因果推理是下一个技术边疆。Misra明确指出,当前所有LLM产品本质上都是"相关性机器"——它们能够出色地完成模式匹配和概率预测,但在需要反事实推理、干预模拟的场景中表现乏力。任何试图构建真正"理解"世界的产品,都需要在其架构中嵌入因果建模能力。这为专注于因果AI、神经符号推理、具身智能的创业者提供了巨大的市场空间。
对产业投资者的技术尽调框架
Misra的研究为技术尽调提供了新的评估维度。在评估AI项目时,投资者不应仅关注参数规模、训练数据量、基准测试分数等表观指标,而应深入追问:其一,目标场景是否需要因果推理能力? 如果仅涉及模式匹配和内容生成,当前LLM已足够;其二,项目是否具备持续学习需求? 如果需要模型在不同时刻保持知识一致性,需评估其架构对可塑性的支持程度;其三,团队是否理解底层机制? Misra强调"了解为何失败比知道如何成功更重要"——对LLM工作机制有深刻理解的团队,更有可能在架构层面取得突破。
对AGI路径的重新校准
Misra的研究对AGI时间线预期具有重要修正意义。当前主流预测普遍基于Scaling Law的外推,认为更大模型将在某一天自然涌现出AGI能力。Misra的论证表明这一范式存在根本性缺陷:AGI需要的是架构层面的质变而非规模的量变。这意味着AGI的时间线可能比预期更长——不是因为计算资源不足,而是因为我们需要全新的理论框架和架构范式。投资者应以更长的投资周期视角评估AGI相关布局。
5. 冲突点与未来预判
与主流学术界的关键分歧
Misra的观点与当前AI研究主流存在几个显著冲突点。第一,“规模解决一切"范式的反驳。当前业界普遍将Scaling Law视为决定性规律——只要持续扩大模型规模和数据量,能力提升将自然发生。Misra通过理论论证和实验数据主张:规模提升存在天花板,质变需要架构创新。这一立场与DeepMind等机构的Scaling信仰形成直接对立。
第二,贝叶斯框架的正名。Misra承认在其首篇论文提出"LLM即贝叶斯推理机"时,遭遇了学术界的强烈反弹——批评者认为"任何序列处理都可被泛化为贝叶斯"的指控不无道理。Misra通过设计严格的贝叶斯风洞实验、用精确数学证明回应了这些质疑。这一过程揭示了学术研究的规范性要求:不仅需要直觉洞见,更需要形式化验证。
第三,对AGI定义的再定义。当前业界对AGI的界定存在广泛分歧——从通过图灵测试到执行经济有用劳动。Misra提出以"爱因斯坦测试"作为AGI的更高标准:通过给定领域的相关性证据,能否独立推导出革命性的因果理论?这一标准远超当前所有LLM的能力边界,为AGI研究设立了更具挑战性的目标。
未来十年的技术演进预判
基于Misra的理论框架,可以对AI产业的未来演进做出以下预判:第一阶段(2025-2027),RAG将成为企业级AI应用的标准架构,以弥补基础模型的知识时效性和领域覆盖不足;因果推理模块将开始被整合进产品堆栈,用于需要反事实判断的场景。
第二阶段(2028-2032),持续学习技术将取得突破,实现真正的"边学边用"能力而非每次会话的独立推理;新型架构(可能不是Transformer也不是Mamba)将取代当前主流范式,成为下一代基础模型的核心。
第三阶段(2032-2035),如果持续学习和因果推理两大难题被同时攻克,AGI将成为可企及的目标。但Misra也强调,即便实现AGI,它仍将是由人类设计和训练的工具——模型的优化目标函数(“不要在下一个token预测中犯错”)与人类生物演化目标(“不要死亡并繁衍”)存在本质差异,担忧AI"有意识"或"试图欺骗"属于对架构的误读。
6. 金句
“它们是进行矩阵乘法的硅粒,没有意识,没有内心独白。它们被训练的目标函数是不要在下一个token预测上犯错,这与人类’不要死亡、繁衍’的演化目标完全不同。”
“Scaling无法解决一切。你需要一种不同的架构。持续学习是一个困难的问题,你必须平衡学习新知识与灾难性遗忘的风险。”
“如果你训练一个LLM仅使用1916年之前的物理知识,让它推导出相对论——如果它能做到,那我们就拥有了AGI。它做不到。”
“当前所有深度学习都在做相关性学习,但人类大脑做的是因果模拟。当我向你扔一支笔时,你不需要计算概率——你直接模拟轨迹然后躲避。”
“香农熵衡量的是预测下一个符号的难度,而科尔莫戈罗夫复杂度是生成该序列的最短程序长度。LLM停留在香农世界,尚未跨越到科尔莫戈罗夫复杂度层面。”
“LLM就像被困在一个流形上——它们能够在这个流形上进行贝叶斯推理上下移动,但它们无法生成新的流形,而这需要理解宇宙运作的方式并提出新的表征。”
“真正的问题不是LLM能做什么,而是它们为什么能这样做以及如何做到。我现在已经很好地理解了’为什么’和’如何’,下一步是将它们推向下一个level。”
📺 视频原片
视频ID: zwDmKsnhl08