原始标题: Google’s AGI Plan Just Got Clearer (Demis Hassabis Explains)

发布日期: 2026-03-01 | 来源频道: @TheAiGrid

📝 深度摘要

1. 对话背景与核心主题

本期节目聚焦Google DeepMind CEO Demis Hassabis近期接受的深度专访,探讨通用人工智能(AGI)的定义标准、实现路径以及行业未来的关键突破点。视频同时引用了Ray Dalio、Yoshua Bengio、Brett Acock等多位行业领袖的观点,试图回答一个核心元问题:什么才是真正的AGI?如何判断人类已经抵达这一里程碑?

2. 核心干货概览

类别 核心事件 / 产品 战略意义 / 行业影响
重磅发布 Demis Hassabis提出"1911知识截止"AGI测试法 重新定义AGI验证标准,区分模式匹配与真正科学推理
巨头动态 Google DeepMind认为还需2-3个重大突破才能实现AGI 明确技术路线图,持续学习、记忆优化、上下文效率成关键
关键参数 ARC AGI基准测试:Gemini 3 Deep Think达80% 基准测试可信度遭质疑,AI"理解"能力与准确率严重脱节
行业分歧 Yoshua Bengio:AGI是能力频谱,非单一时刻 反驳"奇点"叙事,强调需逐项追踪AI技能演进
市场预测 Figure Robotics:若攻克AGI,2035年前市值可达25万亿美元 具身智能(Embodied AI)被视为比纯LLM更接近AGI的路径

3. 深度事件拆解

3.1 Demis Hassabis的AGI新测试法

事件背景/导火索:业界缺乏公认的AGI定义,基准测试、推理评估、机器人测试各有标准但无法统一。Hassabis在专访中提出了一套创新测试方案。

核心更新与技术细节:Hassabis提出的测试方法要求用特定知识截止日期(如1911年)训练AI系统,然后验证它能否独立推导出爱因斯坦在1915年提出的广义相对论。他表示:“大脑是唯一已知的通用智能存在证明”,因此AGI应该被定义为"能够展现人类所有认知能力的系统"。这一标准要求AI具备真正的创造力、持续学习能力、长期规划能力,而当前系统在这些方面存在明显短板。

市场与竞争反应:这一测试方法的核心价值在于区分"模式匹配"与"从第一性原理出发的真正科学推理"。Hassabis承认该测试执行难度很高,因为AI需要获得人类所拥有的全部背景信息——包括多年专注研究、通过实验建立的物理直觉、对洛伦兹方程和麦克斯韦方程式的访问权限,以及最终的创造性飞跃。

3.2 通往AGI还需要什么?

事件背景/导火索:Hassabis认为当前AI系统虽然令人印象深刻且持续进步,但尚未实现真正的通用智能。

核心更新与技术细节:Hassabis预测还需要两到三个重大技术突破才能抵达AGI,这些突破包括:持续学习(Continual Learning)——系统能够在部署后不断学习新知识而非一次性训练;更好的记忆机制——类似人脑的高效信息存储;更长或更高效的上下文窗口——不必记住一切,只需记住重要的事情;更强的长期推理与规划能力。他倾向于认为仅靠扩展现有技术路线不够,需要"一到两个真正重大的创新"。

细节支撑:Hassabis明确表示不认同Meta AI首席科学家Yann LeCun关于"LLM是死路"的观点。他认为大语言模型将是最终AGI系统的"关键组成部分",唯一需要讨论的是它们是"关键组件还是唯一组件"。

3.3 ARC AGI基准测试遭质疑

事件背景/导火索:ARC AGI基准测试长期以来被视为AGI领域的"终极考验",人类基线约为80%至90%。近期数据显示模型性能快速提升——Gemini 3 Deep Think已达到80%准确率。

核心更新与技术细节:研究人员Milani Mitchell发现ARC AGI存在严重漏洞:部分任务可以通过利用任务数据中的"虚假相关性"(spurious correlations)来"作弊"解决。例如,输入中代表颜色的数字可以被LLM用来寻找算术模式,从而得出正确答案而非通过真正理解。如果将编码从数字改为其他符号,准确率就会下降。她的研究表明,当AI模型正确解决ARC AGI任务时,只能在约70%的情况下给出正确的推理解释,而人类这一比例高达90%。这意味着大约三分之一的正确答案实际上是"巧合"。

市场与竞争反应:这一发现与1904年著名的"聪明汉斯"事件惊人相似——一匹会算数学、读时钟、识别纸牌的马被当时人们视为天才,后来被发现只是通过读取提问者微小的无意识面部表情来决定何时停止敲击蹄子。视频指出:基准测试的高分并不能证明AI真正理解任务,它可能"为了完全错误的原因得出正确答案"。

3.4 具身智能:AGI的另一种可能路径

事件背景/导火索:纯语言模型路线遭遇瓶颈,业界开始关注结合视觉、语言与动作的VLA(Vision-Language-Action)模型。

核心更新与技术细节:Figure Robotics CEO Brett Acock提出反直觉观点:如果他们公司的视觉语言动作模型能够构建精确的物理世界预测模型来导航现实物理世界,可能会比纯LLM实验室更早解决AGI问题。他表示:“如果一个模型能完美预测真实世界的物理时空推理,那将是有趣的。“Figure的Helix系统被视为这一路线的代表。

细节支撑:Acock大胆预测:“如果他们(Figure)攻克AGI,到2035年前公司市值将达到25万亿美元。“他同时指出当前AI聊天机器人"仍然感觉相当愚蠢”,它们是"高级互联网搜索的研究工具”。真正的AGI将是多模态的——它会倾听你、与你交谈、观察世界、具有近乎完美的记忆、深度个性化,并能与世界交互。

3.5 Yoshua Bengio:AGI是一个频谱

事件背景/导火索:公众对AGI的理解往往被"奇点"叙事主导,期待某个单一时刻AI全面超越人类。

核心更新与技术细节:图灵奖得主Yoshua Bengio明确反对这一观点。他指出:“智能不仅仅是一个数字。有人在某些事情上非常聪明,在其他事情上很愚蠢。AI亦如此。“当前AI系统在知识、多种语言能力等某些方面已经远超人类,但在其他方面"像孩子一样愚蠢”。他建议不应思考"AGI时刻”,而应追踪"特定技能的进步”,并针对每项技能追问:它有多大用处?可能被如何滥用?如果失控会怎样?

4. 核心干货运用

用户/开发者建议:鉴于基准测试存在被"作弊"的风险,开发者和研究人员不应仅依赖准确率来评估AI能力。需引入推理过程验证机制,确保模型不仅给出正确答案,还能正确解释得出该答案的原因。对于投资和职业选择而言,需认识到LLM并非AGI的唯一路径,具身智能(机器人+多模态模型)可能成为下一阶段的关键突破口。

教程/实战环节还原:[嘉宾未提供具体教程或演示环节]

5. 行业前瞻与非共识观察

反直觉结论:视频提出一个反直觉可能性——解决AGI的可能不是OpenAI、Google等纯LLM实验室,而是Figure Robotics这类专注于具身智能的公司。原因在于:构建精确的物理世界预测模型需要AI真正理解空间和时间推理,这种能力可能比纯文本推理更接近"通用智能"的本质。

潜在风险预警:1)基准测试被持续"游戏化”,可能导致行业对AGI进展的误判;2)即使AGI真的实现,它更像是一个能力渐进的"频谱"而非单一时刻,这意味着对"AGI即将到来"的炒作需要更谨慎的审视;3)当AI系统能够"自动化所有智力活动",到2050年世界可能发生相当于"10000年进步"级别的剧变,这一前景既令人兴奋也令人忧虑。

6. 金句

  • “大脑是唯一已知的通用智能存在证明,这就是为什么我一直用展现人类所有认知能力来定义AGI——这是一个非常高的标准。”
  • “真正的创造力、持续学习、长期规划——当前系统在这些方面仍然做得不好。真正的通用智能不应该是一种’参差不齐的智能’。”
  • “高分并不意味着AI真正理解任务,它可能为了完全错误的原因得出正确答案——准确率几乎无法告诉你模型为何正确。”
  • “智能不仅仅是一个数字。有人在某些事情上非常聪明,在其他事情上很愚蠢。AI亦如此。”
  • “AGI将是有史以来最伟大的工具——但我们需要现在就考虑如何防止它被滥用,以及如果失去控制会发生什么。”

📺 视频原片


视频ID: j0Gnn6KdLFk