原始标题: State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI
发布日期: 2026-01-31 | 来源频道: @lexfridman
📝 深度摘要
1. 对话背景与核心主题
2026年AI走向何方?三位AI领域知名研究者Nathan Lambert、Sebastian Raschka与Lex Fridman深度对谈,探讨预训练scaling的边际收益递减、RLVR(可验证奖励的强化学习)带来的范式转移、中国开源模型的崛起以及AI编程工具如何重塑开发者体验。对话还触及RLHF的理论困境——人类偏好本质上无法被精确量化,以及AI数据战争的版权伦理问题。这是一场关于技术边界、竞争格局与人类智慧本质的思想盛宴。
思想图谱概览
| 类别 | 核心洞察 / 技术点 | 维度 (技术/哲学/战略) |
|---|---|---|
| 技术突破 | 推理时间 scaling(o1、DeepSeek R1 带来的"顿悟时刻") | 技术:模型通过延长思考时间实现能力跃升,类似人类自我纠错机制 |
| 范式转移 | 从预训练 scaling 转向 RLVR(可验证奖励的强化学习) | 技术:预训练成本高昂,RLVR 成为更具性价比的能力解锁方式 |
| 中美竞争 | 中国开源模型生态爆发,DeepSeek 引领但格局正在分散 | 战略:2026 年中国将涌现更多开源模型制造商,商业模型仍不明晰 |
| AGI 路径 | scaling laws 依然有效,但边际收益递减 | 战略:硬件约束(GPU 集群)与数据质量成为新瓶颈 |
| 编程革命 | AI 编程工具(Claude Code、Cursor)改变开发者体验 | 人文:编程从"孤独的技艺"转向"人机协作",但存在技能流失风险 |
| 安全与边界 | RLHF 的本质困境——人类偏好难以被精确量化 | 哲学:模型"去个性化"与"保持锋芒"之间的永恒张力 |
核心主题深度复盘
主题一:2026 AI 格局——中美博弈与模型竞争
背景上下文
2025 年 1 月的 DeepSeek R1 发布被视为一个分水岭事件。这家中国公司以远低于预期的计算成本,实现了接近最先进水平的性能表现,由此引发的冲击波重塑了整个 AI 行业的竞争态势。Nathan Lambert 指出,DeepSeek 的成功在中国内部催生了一场类似 “ChatGPT 时刻” 的连锁反应——几乎所有中国科技公司都相继发布了强大的开源权重模型,Kimi、Minimax、Z.ai 等新兴玩家展现出比 DeepSeek 更激进的发展势头。Sebastian Raschka 则强调,当前不存在任何公司能够长期垄断技术优势,因为研究人员频繁流动,创意在开源社区中快速传播,真正稀缺的资源是实现这些创意的计算能力。
从模型使用体验来看,三位对话者形成了一个有趣的对比样本:Sebastian 主要使用 ChatGPT 的非思考模式处理日常快速查询,Nathan 则是 Claude Opus 4.5 的重度用户并坚持使用 extended thinking,而 Lex 本人更倾向于 Gemini 的长上下文处理能力。这种差异化使用揭示了一个深层现实:在消费级聊天机器人市场,用户的选择更多受到"肌肉记忆"、品牌惯性与特定功能场景的影响,而非纯粹的性能排名。Nathan 提到一个值得关注的现象:Claude Opus 4.5 在 X 平台(Twitter)引发的热潮,与其说是技术优势的客观反映,不如说是一种 “meme” 式的社交传播效应。
技术逻辑推导
关于模型架构,Sebastian 进行了详尽的技术拆解。他指出,从 GPT-2 到当代大语言模型,底层 transformer 架构的基本组件几乎保持不变,所谓的 “进步” 主要体现在三个维度:首先是混合专家(Mixture of Experts,MoE)机制的引入,使得模型能够在不增加推理成本的前提下扩展参数量——通过路由器动态选择激活哪个"专家"网络,模型可以在 256 个专家中只使用少数几个;其次是注意力机制的优化,包括 Group Query Attention、多头潜在注意力(Multi-head Latent Attention)以及滑动窗口注意力等变体,这些改动旨在降低长上下文的 KV cache 内存占用;最后是训练基础设施的进步,如 FP8、FP4 量化技术的应用,使得同等硬件上能够实现更高的 tokens-per-second 吞吐量。
Sebastian 特别强调了一个反直觉的事实:这些看似革命性的技术改进,本质上都是 “knobs”(旋钮)——可调节的参数,而非架构范式的根本转变。他以自己编写 “从零构建 LLM” 书籍的经历为例,说明学生可以从 GPT-2(1.24 亿参数)出发,通过逐步添加 MoE、RoPE 位置编码、Group Query Attention 等组件,最终理解当代模型的全貌。这种 “从简入繁” 的学习路径,恰恰验证了 transformer 架构的核心稳定性。
人文/社会影响
Nathan 对 AI 行业的 “内卷” 文化提出了深刻反思。他援引了 “9-9-6” 工作制(早上 9 点到晚上 9 点,每周 6 天)的例子,指出这种源自中国却已在硅谷前沿实验室普遍化的超时工作模式,正在以 “人类资本” 为代价换取技术迭代速度。他提到了自己经历的职业倦怠,并将其与苹果公司供应链管理时期的极端工作强度进行类比——后者甚至导致了员工死亡。Sebastian 则从学术视角补充,认为教授群体虽然同样工作繁重,但 “与学生在一起” 的使命感和人际关系赋予了他们更强的心理韧性,这种 “根植于人与人连接” 的工作性质是前沿实验室所缺乏的。
主题二:Scaling Laws 的三重境界——预训练、后训练与推理
背景上下文
关于 scaling laws 是否依然有效的讨论,是本次对话最硬核的技术部分。Nathan 开篇即指出,scaling laws 作为一个技术术语,指的是计算量(compute)与下一个 token 预测准确率之间的幂律关系——在 13 个数量级的计算量跨度内,这种关系始终成立。然而,当人们谈论 “scaling” 时,往往指的是三个不同的维度:预训练 scaling(模型参数与数据规模的同步扩大)、强化学习后训练 scaling(以 RLVR 为代表的可验证奖励强化学习),以及推理时间 scaling(o1 模型开创的"思考 token"延长机制)。
Sebastian 提供了关键的成本分析视角:预训练一个前沿模型的成本约为 500 万美元(按云端市场价格),而 OLMo 3 的完整训练流程(包括多次重启和工程调试)花费约 200 万美元。然而,真正昂贵的并非训练成本,而是服务成本——为数亿用户提供推理服务的 GPU 租赁费用每天可达数十万美元,年化计算成本轻易突破十亿美元级别。这解释了为何实验室在模型规模扩大上变得更为审慎:边际性能提升与边际服务成本的比值正在恶化。
技术逻辑推导
Nathan 详细解释了 RLVR(可验证奖励的强化学习)的工作机制。与传统的 RLHF(基于人类反馈的强化学习)不同,RLVR 不需要人类标注偏好数据,而是直接对可验证的任务结果给予奖励——典型场景包括数学问题求解(答案对错明确)和代码编写(通过测试即成功)。模型在 “生成-评估-再生成” 的循环中自主探索解决问题的路径,这种 “试错学习”(trial-and-error)的能力被 Nathan 称为 2025 年 AI 领域最重要的范式转移。他提到一个令人印象深刻的实验数据:在 Qwen 3 基础模型上仅用 50 步 RLVR 训练,数学准确率就从 15% 飙升至 50%——这不可能是因为模型在 50 步内"学会"了数学知识,而是因为预训练阶段已经吸收的知识被 “解锁” 了。
Sebastian 进一步厘清了一个关键概念:预训练是 “吸收知识”(soaking up knowledge),后训练(尤其是 RLVR)是 “解锁技能”(unlocking skills)。两者的区别在于——预训练赋予模型回答问题的能力,后训练则教导模型 “如何思考” 以更好地运用这些能力。推理时间 scaling 则是这一逻辑的延伸:允许模型在推理时花费更多计算资源(生成更多思考 token),本质上是在 “运行时” 动态分配认知预算。DeepSeek R1 论文中记录的 “顿悟时刻”(aha moment)——模型在解题过程中突然意识到自己犯了错误并重新尝试——被 Sebastian 视为这种训练范式的涌现属性,尽管他谨慎地指出不应过度拟人化这些行为。
人文/社会影响
关于 RLVR 的局限性,Nathan 提到了两个核心挑战。其一是数据污染(contamination)问题:前沿模型在训练阶段可能已经见过测试集或高度相似的变体,导致在基准测试上的表现被高估。他以 Qwen 3 为例——如果改变数学应用题中的数字但保持文字描述不变,模型的准确率会大幅下降,暗示其 “解题能力” 部分来自记忆而非推理。其二是可扩展性的物理边界:GRPO(Group Relative Policy Optimization)等算法的信号强度取决于同一问题不同答案之间的差异——当模型解决所有问题都达到 100% 准确率时,学习信号趋于消失。这解释了为何前沿实验室正在向 “科学推理”、“复杂软件工程” 等更难验证的领域扩展 RLVR 的适用范围。
主题三:AI 编程的现在与未来——工具革命与技能迁移
背景上下文
编程是本次对话中最贴近日常实践的议题。三位参与者都分享了各自的 AI 编程工作流:Sebastian 使用 Codeium 插件配合 VS Code,因为它的 “半自动化” 特性让他能够监督而非完全放任 AI 处理代码;Nathan 则是 Claude Code 的拥趸,认为它提供了 “更高级别的抽象”——用户以自然语言描述意图,AI 负责实现细节,这种 “用英语编程” 的体验从根本上改变了开发者的认知负荷;Lex 则在 Cursor 和 Claude Code 之间切换,依据任务性质选择不同的工具组合。
一个关键数据来自 Nathan 引用的调查:对 791 名专业开发者的调研显示,约 25% 的开发者日常使用的代码中超过 50% 为 AI 生成;更令人惊讶的是,资深开发者(10 年以上经验)比初级开发者更依赖 AI 生成代码。Nathan 将此解读为 “专家更擅长使用 AI” 的证据——他们知道如何设计 prompt、如何审查 AI 输出的代码、如何将复杂任务分解为 AI 可处理的子步骤。
技术逻辑推导
关于 AI 编程工具的底层差异,Sebastian 进行了精辟的分析。他认为 Claude Code 与传统 IDE 插件(如 Codeium)的根本区别在于 “代理化程度”(agency):前者能够自主规划并执行多步骤任务,后者则停留在 “辅助补全” 的层面。Sebastian 坦承自己仍处于 “控制狂” 阶段——他需要看到代码生成的每一个细节才能感到安心,因此更倾向于使用 Codeium。然而,Nathan 提出了一个发人深省的观点:如果完全将编程交给 AI,开发者可能失去调试的乐趣——他将这种乐趣比作 “在沙漠中行走数日后终于喝到水” 的满足感,而 AI 的介入相当于直接省略了整个沙漠旅程。
Lex 则补充了 AI 对编程学习的潜在影响:如果年轻程序员习惯于让 AI 代为调试,他们可能永远无法发展出独立的问题诊断能力。这形成了一个 “恰到好处的 Goldilocks 区间”——AI 应该被用于处理繁琐的样板代码和搜索任务,但核心的 “挣扎” 过程(即尝试自行解决问题)是技能形成的必要条件。Sebastian 建议采用 “刻意离线练习” 的策略:每天留出专门的两小时不用 AI,专注于手工编程,其余时间则充分利用 AI 提升效率。
主题四:AI 与人类知识的未来——数据、版权与智慧
背景上下文
对话的后半段转向了更为哲学化的议题。Sebastian 提到了 2025 年一起震撼业界的事件:Anthropic 因使用 torrent 方式非法获取书籍用于训练而被判赔偿作者 15 亿美元。这仅仅是 AI 数据战争的一个缩影——版权问题、数据获取成本、合成数据的伦理与质量,共同构成了 AI 发展的深层张力。
Nathan 提出了一个更为根本的困境:RLHF(基于人类反馈的强化学习)的数学假设——人类偏好可以被量化为单一数值并通过梯度下降优化——实际上是 “永远无法完全解决” 的问题。他援引了冯·诺依曼-摩根斯特恩效用定理,指出人类偏好在本质上具有多维度、不可通约的特性。当一个语言模型响应需要同时满足 “准确性与风格” 等多重目标时,标注者只能给出 “更喜欢” 的二元判断,这种信息压缩不可避免地造成损失。这一困境被 Nathan 视为 “AI 永远无法达到人类智慧” 的深层原因之一。
技术逻辑推导
关于数据质量的实践,Sebastian 分享了前沿实验室的 “数据管道” 洞察。他指出,当前最大的预训练数据集已达到数十万亿 token 的规模——Qwen 3 据称使用了 50 万亿 token,封闭实验室的传言数字高达 100 万亿。然而,原始网页抓取(Common Crawl)只是入口,经过复杂的多阶段过滤才能得到最终训练数据。关键技术包括:OCR 识别 PDF 中的文本(AI2 的 Semantic Scholar 项目、DeepSeek OCR)、基于分类器的质量筛选、以及合成数据生成(使用更强模型生成训练样本供较弱模型学习)。
Sebastian 特别强调了 “数据质量重于数量” 的原则:即使较小的模型,如果训练数据经过精心筛选和重新表述(将混乱的 Reddit 帖子改写为结构化的问答对),可以在更少的 token 上达到与大数据集相当甚至更好的性能。这与人类学习的情形相似——阅读一本精心编辑的教材,比浏览大量低质量的网帖更有效率。
技术拓扑与工具链
底层架构
- Transformer 架构:从 GPT-2(1.24 亿参数)到当代千亿参数模型,核心组件(注意力机制、前馈网络、层归一化)保持稳定
- 混合专家(MoE):通过动态路由选择激活的专家网络,实现 “稀疏化”——模型总参数量大但推理时只激活少量
- 注意力优化:Group Query Attention(GQA)、多头潜在注意力(MLA)、滑动窗口注意力——均旨在降低长上下文的 KV cache 开销
- 量化技术:FP8、FP4 训练与推理——通过降低数值精度换取更高的 tokens-per-second 吞吐量
推荐工具与书籍
- Sebastian Raschka:《Build a Large Language Model from Scratch》《Build a Reasoning Model from Scratch》——从零实现是理解 LLM 的最佳路径
- Nathan Lambert:《Reinforcement Learning from Human Feedback》——RLHF 领域的权威著作
- 编程工具:Claude Code(高度代理化)、Cursor(IDE 集成)、Codeium(半自动辅助)、VS Code + 各种 LLM 插件
- 模型权重格式:Hugging Face Transformers——事实上的标准接口
- 推理服务:SGLang、vLLM——生产级推理框架
冲突点与未解之谜
非共识洞察
- 预训练 scaling 是否已死:Sebastian 认为预训练 scaling 仍然是基础,只是边际收益递减;Nathan 则强调 RLVR 在性价比上已经超越纯预训练
- RLVR 的本质:Sebastian 认为 RLVR “解锁” 的是预训练阶段已经存在的知识;Nathan 援引 50 步从 15% 飙升至 50% 的实验数据,认为这种解释过于简化
- RLHF 的前景:Nathan 认为 RLHF 有根本性的理论局限(偏好量化问题),难以进一步扩展;Sebastian 则认为 RLHF 作为 “微调层” 仍有价值
- NVIDIA 的护城河:Sebastian 强调 CUDA 生态是二十年的积累,其他芯片难以短期超越;Nathan 补充说,一旦 AI 发展趋于稳定,定制芯片的窗口才会真正打开
待解决的难题
- AI 能否产生真正原创的洞察:Lex 指出当前 LLM 在总结提炼方面表现不佳——它们倾向于 “消除锋芒” 而非保留原创见解的 “刺耳感”
- 人类偏好的可量化性:Nathan 引用社会选择理论(social choice theory),指出将多元偏好压缩为单一奖励函数在数学上存在根本性困难
- AGI 的时间表:对话中未给出明确年份预测,但一致认为当前距离 AGI 仍有相当距离,且路径不清晰
- AI 对教育系统的冲击:三位参与者都承认"AI 时代如何学习"是一个尚未解决的系统性问题
金句
- “预训练是吸收知识,后训练是解锁技能——模型已经知道答案,只是需要学会如何提取出来。”
- “如果你让 AI 替你做所有事情,两年后你还会为自己的工作感到骄傲吗?”
- “RLHF 永远无法完全解决,因为人类偏好本身就是一道无法被精确数学化的哲学命题。”
- “在沙漠中行走数日最终找到水源的快感——这正是调试的乐趣所在,而 AI 正在夺走它。”
- “低垂的果实已经被摘取了,但 scaling laws 在 13 个数量级的范围内从未失效——我们只是还没有足够的资源去验证更大的尺度。”
- “模型不需要变得更聪明才能被商业化——它只需要足够好用,好用到人们愿意为之付费。”
- “AI 的历史将证明,知识是无法被永久垄断的——即使在算力受限的年代,华为依然造出了芯片。”
- “人类的智慧不仅仅在于知道答案,更在于知道该问什么问题——而这,恰恰是当前 AI 最难学会的东西。”
📺 视频原片
视频ID: EV7WhVT270Q