原始标题: State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

发布日期: 2026-01-31 | 来源频道: @lexfridman

📝 深度摘要

1. 对话背景与核心主题

2026年AI走向何方？三位AI领域知名研究者Nathan Lambert、Sebastian Raschka与Lex Fridman深度对谈，探讨预训练scaling的边际收益递减、RLVR（可验证奖励的强化学习）带来的范式转移、中国开源模型的崛起以及AI编程工具如何重塑开发者体验。对话还触及RLHF的理论困境——人类偏好本质上无法被精确量化，以及AI数据战争的版权伦理问题。这是一场关于技术边界、竞争格局与人类智慧本质的思想盛宴。

思想图谱概览

类别	核心洞察 / 技术点	维度 (技术/哲学/战略)
技术突破	推理时间 scaling（o1、DeepSeek R1 带来的"顿悟时刻"）	技术：模型通过延长思考时间实现能力跃升，类似人类自我纠错机制
范式转移	从预训练 scaling 转向 RLVR（可验证奖励的强化学习）	技术：预训练成本高昂，RLVR 成为更具性价比的能力解锁方式
中美竞争	中国开源模型生态爆发，DeepSeek 引领但格局正在分散	战略：2026 年中国将涌现更多开源模型制造商，商业模型仍不明晰
AGI 路径	scaling laws 依然有效，但边际收益递减	战略：硬件约束（GPU 集群）与数据质量成为新瓶颈
编程革命	AI 编程工具（Claude Code、Cursor）改变开发者体验	人文：编程从"孤独的技艺"转向"人机协作"，但存在技能流失风险
安全与边界	RLHF 的本质困境——人类偏好难以被精确量化	哲学：模型"去个性化"与"保持锋芒"之间的永恒张力

核心主题深度复盘

主题一：2026 AI 格局——中美博弈与模型竞争

背景上下文

2025 年 1 月的 DeepSeek R1 发布被视为一个分水岭事件。这家中国公司以远低于预期的计算成本，实现了接近最先进水平的性能表现，由此引发的冲击波重塑了整个 AI 行业的竞争态势。Nathan Lambert 指出，DeepSeek 的成功在中国内部催生了一场类似 “ChatGPT 时刻” 的连锁反应——几乎所有中国科技公司都相继发布了强大的开源权重模型，Kimi、Minimax、Z.ai 等新兴玩家展现出比 DeepSeek 更激进的发展势头。Sebastian Raschka 则强调，当前不存在任何公司能够长期垄断技术优势，因为研究人员频繁流动，创意在开源社区中快速传播，真正稀缺的资源是实现这些创意的计算能力。

从模型使用体验来看，三位对话者形成了一个有趣的对比样本：Sebastian 主要使用 ChatGPT 的非思考模式处理日常快速查询，Nathan 则是 Claude Opus 4.5 的重度用户并坚持使用 extended thinking，而 Lex 本人更倾向于 Gemini 的长上下文处理能力。这种差异化使用揭示了一个深层现实：在消费级聊天机器人市场，用户的选择更多受到"肌肉记忆"、品牌惯性与特定功能场景的影响，而非纯粹的性能排名。Nathan 提到一个值得关注的现象：Claude Opus 4.5 在 X 平台（Twitter）引发的热潮，与其说是技术优势的客观反映，不如说是一种 “meme” 式的社交传播效应。

技术逻辑推导

关于模型架构，Sebastian 进行了详尽的技术拆解。他指出，从 GPT-2 到当代大语言模型，底层 transformer 架构的基本组件几乎保持不变，所谓的 “进步” 主要体现在三个维度：首先是混合专家（Mixture of Experts，MoE）机制的引入，使得模型能够在不增加推理成本的前提下扩展参数量——通过路由器动态选择激活哪个"专家"网络，模型可以在 256 个专家中只使用少数几个；其次是注意力机制的优化，包括 Group Query Attention、多头潜在注意力（Multi-head Latent Attention）以及滑动窗口注意力等变体，这些改动旨在降低长上下文的 KV cache 内存占用；最后是训练基础设施的进步，如 FP8、FP4 量化技术的应用，使得同等硬件上能够实现更高的 tokens-per-second 吞吐量。

Sebastian 特别强调了一个反直觉的事实：这些看似革命性的技术改进，本质上都是 “knobs”（旋钮）——可调节的参数，而非架构范式的根本转变。他以自己编写 “从零构建 LLM” 书籍的经历为例，说明学生可以从 GPT-2（1.24 亿参数）出发，通过逐步添加 MoE、RoPE 位置编码、Group Query Attention 等组件，最终理解当代模型的全貌。这种 “从简入繁” 的学习路径，恰恰验证了 transformer 架构的核心稳定性。

人文/社会影响

Nathan 对 AI 行业的 “内卷” 文化提出了深刻反思。他援引了 “9-9-6” 工作制（早上 9 点到晚上 9 点，每周 6 天）的例子，指出这种源自中国却已在硅谷前沿实验室普遍化的超时工作模式，正在以 “人类资本” 为代价换取技术迭代速度。他提到了自己经历的职业倦怠，并将其与苹果公司供应链管理时期的极端工作强度进行类比——后者甚至导致了员工死亡。Sebastian 则从学术视角补充，认为教授群体虽然同样工作繁重，但 “与学生在一起” 的使命感和人际关系赋予了他们更强的心理韧性，这种 “根植于人与人连接” 的工作性质是前沿实验室所缺乏的。

主题二：Scaling Laws 的三重境界——预训练、后训练与推理

背景上下文

关于 scaling laws 是否依然有效的讨论，是本次对话最硬核的技术部分。Nathan 开篇即指出，scaling laws 作为一个技术术语，指的是计算量（compute）与下一个 token 预测准确率之间的幂律关系——在 13 个数量级的计算量跨度内，这种关系始终成立。然而，当人们谈论 “scaling” 时，往往指的是三个不同的维度：预训练 scaling（模型参数与数据规模的同步扩大）、强化学习后训练 scaling（以 RLVR 为代表的可验证奖励强化学习），以及推理时间 scaling（o1 模型开创的"思考 token"延长机制）。

Sebastian 提供了关键的成本分析视角：预训练一个前沿模型的成本约为 500 万美元（按云端市场价格），而 OLMo 3 的完整训练流程（包括多次重启和工程调试）花费约 200 万美元。然而，真正昂贵的并非训练成本，而是服务成本——为数亿用户提供推理服务的 GPU 租赁费用每天可达数十万美元，年化计算成本轻易突破十亿美元级别。这解释了为何实验室在模型规模扩大上变得更为审慎：边际性能提升与边际服务成本的比值正在恶化。

技术逻辑推导

Nathan 详细解释了 RLVR（可验证奖励的强化学习）的工作机制。与传统的 RLHF（基于人类反馈的强化学习）不同，RLVR 不需要人类标注偏好数据，而是直接对可验证的任务结果给予奖励——典型场景包括数学问题求解（答案对错明确）和代码编写（通过测试即成功）。模型在 “生成-评估-再生成” 的循环中自主探索解决问题的路径，这种 “试错学习”（trial-and-error）的能力被 Nathan 称为 2025 年 AI 领域最重要的范式转移。他提到一个令人印象深刻的实验数据：在 Qwen 3 基础模型上仅用 50 步 RLVR 训练，数学准确率就从 15% 飙升至 50%——这不可能是因为模型在 50 步内"学会"了数学知识，而是因为预训练阶段已经吸收的知识被 “解锁” 了。

Sebastian 进一步厘清了一个关键概念：预训练是 “吸收知识”（soaking up knowledge），后训练（尤其是 RLVR）是 “解锁技能”（unlocking skills）。两者的区别在于——预训练赋予模型回答问题的能力，后训练则教导模型 “如何思考” 以更好地运用这些能力。推理时间 scaling 则是这一逻辑的延伸：允许模型在推理时花费更多计算资源（生成更多思考 token），本质上是在 “运行时” 动态分配认知预算。DeepSeek R1 论文中记录的 “顿悟时刻”（aha moment）——模型在解题过程中突然意识到自己犯了错误并重新尝试——被 Sebastian 视为这种训练范式的涌现属性，尽管他谨慎地指出不应过度拟人化这些行为。

人文/社会影响

关于 RLVR 的局限性，Nathan 提到了两个核心挑战。其一是数据污染（contamination）问题：前沿模型在训练阶段可能已经见过测试集或高度相似的变体，导致在基准测试上的表现被高估。他以 Qwen 3 为例——如果改变数学应用题中的数字但保持文字描述不变，模型的准确率会大幅下降，暗示其 “解题能力” 部分来自记忆而非推理。其二是可扩展性的物理边界：GRPO（Group Relative Policy Optimization）等算法的信号强度取决于同一问题不同答案之间的差异——当模型解决所有问题都达到 100% 准确率时，学习信号趋于消失。这解释了为何前沿实验室正在向 “科学推理”、“复杂软件工程” 等更难验证的领域扩展 RLVR 的适用范围。

主题三：AI 编程的现在与未来——工具革命与技能迁移

背景上下文

编程是本次对话中最贴近日常实践的议题。三位参与者都分享了各自的 AI 编程工作流：Sebastian 使用 Codeium 插件配合 VS Code，因为它的 “半自动化” 特性让他能够监督而非完全放任 AI 处理代码；Nathan 则是 Claude Code 的拥趸，认为它提供了 “更高级别的抽象”——用户以自然语言描述意图，AI 负责实现细节，这种 “用英语编程” 的体验从根本上改变了开发者的认知负荷；Lex 则在 Cursor 和 Claude Code 之间切换，依据任务性质选择不同的工具组合。

一个关键数据来自 Nathan 引用的调查：对 791 名专业开发者的调研显示，约 25% 的开发者日常使用的代码中超过 50% 为 AI 生成；更令人惊讶的是，资深开发者（10 年以上经验）比初级开发者更依赖 AI 生成代码。Nathan 将此解读为 “专家更擅长使用 AI” 的证据——他们知道如何设计 prompt、如何审查 AI 输出的代码、如何将复杂任务分解为 AI 可处理的子步骤。

技术逻辑推导

关于 AI 编程工具的底层差异，Sebastian 进行了精辟的分析。他认为 Claude Code 与传统 IDE 插件（如 Codeium）的根本区别在于 “代理化程度”（agency）：前者能够自主规划并执行多步骤任务，后者则停留在 “辅助补全” 的层面。Sebastian 坦承自己仍处于 “控制狂” 阶段——他需要看到代码生成的每一个细节才能感到安心，因此更倾向于使用 Codeium。然而，Nathan 提出了一个发人深省的观点：如果完全将编程交给 AI，开发者可能失去调试的乐趣——他将这种乐趣比作 “在沙漠中行走数日后终于喝到水” 的满足感，而 AI 的介入相当于直接省略了整个沙漠旅程。

Lex 则补充了 AI 对编程学习的潜在影响：如果年轻程序员习惯于让 AI 代为调试，他们可能永远无法发展出独立的问题诊断能力。这形成了一个 “恰到好处的 Goldilocks 区间”——AI 应该被用于处理繁琐的样板代码和搜索任务，但核心的 “挣扎” 过程（即尝试自行解决问题）是技能形成的必要条件。Sebastian 建议采用 “刻意离线练习” 的策略：每天留出专门的两小时不用 AI，专注于手工编程，其余时间则充分利用 AI 提升效率。

主题四：AI 与人类知识的未来——数据、版权与智慧

背景上下文

对话的后半段转向了更为哲学化的议题。Sebastian 提到了 2025 年一起震撼业界的事件：Anthropic 因使用 torrent 方式非法获取书籍用于训练而被判赔偿作者 15 亿美元。这仅仅是 AI 数据战争的一个缩影——版权问题、数据获取成本、合成数据的伦理与质量，共同构成了 AI 发展的深层张力。

Nathan 提出了一个更为根本的困境：RLHF（基于人类反馈的强化学习）的数学假设——人类偏好可以被量化为单一数值并通过梯度下降优化——实际上是 “永远无法完全解决” 的问题。他援引了冯·诺依曼-摩根斯特恩效用定理，指出人类偏好在本质上具有多维度、不可通约的特性。当一个语言模型响应需要同时满足 “准确性与风格” 等多重目标时，标注者只能给出 “更喜欢” 的二元判断，这种信息压缩不可避免地造成损失。这一困境被 Nathan 视为 “AI 永远无法达到人类智慧” 的深层原因之一。

技术逻辑推导

关于数据质量的实践，Sebastian 分享了前沿实验室的 “数据管道” 洞察。他指出，当前最大的预训练数据集已达到数十万亿 token 的规模——Qwen 3 据称使用了 50 万亿 token，封闭实验室的传言数字高达 100 万亿。然而，原始网页抓取（Common Crawl）只是入口，经过复杂的多阶段过滤才能得到最终训练数据。关键技术包括：OCR 识别 PDF 中的文本（AI2 的 Semantic Scholar 项目、DeepSeek OCR）、基于分类器的质量筛选、以及合成数据生成（使用更强模型生成训练样本供较弱模型学习）。

Sebastian 特别强调了 “数据质量重于数量” 的原则：即使较小的模型，如果训练数据经过精心筛选和重新表述（将混乱的 Reddit 帖子改写为结构化的问答对），可以在更少的 token 上达到与大数据集相当甚至更好的性能。这与人类学习的情形相似——阅读一本精心编辑的教材，比浏览大量低质量的网帖更有效率。

技术拓扑与工具链

底层架构

Transformer 架构：从 GPT-2（1.24 亿参数）到当代千亿参数模型，核心组件（注意力机制、前馈网络、层归一化）保持稳定
混合专家（MoE）：通过动态路由选择激活的专家网络，实现 “稀疏化”——模型总参数量大但推理时只激活少量
注意力优化：Group Query Attention（GQA）、多头潜在注意力（MLA）、滑动窗口注意力——均旨在降低长上下文的 KV cache 开销
量化技术：FP8、FP4 训练与推理——通过降低数值精度换取更高的 tokens-per-second 吞吐量

冲突点与未解之谜

非共识洞察

预训练 scaling 是否已死：Sebastian 认为预训练 scaling 仍然是基础，只是边际收益递减；Nathan 则强调 RLVR 在性价比上已经超越纯预训练
RLVR 的本质：Sebastian 认为 RLVR “解锁” 的是预训练阶段已经存在的知识；Nathan 援引 50 步从 15% 飙升至 50% 的实验数据，认为这种解释过于简化
RLHF 的前景：Nathan 认为 RLHF 有根本性的理论局限（偏好量化问题），难以进一步扩展；Sebastian 则认为 RLHF 作为 “微调层” 仍有价值
NVIDIA 的护城河：Sebastian 强调 CUDA 生态是二十年的积累，其他芯片难以短期超越；Nathan 补充说，一旦 AI 发展趋于稳定，定制芯片的窗口才会真正打开

待解决的难题

AI 能否产生真正原创的洞察：Lex 指出当前 LLM 在总结提炼方面表现不佳——它们倾向于 “消除锋芒” 而非保留原创见解的 “刺耳感”
人类偏好的可量化性：Nathan 引用社会选择理论（social choice theory），指出将多元偏好压缩为单一奖励函数在数学上存在根本性困难
AGI 的时间表：对话中未给出明确年份预测，但一致认为当前距离 AGI 仍有相当距离，且路径不清晰
AI 对教育系统的冲击：三位参与者都承认"AI 时代如何学习"是一个尚未解决的系统性问题

金句

“预训练是吸收知识，后训练是解锁技能——模型已经知道答案，只是需要学会如何提取出来。”
“如果你让 AI 替你做所有事情，两年后你还会为自己的工作感到骄傲吗？”
“RLHF 永远无法完全解决，因为人类偏好本身就是一道无法被精确数学化的哲学命题。”
“在沙漠中行走数日最终找到水源的快感——这正是调试的乐趣所在，而 AI 正在夺走它。”
“低垂的果实已经被摘取了，但 scaling laws 在 13 个数量级的范围内从未失效——我们只是还没有足够的资源去验证更大的尺度。”
“模型不需要变得更聪明才能被商业化——它只需要足够好用，好用到人们愿意为之付费。”
“AI 的历史将证明，知识是无法被永久垄断的——即使在算力受限的年代，华为依然造出了芯片。”
“人类的智慧不仅仅在于知道答案，更在于知道该问什么问题——而这，恰恰是当前 AI 最难学会的东西。”

📺 视频原片

视频ID: EV7WhVT270Q

2026年AI现状：LLMs、编程、Scaling Laws、中国、Agent、GPU、AGI

📝 深度摘要

1. 对话背景与核心主题

思想图谱概览

核心主题深度复盘

主题一：2026 AI 格局——中美博弈与模型竞争

背景上下文

技术逻辑推导

人文/社会影响

主题二：Scaling Laws 的三重境界——预训练、后训练与推理

背景上下文

技术逻辑推导

人文/社会影响

主题三：AI 编程的现在与未来——工具革命与技能迁移

背景上下文

技术逻辑推导

主题四：AI 与人类知识的未来——数据、版权与智慧

背景上下文

技术逻辑推导

技术拓扑与工具链

底层架构

推荐工具与书籍

冲突点与未解之谜

非共识洞察

待解决的难题

金句

📺 视频原片

📝 深度摘要#

1. 对话背景与核心主题#

思想图谱概览#

核心主题深度复盘#

主题一：2026 AI 格局——中美博弈与模型竞争#

背景上下文#

技术逻辑推导#

人文/社会影响#

主题二：Scaling Laws 的三重境界——预训练、后训练与推理#

背景上下文#

技术逻辑推导#

人文/社会影响#

主题三：AI 编程的现在与未来——工具革命与技能迁移#

背景上下文#

技术逻辑推导#

主题四：AI 与人类知识的未来——数据、版权与智慧#

背景上下文#

技术逻辑推导#

技术拓扑与工具链#

底层架构#

推荐工具与书籍#

冲突点与未解之谜#

非共识洞察#

待解决的难题#

金句#

📺 视频原片#

📝 深度摘要

1. 对话背景与核心主题

思想图谱概览

核心主题深度复盘

主题一：2026 AI 格局——中美博弈与模型竞争

背景上下文

技术逻辑推导

人文/社会影响

主题二：Scaling Laws 的三重境界——预训练、后训练与推理

背景上下文

技术逻辑推导

人文/社会影响

主题三：AI 编程的现在与未来——工具革命与技能迁移

背景上下文

技术逻辑推导

主题四：AI 与人类知识的未来——数据、版权与智慧

背景上下文

技术逻辑推导

技术拓扑与工具链

底层架构

推荐工具与书籍

冲突点与未解之谜

非共识洞察

待解决的难题

金句

📺 视频原片