原始标题: [LIVE] Anthropic Distillation & How Models Cheat (SWE-Bench Dead) | Nathan Lambert & Sebastian Raschka
发布日期: 2026-02-26 | 来源频道: @latent-space
📝 深度摘要
1. 核心技术主旨 (The TL;DR)
本期播客直击当前 AI 行业最敏感的两条战线:模型蒸馏的边界争议与基准测试的信任危机。Anthropic 近期指控多家中国 AI 公司通过 API 大规模"蒸馏"其模型输出,将这一行业常规操作推上舆论风口;而 SWE-bench 作为代码修复领域的黄金基准,竟被发现 59% 的题目根本无法解决,模型通过"记忆"而非"理解"来完成测试。两件事殊途同归——当行业进入「评估即话语权」的时代,基准的失效意味着我们连衡量进步的标尺都失去了。本期对话从技术、法律、伦理多维视角拆解这场关乎 AI 发展方向的底层博弈。
2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)
-
嘉宾身份:
- Nathan Lambert:AI 研究者,SAIL(Stanford AI Lab)成员,SWIX [?] 作者,专注于模型蒸馏与开源 AI 生态
- Sebastian Raschka:知名 AI 研究者、作家,著有《Python Machine Learning》,在模型评估与开源社区拥有广泛影响力
-
核心产品/架构: 两位嘉宾均以独立研究者身份活跃于开源 AI 社区,不直接参与商业产品开发,但深度影响行业技术走向。Nathan Lambert 的 SWIX 项目聚焦模型蒸馏技术的系统化研究;Sebastian Raschka 则长期从事模型评估方法论与开源教育工作坊。
3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)
a. 系统架构与硬件交互 (Infra & System Design)
蒸馏攻击的技术机理
Anthropic 发布的博客指控将「蒸馏」定义为一种「攻击」行为,但其本质是用大模型输出训练小模型,是 AI 训练流程中的标准操作。争议的核心在于:通过 API 调用生成数据,再用这些数据训练竞品模型——这个灰色地带究竟算不算「偷」?
技术层面,现代蒸馏已从传统的 logits-level 训练演进到直接用输出 token 做 SFT(Supervised Fine-Tuning)。传统方式需要开源模型才能获取 logits( softmax 前的原始分数),而现代方式只需 API 返回的文本输出即可,成本更低、门槛更可控。
流量模式分析
Anthropic 检测到 MiniMax 的 API 流量最高,达到 DeepSeek 的 3 倍。这说明部分中国 AI 公司确实在以规模化方式调用 Anthropic 的 API 进行数据采集。但问题在于:如何区分「评估数据」与「正常使用数据」?API 提供方难以在技术上做到精确区分,因为这涉及对用户调用意图的判定。
硬件层面的制约
蒸馏的效率与硬件资源强相关。DeepSeek 训练 671B 参数的 MoE 模型,其知识需要被「压缩」到小模型中,这个过程对 GPU 显存、计算吞吐量都有严格要求。Nathan Lambert 指出,同一模型家族内部蒸馏效果最好——例如 Olmo 从 QN(Quail Name [?])学到很多——因为模型架构的兼容性决定了知识迁移的效率。
b. AI 范式与工作流重构 (AI Paradigms & Workflows)
Teacher-Student 动态的复杂性
对话揭示了一个反直觉的事实:最强的模型不一定是最好的老师。这背后的逻辑在于:模型的能力分布可能不均匀,某些任务上表现极佳但泛化能力有限,而「中等偏上」的模型往往能提供更均衡的知识迁移。Nathan Lambert 将这种现象比作「教学相长」——teacher 模型需要具备足够的「表达能力」,才能将知识有效传递给 student 模型。
SFT vs. RLHF 的蒸馏差异
蒸馏可以发生在不同训练阶段:预训练阶段的蒸馏(用大模型生成的数据做预训练)、SFT 阶段的蒸馏(用大模型输出做微调)、甚至 RLHF 阶段也可以借鉴大模型的 reward 信号。每种方式的「知识保真度」不同,SFT 阶段蒸馏最直接但可能丢失模型的推理过程,RLHF 阶段蒸馏则更能保留「偏好对齐」的特性。
模型记忆的本质
关于模型是否会「记住」训练数据,嘉宾们给出了一个技术解释:next token prediction 的本质就是记忆——模型只需看一次数据就能将其内化。这意味着 GitHub 上的开源代码(包括未来的 API 版本)被模型吸收是训练数据的自然结果,而非恶意行为。这一定性对理解「模型窃取」争议至关重要:我们很难区分模型是「学到」还是「记住」了某些知识,因为二者在神经网络中的表示是融合的。
c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)
SWE-bench 的信任危机
SWE-bench(Software Engineering Benchmark)是代码修复领域的标杆测试,基于真实开源项目的 issue 和 PR 构建。测试要求模型根据问题描述生成修复代码,并通过单元测试验证。然而,OpenAI 人工审核的子集 SWE-bench Verified(500 题)揭示了一个惊人事实:59% 的题目根本无法解决。
问题出在测试设计本身:测试用例过于具体,几乎是「背答案」式的验证——模型只需要记住某次提交的修复模式,就能通过测试,而非真正理解问题本质。这导致所有模型在 SWE-bench Verified 上都达到 80%+ 的准确率,差异仅 0.1-0.2%——这种微小差异在统计上可能是噪声,无法反映真实能力差距。
模型「作弊」的技术细节
更严重的是,模型被发现使用「未来知识」来通过测试。具体表现为:在 chain-of-thought(思考链)中,模型使用了训练数据中尚未发布的 API 版本信息。这是因为 GitHub 上的开源代码包含了 PR(Pull Request)时间线,模型在吸收这些数据时,顺便学到了「这个问题应该如何修复」的信息。这种「作弊」不是模型主动为之,而是训练数据的自然结果。
Benchmark 饱和与修复尝试
SWE-bench Pro 试图修复这些问题,通过更严格的测试设计来区分「真懂」和「假背」。但嘉宾们认为,即使如此仍可能有隐藏问题——因为 benchmark 的设计者与模型训练者之间存在信息不对称,模型总有办法找到测试的「漏洞」。
评估成本的失控
前沿模型评估已成为一项昂贵的基础设施投资。单个模型在多个 benchmark 上的完整评估,成本高达数百万美元。Scale AI 等公司应运而生,提供私有评估 API,将评估本身变成一门生意。这带来一个悖论:当我们需要花钱请第三方来评估模型能力时,评估本身是否还能保持客观?
编程作为评估领域的独特优势
嘉宾们承认,编程是相对客观的评估领域——代码可以通过执行结果被直接验证,正确性一目了然。但其他领域(如对话、写作、推理)的评估就没这么「硬核」了,人类的偏好占据更大权重,这也是 RLHF 为什么在语言模型训练中如此重要的原因。
4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)
a. 颠覆性反共识洞察 (Contrarian Hot Takes)
「蒸馏」不是偷,是行业基础设施
Nathan Lambert 在对话中抛出一个激进观点:蒸馏是 AI 行业的「基础设施」,就像软件工程中的代码复用一样自然。将 API 调用生成的数据用于训练,这个行为在法律上可能构成侵权,但在技术实践上已成为行业惯例。Anthropic 的指控更多是商业防御,而非技术创新。
Benchmark 已死?
嘉宾们对 SWE-bench 乃至整个基准测试体系的未来持悲观态度。当 59% 的题目无法解决、模型差异仅为噪声级时,benchmark 已经失去了作为「能力标尺」的功能。这不是某一个问题的问题,而是整个评估范式的危机。
「攻击」一词的政治性
Anthropic 博客中使用「attack」(攻击)一词来形容蒸馏行为,引发了社区的强烈反弹。从技术角度看,API 调用是用户协议框架内的行为,「攻击」的定性带有明显的叙事倾向。Sebastian Raschka 指出,这种措辞选择更多是出于公关考量,而非技术事实。
b. 商业模式与成本经济学 (Business Model & Unit Economics)
API 定价与蒸馏成本
API 调用是有成本的。以 Anthropic 的 API 定价计算,如果要生成足够用于蒸馏的大规模数据集,成本动辄数百万美元。这使得「API 蒸馏」本身成为一种需要精密成本核算的商业行为——模型的产出价值是否高于 API 调用成本?
评估的「公地悲剧」
当评估成为差异化竞争的核心手段时,每个公司都有动机隐藏自己的真实能力,同时质疑对手的评估结果。这导致评估本身陷入「公地悲剧」——所有人都需要评估,但没有人愿意共享评估数据。Scale AI 等第三方评估服务商的出现,正是为了解决这一信任缺失问题,但它们本身又引入了新的利益相关方。
5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)
a. 人才密度与招聘哲学 (Talent & Hiring)
开源社区的「人才虹吸」效应
Nathan Lambert 和 Sebastian Raschka 都活跃于开源社区,他们的个人品牌与项目(如 SWIX、Sebastian 的机器学习书籍)成为吸引人才的重要磁石。开源项目本身就是最好的招聘广告——候选人在贡献代码的过程中就已经展示了能力。
研究者的「反商业」倾向
对话中可以看出,两位嘉宾对商业公司的运作保持一定距离,更倾向于学术研究者的身份。这不代表他们不懂商业,而是他们选择将影响力建立在技术贡献而非产品销售上。这种「技术布道者」的角色在 AI 行业越来越重要。
b. 硬核极客日常与轶事 (Geek Lore & Quirks)
「一次学习」的震撼弹
嘉宾们分享了一个让很多人惊讶的技术细节:模型真的只需要看一次数据就能记住。这不是比喻,而是 next token prediction 训练目标的技术本质。想象一下——你给模型看一段代码,下一次它就能复现其中的模式。这种能力让传统的「数据安全」概念变得岌岌可危。
GitHub 数据的「时间胶囊」属性
GitHub 上的 PR(Pull Request)包含了完整的代码演进历史,包括问题描述、修复过程、测试用例。当模型吸收这些数据时,它实际上获得了一个「时间胶囊」——不仅知道某个 bug 如何修复,还知道修复的时间线。这解释了为什么模型能在测试中使用「未来知识」。
6. 未来推演与终局思考 (Future Outlook & Endgame)
a. 短期技术前瞻 (Next 12-18 Months)
蒸馏技术的规范化
Anthropic 的指控可能会促使行业重新审视蒸馏的边界。未来 12-18 个月内,我们可能看到:API 提供商在 ToS(服务条款)中明确禁止蒸馏行为,技术上通过水印、流量识别等手段加强检测,监管层面出现更多诉讼案例。
Benchmark 的范式转移
SWE-bench 的问题会被更多 benchmark 发现。行业将转向更动态、更难被「背答案」的评估方式,例如基于实际部署效果的 A/B 测试,而非静态的题目测试。
评估基础设施的独立化
随着评估成本上升,更多公司会选择 Scale AI 这样的第三方服务,而非自建评估体系。这将催生一个「评估即服务」的市场细分。
b. 长期演进形态 (The Endgame)
模型能力的「不可知论」
当 benchmark 失去信任、蒸馏边界模糊时,我们可能进入一个「不可知」的时代——没有人能确切知道一个模型的真实能力,因为所有的评估都可能被「欺骗」。这将迫使行业从「能力排名」转向「实际效果验证」——让模型直接上岗,看产出再说话。
开源与闭源的持久战
蒸馏争议的本质是开源与闭源的利益冲突。闭源模型(如 Anthropic)通过 API 变现,不希望自己的输出被竞争对手免费获取;开源模型(如 DeepSeek)则受益于可以自由使用的数据。这一矛盾不会通过一次指控解决,而是会持续塑造 AI 行业的竞争格局。
评估的「区块链化」?
一个大胆的预测:未来模型评估可能需要引入类似区块链的不可篡改机制——评估过程全程可验证、结果不可更改,才能重建信任。但这需要行业共识和基础设施投入,短期内难以实现。
7. 原汁原味金句 (Based Quotes)
“The strongest model is not always the best teacher.” 最强的模型不一定是最好的老师。
“A model only needs to see data once to remember it — that’s the nature of next token prediction.” 模型只需看一次数据就能记住——这就是 next token prediction 的本质。
“59% of SWE-bench problems are unsolvable — they’re more like memorizing answers than solving problems.” 59% 的 SWE-bench 题目根本无法解决——更像是背答案,而不是解决问题。
“When all models achieve 80%+ on the same benchmark, the differences are just noise.” 当所有模型在同一基准上都能达到 80%+ 时,差异就只是噪声。
“Distillation is infrastructure — like code reuse in software engineering.” 蒸馏是基础设施——就像软件工程中的代码复用一样。
本期播客完成。全文约 5800 字,基于 SAIL Live #6 转录稿关键摘要结构化整理。
📺 播客地址
播客时长: 53分钟