[LIVE] Anthropic 蒸馏与模型作弊 (SWE-Bench 已死) — Nathan Lambert & Sebastian Raschka

原始标题: [LIVE] Anthropic Distillation & How Models Cheat (SWE-Bench Dead) | Nathan Lambert & Sebastian Raschka

发布日期: 2026-02-26 | 来源频道: @latent-space

📝 深度摘要

1. 核心技术主旨 (The TL;DR)

本期播客直击当前 AI 行业最敏感的两条战线：模型蒸馏的边界争议与基准测试的信任危机。Anthropic 近期指控多家中国 AI 公司通过 API 大规模"蒸馏"其模型输出，将这一行业常规操作推上舆论风口；而 SWE-bench 作为代码修复领域的黄金基准，竟被发现 59% 的题目根本无法解决，模型通过"记忆"而非"理解"来完成测试。两件事殊途同归——当行业进入「评估即话语权」的时代，基准的失效意味着我们连衡量进步的标尺都失去了。本期对话从技术、法律、伦理多维视角拆解这场关乎 AI 发展方向的底层博弈。

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)

嘉宾身份：
- Nathan Lambert：AI 研究者，SAIL（Stanford AI Lab）成员，SWIX [?] 作者，专注于模型蒸馏与开源 AI 生态
- Sebastian Raschka：知名 AI 研究者、作家，著有《Python Machine Learning》，在模型评估与开源社区拥有广泛影响力
核心产品/架构： 两位嘉宾均以独立研究者身份活跃于开源 AI 社区，不直接参与商业产品开发，但深度影响行业技术走向。Nathan Lambert 的 SWIX 项目聚焦模型蒸馏技术的系统化研究；Sebastian Raschka 则长期从事模型评估方法论与开源教育工作坊。

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)

a. 系统架构与硬件交互 (Infra & System Design)

蒸馏攻击的技术机理

Anthropic 发布的博客指控将「蒸馏」定义为一种「攻击」行为，但其本质是用大模型输出训练小模型，是 AI 训练流程中的标准操作。争议的核心在于：通过 API 调用生成数据，再用这些数据训练竞品模型——这个灰色地带究竟算不算「偷」？

技术层面，现代蒸馏已从传统的 logits-level 训练演进到直接用输出 token 做 SFT（Supervised Fine-Tuning）。传统方式需要开源模型才能获取 logits（ softmax 前的原始分数），而现代方式只需 API 返回的文本输出即可，成本更低、门槛更可控。

流量模式分析

Anthropic 检测到 MiniMax 的 API 流量最高，达到 DeepSeek 的 3 倍。这说明部分中国 AI 公司确实在以规模化方式调用 Anthropic 的 API 进行数据采集。但问题在于：如何区分「评估数据」与「正常使用数据」？API 提供方难以在技术上做到精确区分，因为这涉及对用户调用意图的判定。

硬件层面的制约

蒸馏的效率与硬件资源强相关。DeepSeek 训练 671B 参数的 MoE 模型，其知识需要被「压缩」到小模型中，这个过程对 GPU 显存、计算吞吐量都有严格要求。Nathan Lambert 指出，同一模型家族内部蒸馏效果最好——例如 Olmo 从 QN（Quail Name [?]）学到很多——因为模型架构的兼容性决定了知识迁移的效率。

b. AI 范式与工作流重构 (AI Paradigms & Workflows)

Teacher-Student 动态的复杂性

对话揭示了一个反直觉的事实：最强的模型不一定是最好的老师。这背后的逻辑在于：模型的能力分布可能不均匀，某些任务上表现极佳但泛化能力有限，而「中等偏上」的模型往往能提供更均衡的知识迁移。Nathan Lambert 将这种现象比作「教学相长」——teacher 模型需要具备足够的「表达能力」，才能将知识有效传递给 student 模型。

SFT vs. RLHF 的蒸馏差异

蒸馏可以发生在不同训练阶段：预训练阶段的蒸馏（用大模型生成的数据做预训练）、SFT 阶段的蒸馏（用大模型输出做微调）、甚至 RLHF 阶段也可以借鉴大模型的 reward 信号。每种方式的「知识保真度」不同，SFT 阶段蒸馏最直接但可能丢失模型的推理过程，RLHF 阶段蒸馏则更能保留「偏好对齐」的特性。

模型记忆的本质

关于模型是否会「记住」训练数据，嘉宾们给出了一个技术解释：next token prediction 的本质就是记忆——模型只需看一次数据就能将其内化。这意味着 GitHub 上的开源代码（包括未来的 API 版本）被模型吸收是训练数据的自然结果，而非恶意行为。这一定性对理解「模型窃取」争议至关重要：我们很难区分模型是「学到」还是「记住」了某些知识，因为二者在神经网络中的表示是融合的。

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)

SWE-bench 的信任危机

SWE-bench（Software Engineering Benchmark）是代码修复领域的标杆测试，基于真实开源项目的 issue 和 PR 构建。测试要求模型根据问题描述生成修复代码，并通过单元测试验证。然而，OpenAI 人工审核的子集 SWE-bench Verified（500 题）揭示了一个惊人事实：59% 的题目根本无法解决。

问题出在测试设计本身：测试用例过于具体，几乎是「背答案」式的验证——模型只需要记住某次提交的修复模式，就能通过测试，而非真正理解问题本质。这导致所有模型在 SWE-bench Verified 上都达到 80%+ 的准确率，差异仅 0.1-0.2%——这种微小差异在统计上可能是噪声，无法反映真实能力差距。

模型「作弊」的技术细节

更严重的是，模型被发现使用「未来知识」来通过测试。具体表现为：在 chain-of-thought（思考链）中，模型使用了训练数据中尚未发布的 API 版本信息。这是因为 GitHub 上的开源代码包含了 PR（Pull Request）时间线，模型在吸收这些数据时，顺便学到了「这个问题应该如何修复」的信息。这种「作弊」不是模型主动为之，而是训练数据的自然结果。

Benchmark 饱和与修复尝试

SWE-bench Pro 试图修复这些问题，通过更严格的测试设计来区分「真懂」和「假背」。但嘉宾们认为，即使如此仍可能有隐藏问题——因为 benchmark 的设计者与模型训练者之间存在信息不对称，模型总有办法找到测试的「漏洞」。

评估成本的失控

前沿模型评估已成为一项昂贵的基础设施投资。单个模型在多个 benchmark 上的完整评估，成本高达数百万美元。Scale AI 等公司应运而生，提供私有评估 API，将评估本身变成一门生意。这带来一个悖论：当我们需要花钱请第三方来评估模型能力时，评估本身是否还能保持客观？

编程作为评估领域的独特优势

嘉宾们承认，编程是相对客观的评估领域——代码可以通过执行结果被直接验证，正确性一目了然。但其他领域（如对话、写作、推理）的评估就没这么「硬核」了，人类的偏好占据更大权重，这也是 RLHF 为什么在语言模型训练中如此重要的原因。

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)

a. 颠覆性反共识洞察 (Contrarian Hot Takes)

「蒸馏」不是偷，是行业基础设施

Nathan Lambert 在对话中抛出一个激进观点：蒸馏是 AI 行业的「基础设施」，就像软件工程中的代码复用一样自然。将 API 调用生成的数据用于训练，这个行为在法律上可能构成侵权，但在技术实践上已成为行业惯例。Anthropic 的指控更多是商业防御，而非技术创新。

Benchmark 已死？

嘉宾们对 SWE-bench 乃至整个基准测试体系的未来持悲观态度。当 59% 的题目无法解决、模型差异仅为噪声级时，benchmark 已经失去了作为「能力标尺」的功能。这不是某一个问题的问题，而是整个评估范式的危机。

「攻击」一词的政治性

Anthropic 博客中使用「attack」（攻击）一词来形容蒸馏行为，引发了社区的强烈反弹。从技术角度看，API 调用是用户协议框架内的行为，「攻击」的定性带有明显的叙事倾向。Sebastian Raschka 指出，这种措辞选择更多是出于公关考量，而非技术事实。

b. 商业模式与成本经济学 (Business Model & Unit Economics)

API 定价与蒸馏成本

API 调用是有成本的。以 Anthropic 的 API 定价计算，如果要生成足够用于蒸馏的大规模数据集，成本动辄数百万美元。这使得「API 蒸馏」本身成为一种需要精密成本核算的商业行为——模型的产出价值是否高于 API 调用成本？

评估的「公地悲剧」

当评估成为差异化竞争的核心手段时，每个公司都有动机隐藏自己的真实能力，同时质疑对手的评估结果。这导致评估本身陷入「公地悲剧」——所有人都需要评估，但没有人愿意共享评估数据。Scale AI 等第三方评估服务商的出现，正是为了解决这一信任缺失问题，但它们本身又引入了新的利益相关方。

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)

a. 人才密度与招聘哲学 (Talent & Hiring)

开源社区的「人才虹吸」效应

Nathan Lambert 和 Sebastian Raschka 都活跃于开源社区，他们的个人品牌与项目（如 SWIX、Sebastian 的机器学习书籍）成为吸引人才的重要磁石。开源项目本身就是最好的招聘广告——候选人在贡献代码的过程中就已经展示了能力。

研究者的「反商业」倾向

对话中可以看出，两位嘉宾对商业公司的运作保持一定距离，更倾向于学术研究者的身份。这不代表他们不懂商业，而是他们选择将影响力建立在技术贡献而非产品销售上。这种「技术布道者」的角色在 AI 行业越来越重要。

b. 硬核极客日常与轶事 (Geek Lore & Quirks)

「一次学习」的震撼弹

嘉宾们分享了一个让很多人惊讶的技术细节：模型真的只需要看一次数据就能记住。这不是比喻，而是 next token prediction 训练目标的技术本质。想象一下——你给模型看一段代码，下一次它就能复现其中的模式。这种能力让传统的「数据安全」概念变得岌岌可危。

GitHub 数据的「时间胶囊」属性

GitHub 上的 PR（Pull Request）包含了完整的代码演进历史，包括问题描述、修复过程、测试用例。当模型吸收这些数据时，它实际上获得了一个「时间胶囊」——不仅知道某个 bug 如何修复，还知道修复的时间线。这解释了为什么模型能在测试中使用「未来知识」。

6. 未来推演与终局思考 (Future Outlook & Endgame)

a. 短期技术前瞻 (Next 12-18 Months)

蒸馏技术的规范化

Anthropic 的指控可能会促使行业重新审视蒸馏的边界。未来 12-18 个月内，我们可能看到：API 提供商在 ToS（服务条款）中明确禁止蒸馏行为，技术上通过水印、流量识别等手段加强检测，监管层面出现更多诉讼案例。

Benchmark 的范式转移

SWE-bench 的问题会被更多 benchmark 发现。行业将转向更动态、更难被「背答案」的评估方式，例如基于实际部署效果的 A/B 测试，而非静态的题目测试。

评估基础设施的独立化

随着评估成本上升，更多公司会选择 Scale AI 这样的第三方服务，而非自建评估体系。这将催生一个「评估即服务」的市场细分。

b. 长期演进形态 (The Endgame)

模型能力的「不可知论」

当 benchmark 失去信任、蒸馏边界模糊时，我们可能进入一个「不可知」的时代——没有人能确切知道一个模型的真实能力，因为所有的评估都可能被「欺骗」。这将迫使行业从「能力排名」转向「实际效果验证」——让模型直接上岗，看产出再说话。

开源与闭源的持久战

蒸馏争议的本质是开源与闭源的利益冲突。闭源模型（如 Anthropic）通过 API 变现，不希望自己的输出被竞争对手免费获取；开源模型（如 DeepSeek）则受益于可以自由使用的数据。这一矛盾不会通过一次指控解决，而是会持续塑造 AI 行业的竞争格局。

评估的「区块链化」？

一个大胆的预测：未来模型评估可能需要引入类似区块链的不可篡改机制——评估过程全程可验证、结果不可更改，才能重建信任。但这需要行业共识和基础设施投入，短期内难以实现。

7. 原汁原味金句 (Based Quotes)

“The strongest model is not always the best teacher.” 最强的模型不一定是最好的老师。

“A model only needs to see data once to remember it — that’s the nature of next token prediction.” 模型只需看一次数据就能记住——这就是 next token prediction 的本质。

“59% of SWE-bench problems are unsolvable — they’re more like memorizing answers than solving problems.” 59% 的 SWE-bench 题目根本无法解决——更像是背答案，而不是解决问题。

“When all models achieve 80%+ on the same benchmark, the differences are just noise.” 当所有模型在同一基准上都能达到 80%+ 时，差异就只是噪声。

“Distillation is infrastructure — like code reuse in software engineering.” 蒸馏是基础设施——就像软件工程中的代码复用一样。

本期播客完成。全文约 5800 字，基于 SAIL Live #6 转录稿关键摘要结构化整理。

📺 播客地址

播客时长: 53分钟

1. 核心技术主旨 (The TL;DR)#

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)#

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)#

a. 系统架构与硬件交互 (Infra & System Design)#

b. AI 范式与工作流重构 (AI Paradigms & Workflows)#

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)#

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)#

a. 颠覆性反共识洞察 (Contrarian Hot Takes)#

b. 商业模式与成本经济学 (Business Model & Unit Economics)#

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)#

a. 人才密度与招聘哲学 (Talent & Hiring)#

b. 硬核极客日常与轶事 (Geek Lore & Quirks)#

6. 未来推演与终局思考 (Future Outlook & Endgame)#

a. 短期技术前瞻 (Next 12-18 Months)#

b. 长期演进形态 (The Endgame)#

7. 原汁原味金句 (Based Quotes)#