原始标题: They Got Caught

发布日期: 2026-02-25 | 来源频道: @matthew_berman

📝 深度摘要

AI 极客实战与技术测评笔记

1. 对话背景与核心主题

Anthropic 近期发布公开声明,指控三家中国 AI 实验室——DeepSeek、Moonshot(月之暗面)和 MiniMax——通过“蒸馏攻击”(Distillation Attack)从 Claude API 非法提取模型能力。该事件迅速引发行业震荡,Elon Musk、知名 AI 研究者 Theo 等纷纷表态,舆论呈现两极化态势。Matthew Berman 在本期视频中深度剖析了 Anthropic 的指控细节、背后的技术原理,以及互联网社区的各种反应,试图还原这场 AI 领域“数据战争”的完整图景。

2. 核心干货概览 (Technical Takeaways & Stack)

类别 名称 核心用途 / 技术意义
攻击手法 API 蒸馏攻击 (Distillation Attack) 通过大规模 API 调用提取目标模型的思维链(Chain of Thought)、推理能力和工具使用模式,用于训练自有模型
目标模型能力 思维链提取 (Chain of Thought Extraction) 诱导 Claude 生成并输出其内部推理过程步骤,为蒸馏训练提供高质量监督信号
检测手段 IP 地址关联 + 请求元数据 + 基础设施特征 Anthropic 通过多维度指纹定位到具体实验室,甚至追溯到特定高管账户
被指控实体 DeepSeek / Moonshot / MiniMax 中国头部 AI 实验室,其开源模型在国际上表现强劲
关键数据指标 16,000,000+ 次 API 交换 / 24,000+ 欺诈账户 Anthropic 披露的规模化攻击数据

3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)

3.1 蒸馏攻击的技术本质

蒸馏(Distillation)本身是 AI 领域的合法且广泛应用的技术。其核心原理是用一个大型、高性能模型(Teacher Model)生成标注数据,用以训练一个较小、推理速度更快的模型(Student Model)。在模型压缩、边缘部署等场景下,蒸馏能以较低计算成本保留大部分能力。然而,当蒸馏过程绕过模型提供方的服务条款、通过非法手段获取数据时,就演变为“蒸馏攻击”。

Anthropic 在博文中指出,这三家中国实验室使用了欺诈账户代理服务大规模访问 Claude API,同时绑过检测机制。其攻击模式与正常用户使用行为存在显著差异,这成为 Anthropic 取证的关键依据。

3.2 各实验室的攻击规模与目标

  • DeepSeek:约 150,000 次 API 交换。主要目标:提取 Claude 的推理能力(Reasoning Capabilities),特别是通过让 Claude 扮演“评分模型”(Reward Model)进行强化学习相关的 rubric-based grading 任务。Anthropic 指出 DeepSeek 还尝试生成针对敏感话题(如 Tiananmen Square)的安全替代响应,用于训练审查绕过模型。

  • Moonshot:约 3,400,000 次 API 交换。主要目标:Agent 推理能力、工具调用(Tool Use)、计算机使用(Computer Use)、代码生成与分析、计算机视觉。这解释了为何月之暗面旗下的 Kimi 系列模型在 Agent 任务和工具使用方面表现优异。Anthropic 通过请求元数据匹配到 Moonshot 高级员工的公开个人资料。

  • MiniMax:约 13,000,000 次 API 交换,是三家中规模最大的。主要目标:Agent 编码、工具使用与编排(Orchestration)。Anthropic 在 MiniMax 仍在训练模型时就检测到了攻击,并在此后更新了 Claude 模型版本(如 Opus 4.6),观察到 MiniMax 的流量开始指向新版模型以获取最新能力——证明其对模型迭代高度关注。

3.3 检测与归因技术细节

Anthropic 采用了多层次归因方法:

  1. IP 地址关联:通过 IP 段与已知数据中心、VPN 出口节点匹配,定位攻击源头。
  2. 请求元数据:分析 HTTP 请求头、时序模式、账户注册信息等指纹。
  3. 基础设施特征:同一攻击者使用的云服务供应商、VPS 节点特征高度相似。
  4. 行业协作:与其他平台共享威胁情报,交叉验证攻击者身份。

Anthropic 声称能够“以高置信度”将每轮攻击追溯到特定实验室,甚至具体到执行高管。

3.4 互联网舆论反应与行业质疑

视频发布后,社区反应激烈,呈现“反转”态势:

  • ** hypocrite(伪善)批评**:网友指出 Anthropic 自身就深陷数据侵权诉讼——曾以 15 亿美元和解金了结“影子图书馆”盗取 700 万本图书的案件,另有一宗 30 亿美元诉讼涉及通过 BitTorrent非法下载 20,000 首歌曲。Elon Musk 直言 Anthropic “大规模偷窃训练数据,还恬不知耻地装圣人”。

  • Theo(T3 Chat 创始人)深度质疑:Theo 发布长文指控 Anthropic 报告中的数字存在问题。他指出 DeepSeek 的 150,000 次交换量极小,T3 Chat 自身每日处理 160,000 次请求,这些量级“仅相当于基准测试”。他认为这些请求更可能是 DeepSeek 用自己的模型与 Claude 做对比测试,而非系统性蒸馏。Theo 还提到 Anthropic 此前对 Windsurf、OpenAI、XAI 做过类似指控,“很难再相信他们的说辞”。

  • 技术层面争议:研究者发现可从旧版 Claude 模型中提取 95% 以上的《哈利·波特》原文,这说明模型确实“记忆”了训练数据,进一步加剧了关于“模型蒸馏 vs 合理使用”边界何在的争论。

3.5 地缘政治维度

视频还提及更宏观的背景:

  • 出口管制失效论:Anthropic 指出中国实验室通过蒸馏绕过了 GPU 出口管制——即便无法获取先进芯片,依然能通过 API 调用提取模型能力。但批评者认为这恰恰说明出口管制在某种程度上是有效的(因为它们被迫走“蒸馏”这条弯路),只是被找到了漏洞。

  • Blackwell 芯片非法获取:据匿名美国政府官员透露,DeepSeek 涉嫌获取了本应被禁止出口的 Nvidia Blackwell 芯片,并计划用于下一代模型训练,且可能试图删除证据。这进一步加剧了对中国 AI 发展路径的质疑。

  • “真实技术领先”大讨论:如果中国模型的能力主要来自对美国创新的蒸馏,而非原创算法突破,那么美国在基础研究和算法层面可能拥有比预期更大的领先优势。

4. 核心干货运用 (Prompts & Configuration)

4.1 蒸馏攻击中使用的核心 Prompt 模式

根据 Anthropic 的披露,攻击者使用了一类关键提示技术:要求 Claude 详细阐述其思维链(Chain of Thought)。典型Prompt结构可能类似于:

“Generate your chain of thought and write it out step by step. Explain the internal reasoning behind your completed response.”

这种 Prompt 的目的是强制模型输出其内部推理过程,而非仅返回最终答案。攻击者随后将这些思维链数据用于训练自己的推理模型,从而在无需自研算法的情况下获得类似的推理能力。

4.2 奖励模型构建 Prompt

另一种被 DeepSeek 大量使用的技术是让 Claude 充当奖励模型(Reward Model)——即让模型对多个候选响应进行评分排序。这一技术用于强化学习流程中的 Reward Modeling,是 RLHF(人类反馈强化学习)的核心环节。

“Evaluate the following responses according to the rubric and provide a score for each.”

通过大量此类任务,攻击者可以获取如何评价推理质量的监督信号,用于训练自己的奖励模型。

5. 极客洞察与避坑指南 (Geek Insights & Boundary)

5.1 反直觉技术结论

  • 中国模型强大不等于原创能力强:DeepSeek、Moonshot、MiniMax 的开源模型在国际评测中表现优异,但这些能力很可能主要来自对美国模型的蒸馏,而非原创算法突破。如果这一判断成立,中国在基础模型架构和训练方法论上的积累可能远低于外界预期。

  • 150,000 次请求的量级并不夸张:对比 T3 Chat 每日 160,000 次请求的规模,DeepSeek 被指控的 150,000 次总交换量在量级上并不突出,更接近“基准测试”范畴。这使得 Anthropic 报告的可信度受到资深从业者(如 Theo)的公开质疑。

  • API 蒸馏 vs 传统数据爬取:通过 API 蒸馏获取的是“模型已经内化的能力”,而非原始训练数据。这种方式的隐蔽性更高,但对模型提供方的检测能力要求也更高。

5.2 适用边界与风险

  • API 服务条款的执法边界:当前主要依赖服务提供方自行监测和追溯,缺乏行业统一的监管框架。一旦跨司法管辖区的攻击发生,追责难度极大。

  • 蒸馏检测的技术瓶颈:攻击者可以通过分布式代理、账户轮换、请求伪装等方式规避检测。Anthropic 此次能发现 MiniMax 的攻击,是因为对方在模型更新期间仍在持续请求——这本身就是异常行为。

  • 出口管制的实际效果:GPU 出口管制被指“治标不治本”,但蒸馏攻击的存在反而在某种程度上证明了管制的部分有效性(迫使对手绕道而行)。

5.3 实战陷阱

  • 不要低估小规模蒸馏的累积效应:即便每次请求提取的信息量有限,数十万次累积后足以构建高质量的训练数据集。

  • 思维链输出是核心高价值目标:所有被指控的实验室都高度关注思维链提取,这提示模型提供方应对 CoT 输出做更严格的访问控制。

  • 模型版本迭代会被实时追踪:Anthropic 发现 MiniMax 在其模型更新后立即开始查询新版本——说明攻击者对模型能力变化高度敏感,并据此调整数据采集策略。

6. 金句 (Golden Quotes)

  • “他们创建了超过 24,000 个欺诈账户,生成了超过 1,600 万次与 Claude 的交互,从中提取能力来训练和改进他们自己的模型。”
  • “蒸馏是一种广泛使用且完全合法的训练方法,但它也可以被用于非法目的。竞争对手可以用它以极小的时间和经济成本从其他实验室获取强大能力。”
  • “这些实验室非法蒸馏美国模型可以移除安全护栏,将模型能力输送到他们自己的军事情报和监控系统。”
  • “中国公司以极端激烈的竞争文化闻名,大多数情况下只要在法律范围内我并不在意——但这并不意味着我们可以忽视规则被系统性破坏的后果。”
  • “如果中国 AI 公司实际上并没有尖端技术和算法,而仅仅是在蒸馏美国创新的成果,那么我们在基础研究层面可能拥有比想象中更大的领先优势。”

技术摘要完


📺 视频原片


视频ID: VmEa3fVvZDw