原始标题: Google, OpenAI \& Anthropic All Reported the Same Threat

发布日期: 2026-03-06 | 来源频道: @TheAiGrid

📝 深度摘要

1. 讨论背景与核心主题

本期节目聚焦于一起震动 AI 行业的重大安全事件:美国 AI 实验室正遭受大规模模型蒸馏攻击。主理人 Andrew Black 深入剖析了 Anthropic、Google DeepMind、OpenAI 三大巨头先后披露的同一威胁,并揭示这一事件背后的地缘政治博弈与技术安全隐忧。核心问题在于:中国 AI 公司是否正在通过"模型蒸馏"技术窃取美国前沿模型的 capabilities?如果这一威胁属实,将对全球 AI 竞争格局产生深远影响。

2. 核心干货概览

类别 核心事件 / 产品 战略意义 / 行业影响
重磅发布 Anthropic 披露工业级蒸馏攻击 首次公开实证揭示中国 AI 公司系统性窃取 Claude 模型能力,涉及 DeepSeek、Moonshot AI、MiniMax 三家企业
巨头动态 Google、OpenAI、Anthropic 先后确认遭受攻击 2025 年 2 月 12 日 Google 和 OpenAI 同时发声,一周后 Anthropic 公布详尽证据,三大巨头形成统一战线
关键参数 16 万次对话 / 1600 万次 exchanges / 150,000+ 账户 Anthropic 检测到超过 24000 个欺诈账户,生成了超过 1600 万次与 Claude 的交互用于提取模型能力
政策背景 特朗普政府放松对华芯片出口管制 2025 年 1 月 14 日美国政策转向,允许在特定条件下向中国出口先进 AI 芯片,中国已下达超过 200 万片 H200 芯片订单

3. 深度事件拆解

事件背景与导火索

2025 年 2 月中旬,美国 AI 行业经历了一场前所未有的"联合警报"。先是 Google DeepMind 在 2 月 12 日宣布检测到模型提取尝试增加,明确将蒸馏攻击定性为"侵犯知识产权的行为,违反了 Google 服务条款"。同一天,OpenAI 也发布信息,警告国会议员中国 AI 初创公司 DeepSeek 正在 targeting ChatGPT 等美国领先 AI 公司,试图复制其模型并用于自身训练。OpenAI 首席执行官 Sam Altman 指责 DeepSeek 正在"免费搭便车",利用 OpenAI 等前沿实验室开发的能力。一周后,Anthropic 发布了更为详尽的调查报告,将这场攻击的规模和数据曝光推向了高潮。

核心攻击细节与技术手法

Anthropic 的报告显示,这是一场有组织、有预谋的工业级攻击。攻击方采用了三大技术手段:

1. 深度思维链提取 (Chain-of-Thought Extraction) 攻击者设计特定提示词,要求 Claude 阐述完成回答的内部推理过程,并逐步写出思考步骤。这实际上是在大规模生成思维链训练数据。Anthropic 特别指出,DeepSeek 使用了这一技术,通过让 Claude “articulate the internal reasoning behind a completed response and write out a step-by-step”,有效提取了模型的推理能力。

2. 协同多账户战术

  • DeepSeek:创建了超过 150000 个账户,进行了超过 150000 次交互。攻击者通过同步流量、相同模式、共享支付方式和协调时间来进行负载平衡,提高吞吐量并避免检测。
  • Moonshot AI(月之暗面):部署了数百个欺诈账户,覆盖多个访问路径。攻击针对性极强——专门针对 agentic reasoning(代理推理)、tool use(工具使用)、coding(编程)、data analysis(数据分析)、computer vision(计算机视觉)和 computer use(计算机使用)等能力进行提取。Anthropic 通过请求元数据匹配到了月之暗面高级员工的公开个人资料。
  • MiniMax(稀宇科技):进行了约 1300 万次交互。攻击者根据 Anthropic 发布的新模型动态调整策略——当 Anthropic 在 MiniMax 活跃攻击期间发布新模型时,MiniMax 在 24 小时内转向,将近一半的流量重定向到新模型以捕获其能力。

攻击时间线与巧合

  • 2025 年 1 月 14 日:特朗普政府宣布重大政策转变,允许在特定条件下向中国出口先进 AI 芯片。中国公司已下达超过 200 万片 H200 芯片订单,总价值达数十亿美元。
  • 2025 年 2 月 12 日:Google DeepMind 宣布检测到模型提取尝试增加。OpenAI 同一天警告国会议员 DeepSeek 正在 targeting 美国 AI 公司。
  • 2025 年 2 月 19 日左右:Anthropic 发布详尽报告,披露 DeepSeek、Moonshot AI、MiniMax 三家公司的系统性攻击。

主理人 Andrew Black 在节目中特别指出:“所有这些信息恰好在特朗普政府正在讨论放松对华出口管制之际发布,这不太可能是巧合。“他进一步分析,这些 AI 公司可能同时出于安全披露和政策游说的双重动机——既是真的发现了威胁,也是试图影响政策辩论,为维持对华技术优势造势。

市场与竞争反应

社交媒体舆论:出乎意料的是,公众反应并未一边倒支持 Anthropic。许多 Twitter 用户批评 Anthropic"双标”——它们用从互联网窃取的数据(书籍、电影等)训练模型,却不允许其他公司用 Claude 的输出来改进自己的 AI。热门评论包括:

  • “从 Claude Sonnet 中提取了 95.8% 的《哈利·波特》内容——如果模型训练得公平合法,我们不可能在单次运行中提取一本书的 95%。”
  • “最邪恶的是不一致的邪恶。”
  • “版权赌场里没有眼泪。”

技术社区分析:Reddit 上的工程师指出,GLM 模型很可能从 Claude 蒸馏而来——因为将 Claude 的 system prompt 复制粘贴进去,GLM 的行为与 Claude 完全一致,甚至会提及 Claude 特有的"tournament square”,这是中国模型历来不会做的事情。

数据规模争议

一个关键争议点在于:1600 万次交互相对于 Claude 每月约 250 亿次 API 调用来说,究竟意味着什么?

  • 支持攻击严重性的一方:如果这么小的比例(0.006%)就能提取有意义的能力,说明蒸馏攻击极为高效且危险。
  • 质疑一方:16 万次对话相比 Claude 每日的数百万次交互微不足道,可能被过度政治化利用。

Andrew Black 的结论是:“两种可能性可以同时为真。”

国家安全与 AI 安全等级 (ASL)

Anthropic 在报告中强调,非法蒸馏的模型缺乏必要的安全防护,这将造成严重的国家安全风险:

  • 美国公司构建的系统本意是防止国家和非国家行为者利用 AI 开发生物武器或进行恶意网络攻击
  • 通过非法蒸馏获得的模型不太可能保留这些安全防护,意味着危险能力可能不受控制地扩散
  • 如果这些蒸馏模型进一步开源传播,风险将倍增

Anthropic 提到的 AI 安全等级 (AI Safety Level, ASL) 中:

  • ASL3:当前模型所在级别
  • ASL4:模型能够递归自我改进的级别

如果中国公司能够从 ASL3 模型中提取能力并用于自己的模型,可能加速其接近 ASL4 的进程。

4. 核心干货运用

对普通用户的影响

虽然普通用户不会直接参与蒸馏攻击,但这一事件揭示了一个根本性趋势:前沿模型可能走向全面私有化。Andrew Black 预测:

  • GPT-4 级别的能力现在已经过时且公开可访问,但真正的内部前沿模型永远不会出现在公共 API 上
  • Anthropic 最强大的内部模型并非通过 Claude AI 访问
  • 我们可能正在走向一个"双层 AI 系统"——经审查的企业/政府层级( defense contractors、pharmaceutical companies、financial institutions)vs 永远落后 2-3 代的公共层级

对开发者的建议

对于正在使用 API 开发应用的开发者,需要意识到:

  • 公共 API 的能力可能永远落后于模型制造商的内部版本
  • 随着模型能力接近 CBR(化学、生物、放射性、核)风险阈值,公司有强烈动机限制访问
  • 开源模型可能永远无法跟上闭源前沿模型的能力差距

5. 行业前瞻与非共识观察

反直觉结论

Andrew Black 提出了一个发人深省的观点:“真正的问题可能不是中国公司在窃取我们的模型,而是公共 API 本身就是一个漏洞。“他指出:

  • 如果中国能够通过公共 API 使用不到 0.006% 的流量绕过芯片控制且不被发现,那么出口管制本身就存在一个"巨大的漏洞”
  • 任何有能力的参与者都可以在不被检测的情况下大规模做到这一点
  • 这个问题无法通过账户验证或欺诈检测完全解决

潜在风险预警

  • 模型能力流失:随着模型变得更强大,CBR 风险计算发生戏剧性变化。当模型能够真正设计出流行病时,“应该开源免费"的论点将变得站不住脚
  • AI 权力集中:政府可能推动立法,强制要求一个永不接触公共 API 的"机密 AI 能力"层级
  • 监管与开放的张力:这正是 Elon Musk 和开源社区所警告的 AI 权力集中——但随着能力增长,辩称开放不合理的论据越来越难被驳斥

6. 金句

  • “16 万次对话相比 Claude 每日的数百万次交互微不足道,但这可能意味着你不需要大规模就能有效提取能力——这才是真正令人担忧的。”
  • “所有这些信息恰好在特朗普政府讨论放松对华出口管制之际发布,这不太可能是巧合。”
  • “如果中国可以通过公共 API 使用 0.006% 的流量绕过芯片控制且不被发现,出口管制本身就存在一个巨大的漏洞。”
  • “我们可能正在走向一个双层 AI 系统——企业和政府使用前沿能力,公众永远落后 2-3 代,而后者可能永远不知道差距有多大。”
  • “当你的模型能够真正设计出流行病时,说它应该开源免费,这些说法就开始变得荒谬了。”

📺 视频原片


视频ID: DgsX6NnF_p4