原始标题: The First Mechanistic Interpretability Frontier Lab — Myra Deng & Mark Bissell of Goodfire AI
发布日期: 2026-02-06 | 来源频道: @latent-space
📝 深度摘要
1. Goodfire AI:首家 Mechanistic Interpretability 前沿实验室
本期嘉宾来自 Goodfire AI——一家刚完成 1.5 亿美元 B 轮融资、估值 12.5 亿美元的 AI 研究初创公司。创始人 Myra Deng(前 Two Sigma 产品负责人)和 Mark Bissell(前 Palantir 医疗团队技术负责人)来到 Latent Space,畅谈他们如何将「可解释性」这个曾经只存在于学术论文里的概念,落地成可生产的 API 和商业化产品。
Goodfire 的定位不是传统意义上的 AI 安全公司,而是一个 AI 研究实验室,专注于使用 interpretability(可解释性)方法来理解、学习和设计 AI 模型。他们相信:当我们能够「看穿」模型的内部运作机制时,才能真正解锁下一代既安全又强大的 AI 系统。
1.1 公司背景与融资
Goodfire 在 2026 年初宣布完成 Series B 轮融资,融资额 1.5 亿美元,估值达到 12.5 亿美元,正式跻身 Unicorn 行列。这轮融资的意义不仅仅是资金层面的支持,更重要的是它代表了风险投资界对「可解释性」这一技术方向的认可。Swyx 在节目中打趣道:「上一次我们聊的时候还在谈产品原型,现在已经估值 10 亿了,这进度太快了。」
1.2 核心商业模式
Goodfire 目前提供两类产品:
- Ember:一个用于 activation steering(激活导向)的 API,允许用户在推理时实时调整模型行为
- Core Platform:支持 SAE 训练、probing、功能发现等全套 interpretability 工具链
Mark 在节目中直言:「我们是一家研究公司,但我们在生产环境中部署这些技术。」这在 interpretability 领域极为罕见——大多数团队还在发论文,Goodfire 已经把技术卖给了 Rakuten、日本最大电商平台之一的 Guardrail 和推理监控方案。Myra 作为 Head of Product,她的日常工作包括思考如何将前沿研究转化为可重复的产品和平台,并将其应用于最重要的现实世界问题。
2. 什么是 Mechanistic Interpretability?
2.1 技术定义
Mechanistic Interpretability(机制可解释性,简称 MechInterp)的目标是逆向工程神经网络:给定输入和输出,试图理解模型内部到底在做什么。这不仅仅是观察输入和输出之间的映射关系,而是要理解这个映射是如何在模型的数十亿参数中被计算出来的。理想情况下,我们希望能够像理解一个程序一样理解一个神经网络——知道每一个计算步骤在做什么,知道为什么特定的输入会产生特定的输出。
核心技术路线包括:
| 方法 | 原理 | 优缺点 |
|---|---|---|
| SAE( Sparse Autoencoder) | 将模型的激活向量稀疏分解为多个「特征」 | 优点:无监督发现;缺点:特征碎片化、特征吸收 |
| Probing(探针) | 训练线性分类器在特定层的激活上预测某种行为 | 优点:针对性强;缺点:需要标注数据 |
| Steering(导向) | 在推理时向特定层的激活添加向量来改变模型行为 | 优点:推理时生效、无需重新训练;缺点:off-target 效应 |
| Transcoders | 类似 SAE,但用于 MLP 层之间的转换 | 适用于特定架构 |
Mark 在节目中给出一个极为精辟的描述:「解释 AI 模型,就像是在黑暗的房间里用手电筒照亮——你只能看到激活最强烈的部分,但不代表那就是全部。」这个比喻非常贴切地描述了当前 interpretability 研究的现状:我们可以通过各种技术手段「照亮」模型的某些部分,但模型内部仍然有大量我们尚未理解的「黑暗区域」。
2.2 Goodfire 的研究范围
Myra 强调 Goodfire 对 interpretability 的定义比学术界更宽泛:
「我们把 interpretability 看作深度学习的科学——不仅仅是事后分析,而是贯穿整个 AI 开发生命周期。从数据策展、预训练、后训练,到推理监控,每个环节都可以用 interpretability 来『debug』模型。」
这种「全生命周期」的视角是 Goodfire 区别于其他 interpretability 研究团队的关键点。具体来说,他们的工作覆盖以下几个阶段:
-
Pre-training 阶段的监控:用 interpretability 来理解模型在预训练阶段学到了什么。预训练是模型能力的根基,但也是一个极度不透明的过程。Goodfire 的目标是能够在预训练过程中就识别出模型是否在学习不该学的东西,或者是否遗漏了重要的知识。
-
Post-training 阶段的手术式编辑:这包括去除有害行为、减少政治偏见、消除 hallucination 等。RLHF 和 DPO 等后训练技术虽然能够让模型更加对齐人类偏好,但也会引入一些非预期的副作用。Interpretability 提供了一种「精准手术」的可能性——只修改特定行为,而不破坏模型的其他能力。
-
推理时的实时干预:通过 steering 来动态调整模型输出风格。这是最接近产品化的方向,因为它不需要修改模型权重,只需要对推理过程进行干预。
3. 硬核技术拆解:SAE 的局限性与下一代方向
3.1 SAE 的实际问题
节目中有一个极为关键的讨论:Mark 透露 Goodfire 在实际客户项目中发现了 SAE 的几个致命问题。这些问题在学术论文中往往被忽略,因为论文通常在受控的实验环境中评估,而真实世界的应用场景要复杂得多。
第一个问题是特征不纯净:当你用 SAE 探测有害内容(如 hallucination、PII、恶意意图)时,原始激活上的 probing 往往比 SAE 激活上的 probing 效果更好。这意味着 SAE 并没有像预期那样把概念「解耦」出来,而是引入了一层额外的噪声。这是一个非常反直觉的发现——理论上 SAE 应该能够将复杂的激活模式分解为更易解释的稀疏特征,但实践中发现有时候「不分解」反而效果更好。
第二个问题是特征碎片化(Feature Splitting):一个概念被拆分成了几十个细粒度特征,导致你无法精准控制。比如你希望控制「创造力」这个概念,但实际上它可能被拆成了十几个小特征,每个只捕捉了创造力的某个侧面。
第三个问题是特征吸收(Feature Absorption):某个特征会「偷走」其他概念的解释力,导致虚假关联。这就好比你以为找到了「癌症」的特征,但实际上它只是在编码「医院」这个概念的相关信息。
Mark 的原话是:「SAE 是无监督的 blessing,也是 curse——你能看到 AI 脑子里在想什么,但有时候你希望看到别的东西。」这句话完美概括了当前 SAE 技术的困境:无监督方法让我们能够发现意想不到的东西,但同时也意味着我们无法保证得到我们想要的东西。
3.2 解决方案:SAE + Probing 的混合策略
针对 SAE 的这些问题,Goodfire 的解决方案是采用混合策略:用 SAE 来做发现,用 Probing 来做精准定位。具体来说:
- 第一步:使用 SAE 对模型进行无监督分析,找出潜在的感兴趣区域
- 第二步:在 SAE 激活的基础上训练 Probing,专门针对目标行为进行精准检测
- 第三步:根据具体需求选择使用 SAE 特征还是 Probing 向量进行干预
这种混合策略在 Rakuten 项目中取得了显著成效。
3.3 Rakuten 实战案例
Goodfire 与日本电商巨头 Rakuten 的合作是当前最接近生产级的案例。Rakuten 是日本最大的电商平台之一(地位类似于中国的淘宝或京东),他们使用 Goodfire 的技术来解决一个非常实际的问题:如何在使用大语言模型时保护用户隐私。
具体需求包括:
- Token 级别的 PII 检测:不只是判断「这句话是否包含个人信息」,而是要精确到每个 token、精确 scrub 掉隐私信息。这比简单的句子级分类要困难得多,因为需要精确定位。
- 多语言支持:英语和日语,日语的 tokenization 行为带来了大量 bug。日语的字符编码、词边界处理与英语有本质区别,需要专门的优化。
- Synthetic-to-Real 迁移:由于隐私原因不能在真实用户数据上训练探针,只能用合成数据,然后在真实数据上评估。这意味着模型的泛化能力至关重要。
这个案例暴露了「研究版」和「生产版」之间的巨大鸿沟:研究论文里常见的简化假设(句子级分类、单一语言、干净数据集)在实际部署中全部失效。Mark 总结道:「当你真正去解决一个生产问题时,你会发现所有你做过的假设都是错的。」
3.4 其他实际挑战
除了上述技术挑战,Rakuten 项目还暴露了其他现实问题:
- 延迟要求:作为电商平台,每秒处理数万次请求,推理延迟必须控制在毫秒级
- 吞吐量:每天处理数百万条用户查询,需要能够规模化部署
- 可靠性:作为核心基础设施的一部分,系统需要 99.99% 的可用性
这些都不是传统 interpretability 研究会考虑的问题,但 Goodfire 必须全部解决才能真正交付产品。
4. 现场 Demo:实时 Steering 万亿参数模型
4.1 Demo 详情
节目中最炸裂的部分是 Mark 现场演示在 Kimi K2(1 万亿参数模型) 上进行实时 steering。这场 demo 不仅仅是为了视觉效果,它证明了 interpretability 技术已经可以在前沿大规模模型上发挥作用。
- 模型运行在 8 张 H100 GPU 上
- 使用 SGLang 的 fork 版本
- 实时加载 steering 向量到第 20、30、40 层
- 功能 ID 43205:一个被识别为「Gen Z 俚语」的特征
- 启用 steering 后,Kimi 的输出从正常对话风格瞬间转变为满口「NGL」「bro」「cringe」的 Gen Z 风格,但工具调用能力完全保留
这个 demo 之所以令人印象深刻,是因为它展示了几个关键能力:
- 实时干预: steering 向量可以在推理过程中动态加载,不需要预先修改模型
- 大规模模型:这是在 1 万亿参数模型上的实验,证明了技术的可扩展性
- 精准控制:只改变风格,不影响其他能力
4.2 如何找到这个特征?
整个过程分为三个主要步骤:
第一步:收集激活。向模型输入大量多样化数据,记录每层的激活向量。这些数据需要足够多样化,以确保覆盖模型的各种行为模式。Goodfire 通常会使用包含新闻文章、代码、对话、文学作品等各种类型文本的数据集。
第二步:训练 SAE。使用标准的稀疏自编码器技术,将高维的激活向量分解为低维的稀疏表示。这里有多种实现方式,包括 Top-K SAEs、Batch Top-K SAEs 和 ReLU SAEs,每种方法在计算效率和特征质量之间有不同的权衡。
第三步:自动化标注。这是最关键的步骤,也是最需要human-in-the-loop的步骤。把激活最强烈的输入示例丢给前沿 LLM,让它识别这些示例的共同模式。在 Gen Z 特征的案例中,LLM 识别出了这些示例都包含类似的俚语表达,从而确认了这是一个「语言风格」相关的特征。
Mark 补充了一个关键问题:Steering vs. Probing 的选择。如果你有一个明确想消除的行为(如 hallucination),用 probing 比 SAE 更精准,因为 SAE 是无监督的,你无法保证它会把 hallucination 分离成一个独立特征。Probing 就像是用一个专门训练的「探测器」去探测特定目标,而 SAE 更像是在黑暗中随机照射手电筒——你可能会看到有趣的东西,但不一定是你要找的。
4.3 Demo 背后的工程挑战
Mark 在演示前特别强调了这个 demo 的工程难度:
- 模型规模:1 万亿参数的模型需要大量的计算资源来运行
- 实时性:steering 向量需要在推理过程中实时加载,这要求对推理框架进行深度修改
- 延迟控制: steering 操作引入的额外延迟必须控制在可接受范围内
Swyx 评论道:「就在不久之前实时 steering 万亿模型听起来还是天方夜谭。」这确实代表了 interpretability 技术在工程层面的重大进步。
5. Steering 的深层原理:与 In-Context Learning 的等价性
节目中提到一篇来自 Goodfire 内部研究员(Act Deep 等人)的论文:「Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering」。这篇论文揭示了一个极为深刻的原理:Steering 和 In-Context Learning(ICL)在数学上是等价的。
5.1 形式化等价
In-Context Learning 本质上是更新 KV cache:当你给模型提供 examples 时,模型会修改其内部的状态(KV cache),然后下一个 token 的推理 = 权重 + 更新后的 context。
Steering 是向特定层的激活添加一个向量:在推理时,你不需要提供 examples,只需要添加一个预先计算好的向量。
论文证明了这两者在数学上可以互相推导,甚至能写出公式来预测「加多少 steering 向量」能达到「多少个 in-context examples」的效果。这就好比找到了两种不同语言之间的「翻译字典」。
5.2 实际应用:Jailbreak 预测
一个具体的 case study:用这个等价关系,可以预测 jailbreak 需要多少个 in-context examples。只要做 steering 实验,然后映射到对应的 examples 数量即可。
这意味着未来的安全防护可以变得更加精准:与其等到 jailbreak 发生后再修补,不如提前通过 steering 实验来预测系统的脆弱点。
5.3 Steering vs. Prompting
Swyx 追问:「所以 steering 不如 prompting 强?」
Mark 回答:「不是不如,而是你可以写出一个转换公式。未来你可以用 steering 替换一部分 prompting,反之亦然。」
这为产品设计开辟了新的可能性:如果你发现某些 prompting 技巧特别有效,你可以把它们「蒸馏」成 steering 向量,从而在不消耗 context length 的情况下实现类似效果。这是一个非常实用的优化方向,尤其是在长上下文场景中。
6. 生产力应用场景分析
6.1 Steering 的当前局限
尽管 demo 很酷,Mark 坦诚表示:目前 steering 主要适用于风格层面的调整(如 Gen Z、简洁模式、编程语言偏好),而不是深层的推理能力改造。
他提到:「我们不想看到一个世界 where steering 只对风格有用。我们的目标是达到像法律推理这样复杂的行为调整,但这需要学习算法上的突破。」
这背后有一个深层的理论原因:模型的复杂推理能力是通过预训练和后训练过程中的大量数据和计算构建的,仅仅是添加一个 steering 向量很难系统性地改变这些深层次的能力。Steering 更像是在已有的能力基础上进行「调优」,而不是「重新训练」。
6.2 与 Fine-Tuning、Tinker(LoRA)的对比
| 方法 | 参数空间 | 推理时开销 | 精度 | 适用场景 |
|---|---|---|---|---|
| Steering | 不修改权重,只修改激活 | 极低(单次向量加法) | 粗粒度 | 风格/行为微调 |
| Tinker(LoRA) | 修改 adapter 权重 | 中等(加载 adapter) | 中等 | 持续的行为定制 |
| Full Fine-Tuning | 修改全部权重 | 高(需加载新权重) | 高 | 大规模定制 |
Mark 的比喻:「修改权重是在改『管道本身』,而 steering 是在改『管道里流的水』。前者影响深远,后者立竿见影但粗糙。」
这个比喻非常生动:修改权重(无论是 full fine-tuning 还是 LoRA)就像更换了整个管道系统,改变了水流的基本属性;而 steering 则像是调节水龙头,可以快速改变水流的方向和强度,但管道的根本结构没有变化。
6.3 产品化的机会
既然 steering 在风格调整上已经成熟,当前最接近产品化的方向包括:
- 客服机器人:根据用户情绪调整回复风格
- 代码助手:调整输出的代码风格(简洁 vs 详细、函数式 vs 面向对象)
- 内容审核:动态调整模型的审核严格程度
- 多语言翻译:调整翻译的自然度和技术性
这些都是 Goodfire 目前在探索的商业化方向。
7. 科学发现:从基因组学到生物标志物
7.1 生命科学合作
Goodfire 已经将 interpretability 扩展到 AI for Science 领域,这是一个极具潜力的方向。Myra 在节目中分享了他们的几个关键合作伙伴:
- Mayo Clinic:用 Goodfire 的技术分析医学影像模型,帮助放射科医生更好地理解 AI 的诊断建议
- Prima Menta:专注于神经退行性疾病,用 Goodfire 的方法从 foundation model 中发现阿尔茨海默病的新型生物标志物。这是一个极其重要的应用,因为阿尔茨海默病的早期诊断目前仍然是医学难题
- 材料科学:类似技术用于材料发现模型,帮助科学家理解为什么某些材料具有特殊的物理化学性质
7.2 双向知识流
Myra 提出的一个深刻观点:interpretability 解决的本质是 AI-人类双向通信问题。
- 正向:人类把欲望「灌输」给模型(steering、fine-tuning、RLHF)。这是当前主流的 AI 对齐方法,但也存在很多问题,比如 reward hacking、goal misgeneralization 等
- 反向:模型把知识「传授」给人类——尤其是那些超越人类专家能力的「superhuman」模型。这里的典型例子包括基因组学模型(可以识别人类尚未命名的基因特征)、材料科学模型(可以发现新的材料组合)等
「当模型在某个领域达到 superhuman 水平时,我们怎么知道它学到了什么?传统 ML 是黑箱,但 interpretability 让我们能提取模型发现但人类尚未命名的知识。」
这实际上开启了一个全新的科学发现范式:与其让 AI 直接给出答案,不如让 AI 解释它是如何得出答案的,然后人类科学家可以验证这些解释,甚至从中获得新的科学洞见。
7.3 实际案例:阿尔茨海默病生物标志物
在与 Prima Menta 的合作中,Goodfire 的技术帮助发现了一些此前未被识别的阿尔茨海默病生物标志物。这些标志物来自对脑部扫描数据的深度分析,模型能够识别出人类放射科医生难以注意到的细微模式。
这个案例特别有说服力,因为它展示了 interpretability 不仅仅是「debugging」工具,更是一个「知识发现」工具。模型不仅可以告诉我们它做出了什么预测,还可以告诉我们它基于什么做出了这些预测。
8. World Models 与多模态 Interpretability
节目中还讨论了 Goodfire 对 World Models(世界模型)的兴趣,这是一个日益重要的研究方向。
8.1 为什么是多模态?
World Models 指的是模型对物理世界的内部表示。在多模态模型(图像、视频、音频)中,world model 的重要性更加突出:
- 可视化反馈:图像/视频的特征比文本更容易可视化——你可以直接「看到」模型在关注什么,反馈周期极快。这对于 interpretability 研究来说是一个巨大的优势
- 现实世界应用:自动驾驶、机器人等场景需要模型理解物理世界的规律,这些规律可以通过多模态 interpretability 来揭示
8.2 World Models 的实际用例
Mark 描述了一个具体的应用场景:用 SAE + probing 来检测视频中的有害行为。
问题:互联网上的视频内容海量,手工标注有害视频几乎不可能。 解决方案:
- 合成生成各种「有害」场景的短片
- 用 SAE 分析这些视频的激活模式
- 训练 probing 来检测这些模式
- 规模化部署到实际的内容审核系统中
这种方法的关键优势是可扩展性:一旦训练好 probing,就可以无限量地处理视频,而不需要每个视频都经过人工审核。
8.3 与自然语言的区别
节目还讨论了 world model 在不同模态中的差异:
在语言模型中,world model 是「模糊」的——模型即使没有完全对齐人类的世界观,也能通过 Turing 测试。模型可以生成流畅的文本,但内部可能对物理世界的理解非常粗糙。
但在物理/科学模型中,如果 world model 不准确,输出就会错得离谱。比如一个天气预报模型如果对大气物理的理解有偏差,预测就会完全失效。
这意味着 interpretability 在科学模型中的应用价值可能更高,因为错误的内部表示会直接导致错误的输出,而在语言模型中,这种错误可能不那么明显。
9. 行业洞察:Interpretability 的现状与未来
9.1 为什么现在爆发?
Swyx 问了一个关键问题:为什么 interpretability 在这个时间点突然火起来了?Mark 的回答涵盖了几个关键因素:
门槛极低:训练一个 SAE 的成本在几千美元量级,不需要大规模预训练计算。这与预训练一个基础模型(通常需要数百万美元)形成鲜明对比。
工具链成熟:Neuronpedia 提供可视化,Anthropic、DeepMind 开放了大量 SAE,Gemma 模型上可以复现。这意味着任何有兴趣的研究者都可以快速上手。
实际需求出现:企业开始意识到 guardrail、hallucination detection、model customization 这些问题的紧迫性。随着 AI 系统在实际生产环境中的部署越来越多,「黑箱」模型的风险也越来越大。
学术界的推动:过去几年的论文(如 Anthropic 的 superposition 系列)证明了 interpretability 可行,尽管还是 toy 模型。
9.2 关键开放问题
节目中推荐了一篇必读论文:Lee Sharkey 的「Open Problems in Interpretability」——由领域专家列出的待解决清单。这个清单涵盖了从理论问题(我们真的能理解 transformer 吗?)到实际问题(如何规模化 interpretability?)的各个方面。
其他推荐资源:
- MATS(Machine Learning and Alignment Theory Scholars):Goodfire 大量员工来自这个 fellowship 项目。这是一个为期一年的研究奖学金,专注于 ML 安全的各个方向
- Neuronpedia:开源的 SAE 可视化平台,任何人都可以上传和浏览 SAE 特征
- Anthropic 的 superposition 论文:早期 interpretability 研究的代表作,展示了模型如何在有限维度中表示无限的概念
9.3 社区生态
- ICML 2024 的 workshop 主题是 Actionable Interpretability:这反映了学术界对「可操作性」的重视——不仅仅是理解模型,还要能用这种理解来做点什么
- 学术界对 interpretability 的兴趣激增:很多教授反馈「现在每个 incoming PhD 学生都想做 interpretability」,这与几年前的状况形成鲜明对比
- 工程师严重短缺:Myra 强调「我们不仅需要研究者,更需要能把技术工程化的 MLE」。这是一个很实际的瓶颈——好的想法很多,但能把它变成可生产系统的人很少
10. 对话中的安全视角
节目中有一个关于 AI Safety 的讨论。Myra 和 Mark 的立场是 技术派:他们认为 scalable oversight(可扩展监督)是核心——用更强的模型来理解更弱的模型,最终实现「让 AI 帮助理解 AI」的循环。
对于近期 OpenAI 的 Super Alignment 团队动荡(Ilya Sutskever 等人离开),Mark 的回应很务实:「我们目前处于一个『还能信任强模型』的阶段,它们可以成为理解其他模型的好 co-scientist。这是一个比较舒服的状态。」
这种观点可以概括为「渐进式对齐」:与其追求一个完美的理论解决方案,不如在当前的技术水平下尽可能地提高模型的可理解性和可控性。Interpretability 正是实现这一目标的关键技术。
11. 给新人的建议:如何入门 Mechanistic Interpretability
11.1 学习路径
Mark 和 Myra 在节目中分享了他们的入门建议:
- 理论基础:理解 transformer 架构、自注意力机制、激活空间等基础概念
- 工具掌握:学习如何使用 TransformerLens(Neel Nanda 开发)等开源工具来分析模型
- 实践项目:从简单的 SAE 训练开始,逐步尝试 probing 和 steering
- 论文阅读:重点关注 Anthropic、DeepMind 和独立研究者的论文
11.2 推荐项目
- Neuronpedia:交互式浏览 SAE 特征
- TransformerLens:代码导向的模型分析教程
- SAE Vis:可视化 SAE 激活的工具
11.3 参与社区
- Macinturk Slack:活跃的讨论社区
- MATS 计划:Goodfire 大量员工来自这里
- 学术会议:ICML、NeurosIPS 的 interpretability workshop
总结:Interpretability 的下一步
这期节目的核心信息可以归纳为以下几点:
-
Goodfire 是第一家将 Mechanistic Interpretability 做到生产级别的公司,从研究走向产品化。他们不仅发论文,还真正把技术卖给了企业客户。
-
SAE 不是银弹:有特征碎片化、特征吸收等已知问题,需要与 probing、steering 配合使用。实践中发现,有时候直接用原始激活反而比 SAE 效果更好。
-
Steering 的当前边界:风格调整效果显著,复杂推理行为的精确控制仍需突破。但与 in-context learning 的等价性发现为未来开辟了新的可能性。
-
科学发现是下一个大方向:用 interpretability 从 superhuman 模型中提取人类未知的知识,这可能改变科学研究的方式。
-
门槛已经很低:几千美元的计算预算 + 开源工具链 = 任何人都可以开始做 interpretability 研究。对于想要进入这个领域的工程师来说,现在是最佳时机。
这期节目不仅仅是对 Goodfire 公司的介绍,更是对整个 interpretability 领域的全景式扫描。从理论基础到产品实践,从当前局限到未来方向,Swyx 和两位嘉宾进行了深入的探讨。对于任何想要了解 AI 可解释性最新进展的人来说,这是一期不可错过的内容。
本期节目录制于 2026 年 2 月,Goodfire 刚完成 1.5 亿美元 B 轮融资。
📺 播客地址
播客时长: 69分钟