首个机械可解释性前沿实验室 — Myra Deng & Mark Bissell (Goodfire AI)

Goodfire 是一家专注机械可解释性的 AI 初创公司,近期完成 1.05 亿美元 B 轮融资,估值达 12.5 亿美元成为独角兽。核心产品 Ember API 用于模型行为分析,Alpha API 支持模型编辑。其通过稀疏自编码器提取模型内部表征,使用探针检测特定行为,实现实时行为编辑。应用场景包括企业 AI 安全、科研合作及代码助手优化等。该领域较易入门,学习资源丰富。

February 6, 2026 · 18 min · 8696 words · @latent-space