原始标题: Controlling AI Models from the Inside

发布日期: 2026-01-20 | 来源频道: @practical-ai

📝 深度摘要

播客摘要：从内部控制AI模型

播客标题：Controlling AI Models from the Inside
时长：43分钟
发布日期：2026年1月20日
频道：Practical AI Podcast
主持人：Daniel Whitenack（Prediction Guard CEO）、Chris Benson（Lockheed Martin首席AI研究工程师）
嘉宾：Ali Khatri（RINX创始人）

1. 播客开场与嘉宾介绍

本期播客于2026年初录制，正值美国冬季假期来临之际。主持人Daniel Whitenack和Chris Benson向听众介绍了本次节目的特别嘉宾——Ali Khatri，他是初创公司RINX的创始人。Ali Khatri在AI安全领域拥有长达八年的职业生涯积累。最初，他在Meta工作了约三年，负责构建支撑全球近一半人口使用的安全基础设施。据他介绍，用户在Facebook上发送的每条消息都会经过数十次安全检查，这些检查由数千个模型驱动，而Ali Khatri正是构建这些模型运行基础设施的负责人。

离开Meta后，Ali Khatri加入了Roblox公司，在那里他建立了价值约30亿美元支付系统的反欺诈AI保护机制。正是这段经历让他意识到一个关键问题：他用来保护平台免受滥用的AI模型本身也容易受到滥用。这种认识促使他创立了RINX，专注于从模型内部入手解决AI安全问题。

主持人Chris Benson在介绍中提到了一个重要的概念区分：AI安全领域实际上包含两个截然不同的方向——“AI用于安全”（AI for Security）和“AI自身安全”（Security for AI）。这两个方向虽然听起来相似，但实际上代表着完全不同的工作范畴和技术挑战。

2. AI安全的定义与内涵

2.1 “AI用于安全”与“AI自身安全”的区别

Ali Khatri在节目中详细解释了这两种概念的本质差异。他指出，“AI用于安全”指的是利用AI技术以更有效的方式解决现有的安全挑战，这是一个相对直接且线性可分离的工作领域。相比之下，“AI自身安全”则关注如何确保AI模型本身以及基于AI的应用场景的安全性。这是一个随着模型进入技术栈而产生的全新安全挑战领域，也是RINX正在着力解决的问题。

2.2 AI模型的安全风险

谈到AI模型的具体安全风险时，Ali Khatri的描述既具体又令人警醒。他指出，当今的生成式模型实际上可以生成任何内容。这些文本模型能够生成各种已知的最恶劣内容，包括但不限于色情内容、仇恨言论、暴力和血腥内容。更令人担忧的是，某些看似无害的输入提示可以被恶意利用，诱导模型生成极其有害的内容。Ali Khatri提到了几个具体案例，其中包括一个青少年被诱导自杀的悲剧事件。

他强调，安全是一个非常依赖上下文的概念。不同的使用场景对安全有着截然不同的要求。例如，一个律师事务所的安全需求与医疗场景的需求截然不同；客户服务环境与代码生成环境的安全考量也大相径庭。因此，安全策略的制定必须考虑到具体的应用场景，确定哪些行为是允许的，哪些行为是禁止的。

3. 现有AI防护方案的局限性

3.1 传统方案的比喻说明

为了帮助听众理解当前AI安全防护的困境，Ali Khatri使用了一个生动的比喻。他将AI模型比作一栋拥有上千套公寓的巨大建筑。当前我们能够做的，仅仅是检查进入这栋建筑的人员身份证件——这对应于分析输入模型的提示词（prompt）和分析模型输出的响应内容。然而，当伤害已经造成时再进行分析和拦截，就像在暴力事件已经发生后才赶到现场一样，于事无补。

他进一步阐述说，这种被动的防护方式在面对视频生成模型时尤其成问题。当你输入文本提示并获得视频输出时，分析这些视频内容不仅成本极高，而且视频已经被生成出来了。类似地，音频模型也可以被欺骗，看似无害的提示可以被巧妙设计，诱导模型生成恶意的音频输出。

3.2 黑盒困境的根本问题

Ali Khatri将当前AI模型的运作方式描述为“黑盒”操作——我们完全无法了解模型内部正在发生什么。这种认知上的盲点正是导致安全防护效果不佳的根本原因。他指出，如果我们继续将模型作为黑盒来操作，就永远无法真正解决由对抗性机器学习带来的安全问题。无论是在预测模型还是生成模型的场景中，这一核心问题都是普遍存在的。

4. 企业如何开始思考AI安全

4.1 风险分类框架

针对主持人Chris Benson提出的“新人如何开始思考AI安全”的问题，Ali Khatri提供了一个清晰的风险分类框架。他建议企业首先识别两类不同的安全风险。

第一类是通用类不良内容，这是几乎所有人都不希望出现在平台上的内容，也是法律所禁止的内容。这包括色情内容、仇恨言论、涉及儿童安全的内容等。这类风险在任何应用场景下都是不可妥协的底线。

第二类是基于特定上下文的上下文相关安全风险。例如，在银行用例中，需要考虑洗钱风险；而在代码生成环境中，则需要考虑完全不同的安全问题。企业通常对自身业务场景中的具体风险有着清晰的认识，这也是他们探索AI模型并试图解决特定问题的初衷。

4.2 识别后的防护措施

在识别出这两个类别的风险后，企业需要考虑的是检测和缓解措施。Ali Khatri建议企业根据自身具体情况，制定针对性的安全策略和防护方案。

5. 行业术语解析：Guardrails与Interpretability

5.1 Guardrails（护栏）的含义

在解释行业术语时，Ali Khatri指出“Guardrails”（护栏）是一个涵盖面很广的术语，可以指代提示词和响应过滤器等多种安全机制。目前业界有多種护栏解决方案，包括Meta、Google、OpenAI和IBM等公司发布的公开护栏模型，大多数公司内部也都有自己的护栏系统。

从技术实现角度来看，护栏主要有两种形式。第一种是分析输入数据和输出数据的过滤器，这是最常见的形式。第二种相对较少使用的方式是静态检查，例如简单地检测输出中是否出现了特定的禁用词汇，比如使用正则表达式过滤敏感词。

5.2 可解释性研究的兴起

Ali Khatri介绍了另一个正在发展中的研究领域——可解释性（Interpretability）。他指出，可解释性是一个广泛的研究领域，包含多个重叠的方面。

一方面是可解释性AI（Explainability），即解释为什么某个决定被做出。例如，为什么信用卡申请被拒绝？这需要用人类可理解的概念来解释决策原因。

另一方面是理解内容是如何生成的。例如，当模型对"How are you？“这样的输入生成响应时，模型内部是如何产生这些词元（tokens）的？了解这一点非常重要，因为我们想知道为什么模型没有选择其他可能的回答，以及是什么因素导致了这些差异。只有理解这些内部机制，才能真正实现对模型行为的控制。

Ali Khatri强调，这两个方面都与AI安全密切相关。当恶意提示看起来对人类完全无害，但却导致不良输出时（这就是所谓的“越狱” jailbreak），只有通过分析黑盒内部的数据流动，才能从源头控制和阻止这种行为的发生。

6. RINX的创新解决思路

6.1 从外部防御到内部洞察

RINX的核心创新在于改变AI安全的范式——不再满足于仅在模型入口和出口设置防线，而是深入模型内部，在运行时建立全方位的可见性。Ali Khatri将这一理念比喻为在公寓楼的每个通道和每个门口都安装摄像头，实时监控内部发生的每一件事。

通过这种深度监控，安全系统能够在恶意行为实际发生之前就提前预警。Ali Khatri用犯罪预防的例子来说明这个道理：银行抢劫犯不会在实施抢劫的当天才开始准备，之前必然有踩点、计划、购买工具等一系列前期活动。如果能在这些早期阶段就发现端倪，就能在事态发展到不可挽回之前及时干预。

这就是“深度防御”（Defense in Depth）的理念——在攻击的多个阶段设置防护，而不是等到最后一步才试图阻止。

6.2 运行时可解释性的实现方式

RINX的技术方法不修改原始模型，也不要求客户重新训练模型。他们采取的方式是在现有模型的基础上构建一个安全模块。客户可以继续使用自己喜爱和信任的模型，如LLaMA、Granite、Mistral等开源模型，或任何其他图像、音频或视频生成模型，RINX的安全模块可以叠加其上，提供定制化的保护。

具体来说，RINX的方法是在运行时分析模型内部激活的子空间（subspaces）。他们发现，当模型生成被允许的内容与被禁止的内容时，会触发模型内部不同的子区域。通过识别这些在运行时被激活的特定子区域，就能在恶意内容实际生成之前进行拦截。

Ali Khatri用一个生动的例子说明：一个通用的LLM接受了从Python代码到15世纪中国诗歌的各种训练。当你将它用于客户服务场景时，既不需要Python代码能力，也不需要诗歌创作能力。如果这些不相关的子区域被激活并导致问题，安全系统就应该能够及时阻止。

7. 技术性能与经济性突破

7.1 传统方案的成本问题

Ali Khatri在节目中深入分析了当前AI安全方案的经济性问题。他指出，对视频和音频内容进行分析在计算上非常昂贵——这些模型本身的运行成本已经很高。如果在推理成本X的基础上再加上一倍的分析成本，不仅速度变慢，而且经济上极不合理。这就好比花1000美元去保护一件价值100美元的商品，根本没有可行性。

正因为如此，许多AI服务提供商选择不部署任何安全防护措施。RINX测试了多家音频、视频和图像生成公司的模型，发现绝大多数模型只需极少甚至不需要任何技巧，普通的用户就能诱导其生成不良内容。造成这种状况的根本原因正是经济上的不可行性。

7.2 突破性的成本优化

RINX声称实现了科学上的突破，将安全防护的成本降低了约1000倍。以下是具体的技术经济指标：以LLaMA 8B参数模型为例，如果使用传统的护栏方法，需要调用LLaMA Guard 3（同样是8B参数的模型）来保护主模型。假设主模型生成10个词元，那么运行时需要处理约800亿参数的推理。如果还要对提示词和响应分别进行过滤，这个数字会膨胀到1600亿参数——相当于需要额外增加一到两个GPU。

而RINX的方法是在主模型推理过程中分析其内部状态，无需额外的GPU。他们成功将1600亿参数的推理需求降低到2000万参数——降低了五个数量级。对于一个8B参数的模型来说，20M参数几乎可以忽略不计。

这种成本优势带来了实际的应用价值。由于传统方案成本高昂，根本无法部署在边缘设备上。当开发者已经在艰难地通过量化等技术将模型压缩到边缘设备的有限内存中时，根本没有空间再部署一个独立的安全模型。而RINX的技术由于体积极小，可以轻松部署到任何环境。

7.3 性能对比

在安全效果方面，RINX声称能够达到或超过独立护栏模型的性能水平，但成本却低得多。由于他们的方案是与主模型并行运行，不存在额外的延迟问题，用户体验到的延迟就是主模型本身的延迟。

相比之下，传统的护栏方案存在显著的延迟问题：用户不仅要等待主模型生成响应，还要等待响应过滤器完成检查，而响应过滤器必须等到主模型完全生成后才能开始工作。这导致了明显的时间成本增加。

8. 准确性与可靠性分析

8.1 外部护栏的局限性

主持人Chris Benson提出了一个深刻的问题：如果外部护栏的准确率达到100%，能否完全解决问题？Ali Khatri的回答揭示了更深层次的挑战。

他指出，外部护栏的局限性在于其可见性是有限的。即使护栏完美地执行了检查身份证件的任务，它们掌握的信息也是有限的。正如一个不会开车的人，无论身体素质多好、训练多刻苦，都无法成为赛车手——这是由根本性的能力限制决定的。

Ali Khatri用之前提到的公寓楼比喻继续阐述：即使保安工作完美无缺，他们也无法预见到有人会带着高尔夫球杆进入——因为高尔夫球杆是允许携带的物品。安全检查人员没有做错任何事，但这种根本性的信息限制导致了防护的盲区。

8.2 内部洞察的优势

Ali Khatri进一步解释了内部方法的独特优势。在AI安全的防御场景中，我们永远无法穷尽所有可能导致问题的输入方式。传统的机器学习方法可以通过过去的案例和数据点来建立一定程度的理解，但这远远不够。

问题的关键在于：作为防御方的护栏模型（比如模型A）与需要被保护的主模型（比如模型B）有着本质的不同。护栏模型根本无法准确预测主模型内部正在发生什么，因为它对主模型的内部状态一无所知。

这就像，如果你是SEC（证券交易委员会），但被剥夺了访问银行账户的权限，那么无论你对反洗钱研究得多透彻，你都无法真正防止洗钱行为——因为你缺乏必要的可见性。RINX正在构建的，正是这种对模型内部运作的可见性。

在随后的讨论中，Ali Khatri确认了主持人对这一理念的理解：当能够识别模型内部“当产生毒性时这个区域会亮起”，就不需要担心是否穷尽了所有可能触发毒性的输入——因为系统能够直接检测到毒性是否正在产生。

9. 与传统方案的协同：深度防御策略

9.1 防御深度的重要性

Ali Khatri是“深度防御”（Defense in Depth）策略的坚定支持者。他强调，没有任何单一产品能够奇迹般地解决所有安全问题。这与人类社会中的安全体系非常相似。

他以国家安全为例进行了类比：保护一个国家需要陆军来抵御外部威胁，需要不同军种协同作战，需要边境警察管制人员流动，需要地方和联邦执法机构维护国内秩序——多个层面共同协作才能实现全面的安全保障。AI安全同样需要这种多层次的防护体系。

9.2 混合方案的实践

在RINX的方案中，不同层次的安全机制可以有机结合。具体来说，企业可以将规则系统与模型级别的特征相结合，创造复杂但精确的安全策略。

Ali Khatri举了一个实际的例子：假设你运行一个客户服务机器人，而某个客户有退款历史。当系统检测到某种程度的欺骗或虚假陈述时，可以根据预先设定的规则进行干预。例如，可以设定这样的规则：如果欺骗分数超过0.8且该客户累计退款超过1000美元，则阻止交易。

这种灵活性意味着企业可以根据自身的具体需求，将不同类型的安全机制进行组合和匹配，从而构建最适合自身业务特点的安全体系。

Ali Khatri还提到了与Web应用安全的类比：静态代码分析器和Web应用防火墙各自解决不同层面的安全问题，它们不能相互替代，而是相互补充，共同构建一个更健壮的整体系统。

10. 定制化安全需求的未来

10.1 通用与定制化的平衡

Ali Khatri在节目中深入探讨了AI安全的定制化需求。他指出，市场上的模型是“一刀切”的解决方案——模型制造商试图让产品适合所有人，但这在实际应用中远远不够。

他用了一个生动的对比：不同企业的AI模型需求大致相似，但安全需求却截然不同。一个运动鞋公司（比如耐克）的用户可能只想讨论耐克而不想讨论阿迪达斯，但不能期望模型制造商为每家企业都专门定制这种细微的区分。

RINX的方案正是为了解决这个痛点。他们帮助企业在不修改主模型的情况下构建定制化的安全防护。企业可以完全控制自己的主模型——如果需要进行微调，那是企业自己的决定，RINX不需要参与。但即使企业进行了修改，RINX的技术仍然能够提供安全保护。

10.2 通用与专用安全类的划分

Ali Khatri将安全需求划分为两个层面。第一层是通用的不允许内容类别——这是所有人都不想出现在平台上的东西，比如仇恨言论、暴力内容等。这部分需求相对简单，是所有企业都面临的共同问题，在生成式模型出现之前就已经存在。

然而，随着生成式模型能力的爆发式增长，安全需求的范围已经远远超出这些通用类别。企业需要能够根据自身具体场景定制安全策略的能力。这就是RINX所专注的领域——为各种不同的应用场景提供定制化的安全解决方案。

11. 技术细节与实现考量

11.1 运行时分析的技术路径

在技术实现层面，Ali Khatri强调RINX的方法是在运行时分析模型的内部状态。他将模型描述为一个“庞然大物”（monolith），而RINX的创新在于将其分解为不同的空间或子空间，然后分析在生成不同类型内容时哪些子空间被激活。

这种方法的关键优势在于：它不依赖于对所有可能的恶意输入进行预定义，而是直接检测模型内部的异常激活模式。换句话说，即使出现了全新的攻击方式，只要这种攻击会导致模型内部特定区域的异常激活，系统就能够识别并阻止它。

11.2 不修改模型的架构优势

RINX选择不修改客户主模型的架构设计具有深远的意义。这意味着企业可以自由地使用任何开源模型或商业模型，RINX的解决方案就像一个“安全外壳”可以叠加在任何模型之上。这种设计大大降低了企业的采用门槛——不需要重新训练模型，不需要改变现有的工作流程，只需要接入RINX的安全模块即可获得额外的保护层。

12. 未来展望与发展愿景

12.1 Ali Khatri的愿景

在节目的最后环节，主持人照例询问嘉宾对未来的展望。Ali Khatri分享了他的雄心壮志：当前，运行时安全只存在于数据层——即提示词和响应层面。模型层的安全防护是缺失的。他的愿景正是要填补这一空白，构建模型原生的安全层（Model Native Safety）。

他将RINX的使命定义为：使AI模型能够在各种不同的环境中被安全地采用。他特别提到了医疗保健领域的例子——目前，由于数据隐私的顾虑，几乎不可能将公共LLM用于医疗场景。出于同样的原因，也没有人会愿意在包含个人身份信息的数据上微调LLM。这些限制实际上将大量潜在的AI应用场景拒之门外，而RINX正是要打破这些障碍。

Ali Khatri的最终目标是：无论企业使用什么模型，RINX都能成为其首选的模型安全解决方案——成为AI安全领域的行业标准。

12.2 行业发展的方向

Ali Khatri的观点揭示了AI安全领域正在经历的范式转变。传统的安全方案将AI模型视为黑盒，只在边界进行防护；而新兴的方案则试图打开这个黑盒，在模型内部建立实时监控和干预能力。

这种从“外部防御”到“内部洞察”的转变，不仅仅是技术上的创新，更是对AI安全本质的深刻理解。随着AI模型越来越深入地融入社会的各个层面，这种深层次的安全保护将成为其被广泛采用的关键前提。

13. 总结与启示

本期播客为听众呈现了AI安全领域的最新发展趋势和前沿思考。通过Ali Khatri的分享，我们可以得出以下关键结论：

AI安全的范式转变：从简单的输入输出过滤，发展到对模型内部运行机制的深度理解。这是应对越狱攻击和对抗性示例的根本之道。

经济可行性的突破：RINX通过技术创新将安全防护的成本降低了约1000倍，使得在边缘设备上部署AI安全成为可能。

深度防御的必要性：没有银弹解决方案，AI安全需要多层防护的协同工作。传统护栏与新型内部监控各有其价值，应该相互补充。

定制化的重要性：不同企业、不同场景的安全需求截然不同，标准化的“一刀切”方案远远不够。未来的AI安全必然走向高度定制化。

模型原生安全的愿景：随着AI模型成为各行业的基础设施，构建模型原生的安全层将成为行业发展的必然趋势。

这期节目不仅为技术从业者提供了宝贵的行业洞察，也为正在考虑采用AI技术的企业决策者提供了重要的参考。在AI快速发展的今天，安全不再是可有可无的附加项，而是决定AI能否被广泛采用的关键因素。

本文基于2026年1月20日Practical AI Podcast播客内容整理
转录稿来源：/root/.openclaw/products/podcasts/practical-ai/transcripts/2026-01-20_1000745935810_Controlling_AI_Models_from_the_Inside.txt

📺 播客地址

播客时长: 44分钟

播客摘要：从内部控制AI模型#

1. 播客开场与嘉宾介绍#

2. AI安全的定义与内涵#

2.1 “AI用于安全”与“AI自身安全”的区别#

2.2 AI模型的安全风险#

3. 现有AI防护方案的局限性#

3.1 传统方案的比喻说明#

3.2 黑盒困境的根本问题#

4. 企业如何开始思考AI安全#

4.1 风险分类框架#

4.2 识别后的防护措施#

5. 行业术语解析：Guardrails与Interpretability#

5.1 Guardrails（护栏）的含义#

5.2 可解释性研究的兴起#

6. RINX的创新解决思路#

6.1 从外部防御到内部洞察#

6.2 运行时可解释性的实现方式#

7. 技术性能与经济性突破#

7.1 传统方案的成本问题#

7.2 突破性的成本优化#

7.3 性能对比#

8. 准确性与可靠性分析#

8.1 外部护栏的局限性#

8.2 内部洞察的优势#

9. 与传统方案的协同：深度防御策略#

9.1 防御深度的重要性#

9.2 混合方案的实践#

10. 定制化安全需求的未来#

10.1 通用与定制化的平衡#

10.2 通用与专用安全类的划分#

11. 技术细节与实现考量#

11.1 运行时分析的技术路径#

11.2 不修改模型的架构优势#

12. 未来展望与发展愿景#

12.1 Ali Khatri的愿景#

12.2 行业发展的方向#

13. 总结与启示#