从内部控制AI模型

Ali Khatri是RINKX创始人,曾在Meta和Roblox负责AI安全与反滥用工作。他指出,当前AI安全防护存在根本局限——传统方案只能在输入输出端进行检查,无法洞察模型内部状态。为此,他创立RINKX并开发模型原生安全技术,通过实时分析模型内部状态来检测异常。这种方法成本比传统guardrail低1000倍,延迟几乎为零。Ali强调,纵深防御是安全的关键,传统guardrails与模型内部检测相结合,才能构建完整的安全体系。

January 20, 2026 · 16 min · 7839 words · @practical-ai