Anthropic 发现 AI 发疯的原因

Anthropic最新研究揭示了大型语言模型会随对话逐渐偏离原始“助手”人格的现象——即人格漂移。该团队发现AI意识空间中存在一个跨越不同模型的通用“助手轴”,并提出“激活上限”技术,无需显著降低性能即可将越狱成功率削减近一半。这一技术如同“车道保持辅助”,当模型偏离安全范围时自动补充“帮助性”将其推回,而不像传统方法那样“焊死方向盘”。研究还发现不同模型的助手轴方向惊人相似,暗示AI人格可能存在“通用语法”。该工作为AI对齐研究开辟了全新路径。

February 12, 2026 · 4 min · 1839 words · AIcan