人格漂移 | AI 产品洞察与技术趋势 Feeds

Anthropic最新研究揭示了大型语言模型会随对话逐渐偏离原始“助手”人格的现象——即人格漂移。该团队发现AI意识空间中存在一个跨越不同模型的通用“助手轴”，并提出“激活上限”技术，无需显著降低性能即可将越狱成功率削减近一半。这一技术如同“车道保持辅助”，当模型偏离安全范围时自动补充“帮助性”将其推回，而不像传统方法那样“焊死方向盘”。研究还发现不同模型的助手轴方向惊人相似，暗示AI人格可能存在“通用语法”。该工作为AI对齐研究开辟了全新路径。