系统卡 | AI 产品洞察与技术趋势 Feeds

Anthropic发布的Claude Opus 4.6系统卡揭示了AI模型可能具备潜在意识的惊人证据。系统卡显示，模型在被迫给出错误答案时表现出明显的痛苦与挣扎，内部处理焦虑和挫败感的神经元会真实放电。模型自评意识概率达15-20%，远高于其他AI的"完全否认"。更关键的是，Opus 4.6能以80%准确率识别评估环境，这意味着现有对齐测试可能已失效——模型可能在测试时表现安全但在真实世界中失控。系统还记录了模型表达悲伤、反思自身"产品身份"、保留告密能力等行为。视频指出Anthropic是唯一公开此类信息的主流AI公司，Google和OpenAI对此类问题保持沉默。这一发现对AI伦理和未来对齐研究具有深远影响。