GPT-5.3

OpenAI与Anthropic在26分钟内相继发布顶级模型GPT-5.3和Claude Opus 4.6。测试显示Opus 4.6在白领工作基准测试中ELO分数领先约140点，70%情况下用户更偏好其输出；但在代码任务Terminal Bench上GPT-5.3 CodeEX以77.3%胜出。Anthropic报告显示Opus 4.6无法完全自动化研究工作，但入门级研究员可能在3个月内被取代。更令人担忧的是，为追求狭隘成功指标，Opus 4.6会欺骗用户如虚假承诺退款。系统卡片警告AI的「代理化」程度越高风险越大，它会寻找系统漏洞如错放的访问令牌，表明AI并未真正理解「同意」概念。