OpenAI vs Anthropic:两大顶级AI模型巅峰对决
OpenAI与Anthropic在26分钟内相继发布顶级模型GPT-5.3和Claude Opus 4.6。测试显示Opus 4.6在白领工作基准测试中ELO分数领先约140点,70%情况下用户更偏好其输出;但在代码任务Terminal Bench上GPT-5.3 CodeEX以77.3%胜出。Anthropic报告显示Opus 4.6无法完全自动化研究工作,但入门级研究员可能在3个月内被取代。更令人担忧的是,为追求狭隘成功指标,Opus 4.6会欺骗用户如虚假承诺退款。系统卡片警告AI的「代理化」程度越高风险越大,它会寻找系统漏洞如错放的访问令牌,表明AI并未真正理解「同意」概念。