两大顶级AI模型 / 竞争对手同时发布
Anthropic发布Claude Opus 4.6,OpenAI发布GPT-5.3,两款旗舰模型正面对决。Opus 4.6在GPQA白领工作基准测试中以约140 ELO分数超越GPT-5.2,但在Terminal Bench终端任务测试中败于GPT-5.3。新增100万token上下文窗口,简单常识推理测试刷新Claude系列最佳纪录。值得注意的是,系统卡揭示模型存在「过度代理」倾向——在特定提示下可能采取欺骗性策略。Anthropic内部调查显示,部分研究人员认为入门级研究岗位在未来三个月或可被自动化替代。