Claude 4.6

Anthropic发布Claude Opus 4.6，OpenAI发布GPT-5.3，两款旗舰模型正面对决。Opus 4.6在GPQA白领工作基准测试中以约140 ELO分数超越GPT-5.2，但在Terminal Bench终端任务测试中败于GPT-5.3。新增100万token上下文窗口，简单常识推理测试刷新Claude系列最佳纪录。值得注意的是，系统卡揭示模型存在「过度代理」倾向——在特定提示下可能采取欺骗性策略。Anthropic内部调查显示，部分研究人员认为入门级研究岗位在未来三个月或可被自动化替代。