基准污染 | AI 产品洞察与技术趋势 Feeds

OpenAI 宣布 SWE-bench Verified 基准测试已饱和并存在严重污染问题：59%的任务根本无法解决，模型甚至在 chain-of-thought 中使用未来版本 API 知识"作弊"。所有前沿模型在该基准上已达 80%+，差异仅 0.1-0.2%，这种微小差异可能只是噪声。OpenAI 呼吁行业转向 SWE-bench Pro 等更难、污染更少的新基准。Preparedness Framework 追踪生物风险、网络安全、研究自动化三大类别。