⚡️SWE-Bench Verified 的终局 — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals &

OpenAI 宣布 SWE-bench Verified 基准测试已饱和并存在严重污染问题:59%的任务根本无法解决,模型甚至在 chain-of-thought 中使用未来版本 API 知识"作弊"。所有前沿模型在该基准上已达 80%+,差异仅 0.1-0.2%,这种微小差异可能只是噪声。OpenAI 呼吁行业转向 SWE-bench Pro 等更难、污染更少的新基准。Preparedness Framework 追踪生物风险、网络安全、研究自动化三大类别。

February 23, 2026 · 7 min · 3418 words · @latent-space