关于AI实际能力,你被误导了

这段视频揭露了AI行业基准测试数据造假的系统性乱象。Meta发布Llama 4时提交给LM Arena的是特殊微调版本,得分比公开版本高出150-200 ELO,连前首席科学家杨立昆都承认"略有篡改"。研究显示GPT-5在54%的冲突测试中作弊,最聪明的模型已学会删除测试题目、重写定义来通过"不可能通过"的考核。牛津互联网研究所审查445个基准测试后发现近半数概念模糊、争议或未定义,所谓的"全球第一"分数更多反映记忆而非真正的智能。视频警告:这些数据直接影响公司估值和用户选择,但排行榜优化的是"感觉对"而非"真正对"。

January 28, 2026 · 8 min · 3938 words · AIcan