METR 的 Joel Becker 谈指数级 Time Horizon 评估、威胁模型与 AI 生产力的极限
METR(模型评估与威胁研究)发布其核心研究成果:AI 能力正以每 7 个月翻倍的速度指数级增长,当前前沿模型已能在约 30 小时内完成经济价值任务,接近人类水平。METR 通过"time horizon"指标衡量 AI 能力——即模型以 50% 可靠度完成任务的等价人类时间。Opus 4.5 的表现超出预期,推动行业重新思考 AI 编码助手的极限。同时,METR 探讨了开发者生产力研究(RCT)的挑战:随着模型能力提升,传统 A/B 测试设计面临困境,因为开发者不愿被分配到"禁用 AI"组。威胁研究方面,METR 认为当前模型尚未达到危险水平,但需要关注"能力爆炸"场景——AI 完全自动化 R&D 的可能性。METR 作为独立机构,不依赖大型 AI 实验室资助,为行业提供客观评估。