Time Horizon

METR（模型评估与威胁研究）发布其核心研究成果：AI 能力正以每 7 个月翻倍的速度指数级增长，当前前沿模型已能在约 30 小时内完成经济价值任务，接近人类水平。METR 通过"time horizon"指标衡量 AI 能力——即模型以 50% 可靠度完成任务的等价人类时间。Opus 4.5 的表现超出预期，推动行业重新思考 AI 编码助手的极限。同时，METR 探讨了开发者生产力研究（RCT）的挑战：随着模型能力提升，传统 A/B 测试设计面临困境，因为开发者不愿被分配到"禁用 AI"组。威胁研究方面，METR 认为当前模型尚未达到危险水平，但需要关注"能力爆炸"场景——AI 完全自动化 R&D 的可能性。METR 作为独立机构，不依赖大型 AI 实验室资助，为行业提供客观评估。