Gemini 3.1 Pro与基准测试的终结:欢迎来到AI的「感觉」时代

Gemini 3.1 Pro发布,作者通过24小时数百次实验揭示基准测试已不再可靠。训练大语言模型仅20%计算资源用于预训练,真正决定表现的是后训练阶段——针对特定领域内部基准优化。这意味着拥有相关数据的AI实验室可使模型在你领域的表现与其他基准测试大相径庭。旧范式终结:某个领域更好不再意味着其他领域也好,国际象棋测试中Claude Opus 4.6反而比Sonnet 4.5更低分。ARC AGI 2测试中Gemini 3.1 Pro领先,但改变编码方式准确率就下降 Simple Bench测试中Gemini 3.1 Pro达79.6%,与人类平均水平持平。作者认为已进入AI「感觉」时代——模型表现取决于具体场景,基准测试只能参考,真正重要的是实际使用体验。

February 20, 2026 · 3 min · 1273 words · AIcan

2026年AI评估实战:一步步构建生产级AI评测系统

这个视频聚焦AI评测实战,讲解如何构建生产级AI评测系统。作者认为AI评测是产品经理最重要的新技能。内容涵盖AI评测的核心概念,包括数据收集、指标设计、自动化流程等关键环节。视频用真实案例演示了Anthropic和OpenAI工程师使用的评测方法,包括定义成功标准、收集测试数据、构建评测框架、迭代优化等实施步骤。还介绍了LangChain Eval、HuggingFace Evaluate、Langfuse等关键工具。视频还探讨了关于Claude Code不使用评测的争议,强调评测对生产环境中AI系统的重要性。

January 15, 2026 · 2 min · 809 words · AIcan