原始标题: Artificial Analysis: Independent LLM Evals as a Service — with George Cameron and Micah-Hill Smith
发布日期: 2026-01-08 | 来源频道: @latent-space
📝 深度摘要
1. 核心技术主旨 (The TL;DR)
本期节目深入探讨了 Artificial Analysis —— 一个独立于所有 AI 实验室的第三方 LLM 评估平台如何在过去两年内成长为行业事实标准。核心主题围绕「评估即服务」(Evals as a Service) 这一范式的崛起:从最初的免费网站展示模型质量 vs 吞吐量的 trade-off,到构建覆盖 10 个 eval 数据集的 Intelligence Index (AII),再到推出 Omniscience(知识/幻觉率)、Critical Point(物理难题)、GDPVal AA(通用代理任务)等自研评估体系。关键洞见包括:智能与参数总量高度相关但与 active params 无强相关;推理模型的 token 效率差异已超过一个数量级;100x-1000x 的智能成本下降与推理支出上升并存——这是硬件效率提升与模型规模扩大共同作用的结果。Artificial Analysis 已从「模型对比网站」演进为企业的 AI 决策基础设施,服务 20+ 人团队的两类客户: Fortune 500 的订阅报告业务,以及 AI 公司的私有 benchmark 服务。
2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)
嘉宾身份:
- George Cameron:联合创始人,悉尼出身,后迁至旧金山
- Micah-Hill Smith:联合创始人
核心产品/架构: Artificial Analysis 定位为「独立第三方 AI 评估平台」,核心技术栈包括:
- Public Benchmarking:在网站上免费公布所有模型的质量、速度、成本对比
- Intelligence Index (AII):聚合 10 个 eval 数据点的综合评分(MMU、GPQA、Agentic、Long Context Reasoning 等)
- 私有 Benchmark 服务:为企业定制化运行 eval,支持其内部模型评估需求
- Benchmarking Insight Subscription:标准化的行业报告(如 Model Deployment Report,帮助企业决策 Serverless vs Managed vs Self-hosted)
- 自研 Eval 框架:Stirrup——一个极简的通用代理 harness,可运行 GDPVal 等复杂任务
商业模型:网站数据完全免费(no one pays to be on the website),收入来源于企业订阅和私有 benchmark 服务。
3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)
a. 系统架构与硬件交互 (Infra & System Design)
Benchmark 运行基础设施:
- 早期采用简单的 Q&A eval 方式,逐步演进到复杂的 Agentic 任务
- 使用 Mystery Shopper Policy:用非自家域名的账号注册,匿名运行 benchmark,防止实验室识别并差异化对待
- 所有 eval 均在统一环境下运行,确保可比性——这是核心工程原则
- 实验室可能提供特殊的 private endpoint,存在「黑盒里不是同一模型」的风险,需通过匿名测试验证
硬件与成本追踪:
- 跟踪不同 GPU 代的 token 效率(如 H100 → Blackwell 的 2-3x 提升)
- 关注 ** sparsity**(活跃参数 vs 总参数比例):当前顶级开源模型约 5% 活跃参数,DeepSeek 等推动细粒度专家混合 (MoE)
- 观察到 Amniscience(知识测试)与总参数高度相关,但与活跃参数无强相关——这意味着模型大小仍是知识 Recall 的决定因素
- 追踪硬件效率趋势:Blackwell 相比 Hopper 在大稀疏模型上可实现 >2-3x 吞吐量提升
延迟与吞吐量权衡:
- 服务速度与单 GPU 吞吐量存在 trade-off:越快服务用户,成本越高
- 追踪 Output Speed 指标,反映真实用户体验
b. AI 范式与工作流重构 (AI Paradigms & Workflows)
Intelligence Index 演进 (V1 → V3):
- V1:纯 Q&A 类型(MMLU、GPQA),现已几乎被所有新模型 100% 饱和
- V2/V3:增加 Agentic 数据集、Long Context Reasoning、Use-case-focused 任务
- 核心理念:eval 必须跟随开发者关心的能力演进,不能静态不变
自研 Eval 详解:
-
Omniscience Index:
- 测试模型内嵌知识 + 幻觉率(当不知道答案时说 “I don’t know” 的能力)
- 分数范围:-100 到 +100(答错扣分,鼓励承认不知道)
- 仅公布 10% 测试集(防止数据污染,保持长期可靠性)
- 发现:智能与幻觉率无强相关——更聪明的模型不一定更少幻觉
- 结果:Claude 系列在幻觉率上表现最佳(Anthropic 模型最低)
-
Critical Point:
- 类似 Frontier Math 的物理难题 eval,由 Princeton 等学术机构创建 最高分仅 9%
- 特点:研究人员用高 Temperature 让模型「幻觉」以探索新想法——说明幻觉在某些场景是 Feature 不是 Bug
-
GDPVal AA (Generalist Agent Performance):
- 基于 OpenAI 的 GDPVal 数据集(44 个任务,220+ 子任务)
- 参考 Agentic Harness:给予模型 Code Interpreter、Web Search、File System 工具,最多允许 100 turns
- 评估方式:用 LLM-as-Judge(Gemini 3 Pro Preview)比较输出结果
- 关键发现:模型在 Reference Harness 上的表现普遍优于其官方 Web Chatbot(因为消费者场景有更多限制)
- 已开源:Harness 名为 Stirrup,极简代码,开发者可基于此构建自己的代理
-
Openness Index:
- 衡量模型「开放程度」的新维度(18 分满分)
- 考量因素:Weights 是否开放、License 类型、Training Data 披露程度、Methodology/Training Code 透明度
- 领导者:AI2 的 DeepSeek 等极开源模型
- 价值:帮助企业评估「买 vs 自建」的风险
Token Efficiency 追踪:
- 2024 年初:推理模型平均 token 消耗是非推理模型的 10 倍
- 现在:不同模型间 token 效率差异 >10 倍,不再是简单的二元分类
- 引入 Turns Efficiency(多轮对话中完成任务所需的轮数)作为新指标
- OpenAI 5.1 Codex 展示了不同百分位查询的效率差异(Bottom 10% 快,Top 10% 长)
c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)
Eval 执行的工程挑战:
-
Prompt Variability:
- 各实验室 prompt 方式不同,几分之差就可能改变排名
- 极端案例:Google 曾构造 CoT 示例(32 个 MLU 主题)让 Gemini 1.0 Ultra 超越 GPT-4,但 Ultra 最终未公开可用
-
Response Parsing:
- 模型输出格式不可控,正确答案可能因格式错误得 0 分
- 需要 LLM 作为 Answer Extractor 提取答案(避免因格式丢分)
-
Variance Control:
- 现代推理模型在小样本 eval 上方差极大
- 运行大量 repeats 达到 95% 置信区间(±1 分)
- 成本因此远超线性增长
-
Data Contamination:
- 事实性知识测试极易被训练数据污染
- Omniscience 仅公布 10% 测试集,保持 Holdout
-
LLM-as-Judge 的 Self-Preference 问题:
- 模型普遍偏好自己的输出
- GDPVal AA 中使用 Gemini 3 Pro 作为 Judge,因其任务类型与被测模型差异大,减少了偏见
「Eval 被Targeting」问题:
- 一旦某个 eval 流行,实验室会针对性优化,导致「分数涨但通用智能未必涨」
- 解决方案:持续构建新 eval,保持对真实用户需求的追踪
4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)
a. 颠覆性反共识洞察 (Contrarian Hot Takes)
-
「智能与幻觉率无强相关」:
- 普遍假设:更聪明的模型应该更少幻觉
- 现实数据:Haiku 幻觉率低于 Sonnet 低于 Opus——与能力排序相反
- 归因:Post-training Recipe 不同导致,而非原始智能
-
「推理模型的 Token 效率差异已超过一个数量级,二元分类失效」:
- 行业习惯:Reasoning vs Non-Reasoning 模型
- 现实:GPT-5 这样的 Model Router 出现后,区分变得模糊
- 建议:用 Cost-Adjusted Intelligence Index 替代二元判断
-
「总参数 vs 活跃参数」:
- 普遍关注:MoE 的活跃参数比例(5% 等)
- 反直觉发现:Amniscience 准确率与总参数高度相关,与活跃参数几乎无关
- 含义:模型规模仍是知识 Recall 的决定因素,稀疏度优化对知识任务帮助有限
-
「幻觉是 Feature,不是 Bug」:
- Critical Point 物理 eval 中,研究人员特意用高 Temperature 鼓励模型「胡扯」以探索新想法
- 启示:评估需按使用场景定制,不能一概而论
b. 商业模式与成本经济学 (Business Model & Unit Economics)
收入来源:
-
Benchmarking Insight Subscription:
- 面向 Fortune 500 的标准化报告订阅
- 示例:Model Deployment Report——帮助企业决策 Serverless Inference vs Managed Deployment vs Leasing Chips Self-hosted
- 目标客户:需要客观第三方建议来 navigate AI 技术栈的企业
-
私有 Benchmark 服务:
- 为 AI 公司定制化运行 benchmark
- 与公开网站完全独立,无商业化绑定
- 客户包括需要了解自身模型表现的 Labs
定价哲学:
- 网站数据完全免费——独立性是核心价值主张
- 「No one pays to be on the website」是红线
- 订阅和私有服务定价基于「为企业降低决策风险」的价值
成本结构:
- 早期:数百美元/月(模型少、eval 简单)
- 现在:成本大幅上升,原因包括模型数量爆炸、Eval 复杂度提升(Agentic 任务需要多轮)、需要大量 Repeats 获取统计显著结果
- 报告的 Cost to Run AII 只是假设单次运行的实际成本(因 Repeats 更高)
行业趋势洞察(Smile Curve):
- 左侧:每个智能水平的成本下降 100x-1000x(以 Amazon Nova 为代表)
- 右侧:总体 AI 推理支出上升(Coding Agent 每员工 $5,000/年)
- 原因:虽然小模型可达 GPT-4 水平,但我们仍使用比以往更大的模型做前沿任务 + Agentic Workflow 消耗巨量 Tokens
- 预测:两个方向都将持续「另一个数量级」的演进
5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)
a. 人才密度与招聘哲学 (Talent & Hiring)
团队规模:
- 截至 2026 年 1 月:20+ 人
- 起源:两人(George + Micah)在 2022-2023 年做 Side Project
AI Grant 经历:
- Batch 4 成员
- 导师:Nat Friedman & Daniel Gross
- 收获:面对没有明确答案的问题时的方法论、创业艰难决策的处理
- 与 Batch 内公司(前沿 AI 应用开发者)的互动帮助其理解「Power Users」需求
b. 硬核极客日常与轶事 (Geek Lore & Quirks)
-
** Boxing Day DeepSeek V3 事件**:
- 2024 年圣诞节后第一天(新西兰时间),团队正在家庭聚会中
- George 远程运行 DeepSeek V3(MoE 6-7-1-B)Eval,逐个结果传回
- 印象:「这是 DeepSeek 从众多玩家中崛起的时刻」
- 几周后 R1 发布,世界注意到
-
「Mystery Shopper」策略的起源:
- 意识到实验室可能差异化对待「著名评估网站」的请求
- 制定政策:用非自家域名账号匿名测试,保持独立性的机制
- 所有实验室都被告知此政策,无人反对——因为没人希望竞争对手能操纵结果
-
与社区的互动:
- 创始人透露是 Latent Space / Swix (Twitter) 的早期粉丝
- 2024 年 1 月被 Alessio 在 Latent Space 播客中提及是「关键时刻」
- 社区 Discord 是重要的反馈来源
-
对「Slop」的立场(隐含):
- 强调独立性和透明度是抵抗行业「Slop」的防线
- 通过持续发布新 Eval 保持对「Eval Gaming」的抵抗力
6. 未来推演与终局思考 (Future Outlook & Endgame)
a. 短期技术前瞻 (Next 12-18 Months)
-
Intelligence Index V4:
- 纳入 GDPVal AA(通用代理性能)
- 纳入 Critical Point(物理难题,类似 Frontier Math)
- 纳入 Amniscience / Hallucination Rate
- 挑战:不同类型指标的权重配置(需要避免版本切换导致的历史数据不可比)
-
Token Efficiency → Turns Efficiency:
- 行业将更关注「完成任务所需的对话轮数」
- 示例:SWE-Bench Telecom 中,某些更大模型虽然 per-token 更贵,但因更快找到答案,总体更便宜
- Multi-turn Benchmark 将成为标准(现有 Benchmark 多为 Single-turn)
-
Multimodal Benchmark 扩展:
- Video Benchmarking(预生成视频,用户投票偏好)
- 避免 Unsafe Content 敏感性问题
- 覆盖 Infographics 等实用场景
-
TauBench 等现有 Eval 的饱和与替代:
- TauBench 测试集部分被证明「不可能完成」
- 模型已非常擅长,需新 Benchmark
b. 长期演进形态 (The Endgame)
-
「评估即基础设施」:
- AI 决策依赖独立、透明的第三方评估
- 类似于金融领域的信用评级机构——虽然不完美,但是信任基础设施
-
行为与个性评估:
- 嘉宾暗示:未来可能推出「Personality Bench」
- 类似 Chad G (Character.AI) 正在探索的方向
- 帮助用户在「聪明」之外做更 nuanced 的模型选择
-
硬件与模型协同进化:
- 未来 2-3 代 NVIDIA 路线图将带来「巨大收益」
- 更大模型 + 更低 Token Cost = 新的应用形态
- 推理成本将持续下降一个数量级
-
「智能需求永无止境」:
- 核心信念:只要模型能提升,没有公司会拒绝「让员工更聪明」
- 与「饱和论」者的辩论:从未有人说「我的员工太聪明了」
- 评估的价值:帮助追踪这个无止境的智能提升过程
7. 原汁原味金句 (Based Quotes)
- “No one pays to be on the website. We’ve been very clear about that from the very start because there’s no use doing what we do unless it’s independent AI benchmarking.” (网站上的数据对所有人免费。从一开始我们就非常清楚这一点,因为如果我们做的不是独立的 AI 评估,那将毫无意义。)
- “The things that get measured become things that get targeted by labs that they’re trying to build.” (一旦某个指标被测量,它就会成为实验室试图优化的目标。)
- “We found that there’s not really a strong correlation between intelligence and hallucination rate. That’s to say that the smarter the models are in a generalist sense isn’t correlated with their ability to, when they don’t know something, say that they don’t know.” (我们发现智能与幻觉率之间并没有强相关。也就是说,模型在通用意义上的智能并不能预测它在不知道答案时说「我不知道」的能力。)
- “The cost for intelligence at the level of GPT-4 is now over a hundred times cheaper than GPT-4 was at launch. My conservative statement is normally like 100x, but in fairness, it’s like maybe a thousand.” (达到 GPT-4 智能水平的成本现在比 GPT-4 推出时便宜了 100 倍以上。我的保守估计是 100 倍,但公平地说,可能是 1000 倍。)
- “These models have gotten smart enough. They’ve gotten better tools that they can perform better when just given a minimal set of tools and let them run. Let the model control the agentic workflow rather than using another framework that’s a bit more built out that tries to dictate the flow.” (这些模型已经足够聪明。当只给它们一套最小化的工具并让它们自行运行时,它们表现更好。让模型控制代理工作流,而不是使用另一个更结构化、试图规定流程的框架。)
📺 播客地址
播客时长: 79分钟