原始标题: [State of Evals] LMArena’s $1.7B Vision — Anastasios Angelopoulos, LMArena

发布日期: 2026-01-06 | 来源频道: @latent-space

📝 深度摘要

1. 核心技术主旨 (The TL;DR)

LMArena(前身为 LMSYS Chatbot Arena)从伯克利实验室项目成长为 AI 领域最具影响力的开源评估平台,核心是构建一个基于真实用户有机反馈的动态基准测试体系。与传统基于固定 Benchmark 的评测不同,LMArena 通过 ELO 评分机制让全球数百万用户对模型进行 A/B 对比投票,从而实时追踪模型能力的真实演进。Anastasios 强调平台的终极目标是成为行业的"北极星"(North Star),提供不受 Benchmark 过拟合影响的 fresh 数据,持续反映真实用户的使用场景。本期节目深度探讨了平台从学术项目到商业化公司的转型路径、1.7 亿美元融资的用途分配、以及面对"Leaderboard Illusion"论文指控的回应策略。


2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)

  • 嘉宾身份: Anastasios Angelopoulos,LMArena 联合创始人兼 CEO
  • 核心产品/架构: LMArena 是全球最大的 LLM 众包评估平台,采用 React + Next.js 全栈架构构建,支持多模态模型(图像、视频)评测。平台每月处理数千万次对话交互,通过 ELO 评分系统将用户投票转化为模型能力量化指标。技术栈从早期的 Gradio 迁移至 React 以支持更复杂的前端交互需求。

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)

a. 系统架构与硬件交互 (Infra & System Design)

  • 平台成本结构: LMArena 为平台上的所有推理成本买单,模型提供商按企业标准折扣价提供服务 [未提及具体折扣比例]。平台每月消耗的 Token 量级达到"mid tens of millions"级别,250M+ 总对话量。
  • 前端技术栈迁移: 最初基于 Gradio 构建,成功支撑到百万用户规模。迁移至 React/Next.js 的核心动机是开发灵活性和人才储备——团队需要自定义组件(如带通知的 loading icons、动态视频加载),Gradio 虽可实现但生态和招聘成本较高。迁移是 Fund 的首要用途之一。
  • 用户数据采集: 约 50% 用户已登录平台,结合问卷调查和 Prompt 分发分析,构建用户画像。25% 的平台用户从事软件工程相关职业。Expert Arena 项目用于分析专业领域用户的分布特征。

b. AI 范式与工作流重构 (AI Paradigms & Workflows)

  • 动态 Benchmark 设计: 区别于传统固定题库,LMArena 的核心创新在于"持续新鲜"(constantly fresh)的数据源——用户不断输入真实用例,形成永不过时的评估集,有效对抗 Benchmark Overfitting。
  • 多模态扩展路线图: 除了现有的图像生成 Arena,正规划视频 Arena,预计今年晚些或明年年初上线。
  • Agent 评估方向: Code Arena 已支持编程能力评测,未来计划从单纯模型评测转向完整 Agent Harness 评估(如集成 Devon 等 AI 程序员工具),这一方向被视为与单纯模型评测的差异化价值。

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)

  • Leaderboard Illusion 争议: 论文指控 LMArena 存在"未披露的预发布测试"(undisclosed private testing),导致排行榜不公。Anastasios 回应称论文存在多处事实错误,例如声称开源模型仅占 9%、闭源占 60%,实际比例约为 60/40 开源友好型。预发布测试(Pre-release Testing)是社区长期喜爱 的功能,用户热衷于接触"secret code names"如 Nano Banana。
  • 数据透明度: 所有公开发布的模型评分均基于数百万全球用户投票,评分计算逻辑保持透明。预览模型(Preview Models)不强制上榜,因为它们从未正式发布。
  • 无付费上榜机制: 公开 Leaderboard 是 Charity/Loss Leader,模型提供商无法通过付费提升排名或移除分数。

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)

a. 颠覆性反共识洞察 (Contrarian Hot Takes)

  • Nano Banana 改变 Google 路线图: Image Generation 曾被视为非 AGI 关键领域,但 Nano Banana(Google 的图像生成模型)的惊艳表现不仅在 LMArena 上引发全球关注,甚至据说"改变了 Google 的产品路线图、触发 Code Red",数 billion 美元市值波动与此相关。Anastasios 修正了自己最初对图像生成的轻视,认为多模态模型将成为 AI 消费级和企业级最具经济价值的细分市场之一,尤其是营销和设计领域。
  • Consumer App 是最hard的市场: 承认构建伟大消费级产品的难度,认为即使做到"tens of millions"用户距离"hundreds of millions"或"billion"仍有本质差距,需要产品运气(lightning in a bottle)——Nano Banana 时刻就是那种运气。

b. 商业模式与成本经济学 (Business Model & Unit Economics)

  • 融资目的: ~$100M 资金的首要用途是支撑平台免费推理成本(当前最大支出),其次是旧金山办公室和招聘。融资的核心逻辑是"给团队足够多的 cards to flip",确保第一次押注失败后还有资源进行后续尝试,而非一定要花光所有钱。
  • 公开 Leaderboard 的商业定位: 视为 Charity 和 Loss Leader,不直接产生收入,但为平台带来流量和数据。
  • API 开放可能性: 内部讨论过开放 API,但作为初创公司需要聚焦"做少做精"(do one thing well),暂未确定时间表。

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)

a. 人才密度与招聘哲学 (Talent & Hiring)

  • 招聘标准: 正在构建"high performance team of real experts",无论方向是 Consumer Product、Machine Learning 还是 B2B GTM,欢迎顶尖人才加入。Anastasios 本人被视为"the guy to correct for response bias"的统计学专家。
  • 团队背景: 孵化自伯克利 LMSYS 项目,创始人及核心团队具有深厚的学术背景。

b. 硬核极客日常与轶事 (Geek Lore & Quirks)

  • ONJ 的"All-in"孵化: 知名 VC [未确认具体身份] 在公司尚未正式成立时就提供资金和资源,允许创始人随时离开而他承担全部风险,这种"aggressive investment move"最终促成了公司化转型。
  • Nano Banana 命名趣闻: “Nano Banana"原本是随机生成的内部代号,实际命名来自团队 PM Nano 的昵称"nano”+“banana"的组合,并非官方正式命名。该模型在 Arena 上的出色表现使其成为"global sensation”。
  • 社区运营: 社区经理 Greg 被多次点名感谢,负责 Discord 和 Arena 社区的运营维护。

6. 未来推演与终局思考 (Future Outlook & Endgame)

a 短期技术前瞻 (Next 12-18 Months)

  • 视频 Arena 上线: 多模态扩展的下一步是视频评测,预计今年晚些或明年年初推出。
  • 职业/专家类别扩展: 已推出医学、法律、金融、创意营销等垂直领域的 Expert Arena,单个位数百分比的用户基数(以数百万到数千万为基数)意味着庞大的绝对用户量。
  • Agent 评测基础设施: Code Arena 将演化为支持完整 Agent Harness 的评估平台,不仅评测模型本身,而是评测整个 Agent 能力。

b. 长期演进形态 (The Endgame)

  • 北极星定位: 持续成为 AI 行业的基准真相来源(Ground Truth),让全球开发者和研究者能够基于真实用户反馈而非过拟合的 Benchmark 来判断模型能力。
  • 数据开放: 计划继续大规模开源真实用户对话数据集(已发布数百万级对话数据),推动整个 AI 评估领域的透明度和进步。

7. 原汁原味金句 (Based Quotes)

  1. “The purpose of money at a company is to give you cards to flip.” 公司的意义在于给你足够多的筹码,让你能在第一次押注失败后还能继续下注。

  2. “Every user is earned. You have to earn them every single day.” 每个用户都是赚来的。你必须每一天都证明自己值得被留下。

  3. “We want to provide the north star of the industry and center the use cases of real users.” 我们想成为行业的北极星,以真实用户的使用场景为核心。

  4. “It’s not a Gartner. It’s not any of these pay-to-play systems. Never going to be like that.” 我们不是 Gartner,也不是任何付费上榜的系统。永远不会变成那样。

  5. “The platform has a certain integrity that will never be compromised.” 平台的诚信是底线,永不妥协。


📺 播客地址


播客时长: 25分钟