原始标题: [State of Evals] LMArena’s $1.7B Vision — Anastasios Angelopoulos, LMArena
发布日期: 2026-01-06 | 来源频道: @latent-space
📝 深度摘要
1. 核心技术主旨 (The TL;DR)
LMArena(前身为 LMSYS Chatbot Arena)从伯克利实验室项目成长为 AI 领域最具影响力的开源评估平台,核心是构建一个基于真实用户有机反馈的动态基准测试体系。与传统基于固定 Benchmark 的评测不同,LMArena 通过 ELO 评分机制让全球数百万用户对模型进行 A/B 对比投票,从而实时追踪模型能力的真实演进。Anastasios 强调平台的终极目标是成为行业的"北极星"(North Star),提供不受 Benchmark 过拟合影响的 fresh 数据,持续反映真实用户的使用场景。本期节目深度探讨了平台从学术项目到商业化公司的转型路径、1.7 亿美元融资的用途分配、以及面对"Leaderboard Illusion"论文指控的回应策略。
2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)
- 嘉宾身份: Anastasios Angelopoulos,LMArena 联合创始人兼 CEO
- 核心产品/架构: LMArena 是全球最大的 LLM 众包评估平台,采用 React + Next.js 全栈架构构建,支持多模态模型(图像、视频)评测。平台每月处理数千万次对话交互,通过 ELO 评分系统将用户投票转化为模型能力量化指标。技术栈从早期的 Gradio 迁移至 React 以支持更复杂的前端交互需求。
3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)
a. 系统架构与硬件交互 (Infra & System Design)
- 平台成本结构: LMArena 为平台上的所有推理成本买单,模型提供商按企业标准折扣价提供服务 [未提及具体折扣比例]。平台每月消耗的 Token 量级达到"mid tens of millions"级别,250M+ 总对话量。
- 前端技术栈迁移: 最初基于 Gradio 构建,成功支撑到百万用户规模。迁移至 React/Next.js 的核心动机是开发灵活性和人才储备——团队需要自定义组件(如带通知的 loading icons、动态视频加载),Gradio 虽可实现但生态和招聘成本较高。迁移是 Fund 的首要用途之一。
- 用户数据采集: 约 50% 用户已登录平台,结合问卷调查和 Prompt 分发分析,构建用户画像。25% 的平台用户从事软件工程相关职业。Expert Arena 项目用于分析专业领域用户的分布特征。
b. AI 范式与工作流重构 (AI Paradigms & Workflows)
- 动态 Benchmark 设计: 区别于传统固定题库,LMArena 的核心创新在于"持续新鲜"(constantly fresh)的数据源——用户不断输入真实用例,形成永不过时的评估集,有效对抗 Benchmark Overfitting。
- 多模态扩展路线图: 除了现有的图像生成 Arena,正规划视频 Arena,预计今年晚些或明年年初上线。
- Agent 评估方向: Code Arena 已支持编程能力评测,未来计划从单纯模型评测转向完整 Agent Harness 评估(如集成 Devon 等 AI 程序员工具),这一方向被视为与单纯模型评测的差异化价值。
c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)
- Leaderboard Illusion 争议: 论文指控 LMArena 存在"未披露的预发布测试"(undisclosed private testing),导致排行榜不公。Anastasios 回应称论文存在多处事实错误,例如声称开源模型仅占 9%、闭源占 60%,实际比例约为 60/40 开源友好型。预发布测试(Pre-release Testing)是社区长期喜爱 的功能,用户热衷于接触"secret code names"如 Nano Banana。
- 数据透明度: 所有公开发布的模型评分均基于数百万全球用户投票,评分计算逻辑保持透明。预览模型(Preview Models)不强制上榜,因为它们从未正式发布。
- 无付费上榜机制: 公开 Leaderboard 是 Charity/Loss Leader,模型提供商无法通过付费提升排名或移除分数。
4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)
a. 颠覆性反共识洞察 (Contrarian Hot Takes)
- Nano Banana 改变 Google 路线图: Image Generation 曾被视为非 AGI 关键领域,但 Nano Banana(Google 的图像生成模型)的惊艳表现不仅在 LMArena 上引发全球关注,甚至据说"改变了 Google 的产品路线图、触发 Code Red",数 billion 美元市值波动与此相关。Anastasios 修正了自己最初对图像生成的轻视,认为多模态模型将成为 AI 消费级和企业级最具经济价值的细分市场之一,尤其是营销和设计领域。
- Consumer App 是最hard的市场: 承认构建伟大消费级产品的难度,认为即使做到"tens of millions"用户距离"hundreds of millions"或"billion"仍有本质差距,需要产品运气(lightning in a bottle)——Nano Banana 时刻就是那种运气。
b. 商业模式与成本经济学 (Business Model & Unit Economics)
- 融资目的: ~$100M 资金的首要用途是支撑平台免费推理成本(当前最大支出),其次是旧金山办公室和招聘。融资的核心逻辑是"给团队足够多的 cards to flip",确保第一次押注失败后还有资源进行后续尝试,而非一定要花光所有钱。
- 公开 Leaderboard 的商业定位: 视为 Charity 和 Loss Leader,不直接产生收入,但为平台带来流量和数据。
- API 开放可能性: 内部讨论过开放 API,但作为初创公司需要聚焦"做少做精"(do one thing well),暂未确定时间表。
5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)
a. 人才密度与招聘哲学 (Talent & Hiring)
- 招聘标准: 正在构建"high performance team of real experts",无论方向是 Consumer Product、Machine Learning 还是 B2B GTM,欢迎顶尖人才加入。Anastasios 本人被视为"the guy to correct for response bias"的统计学专家。
- 团队背景: 孵化自伯克利 LMSYS 项目,创始人及核心团队具有深厚的学术背景。
b. 硬核极客日常与轶事 (Geek Lore & Quirks)
- ONJ 的"All-in"孵化: 知名 VC [未确认具体身份] 在公司尚未正式成立时就提供资金和资源,允许创始人随时离开而他承担全部风险,这种"aggressive investment move"最终促成了公司化转型。
- Nano Banana 命名趣闻: “Nano Banana"原本是随机生成的内部代号,实际命名来自团队 PM Nano 的昵称"nano”+“banana"的组合,并非官方正式命名。该模型在 Arena 上的出色表现使其成为"global sensation”。
- 社区运营: 社区经理 Greg 被多次点名感谢,负责 Discord 和 Arena 社区的运营维护。
6. 未来推演与终局思考 (Future Outlook & Endgame)
a 短期技术前瞻 (Next 12-18 Months)
- 视频 Arena 上线: 多模态扩展的下一步是视频评测,预计今年晚些或明年年初推出。
- 职业/专家类别扩展: 已推出医学、法律、金融、创意营销等垂直领域的 Expert Arena,单个位数百分比的用户基数(以数百万到数千万为基数)意味着庞大的绝对用户量。
- Agent 评测基础设施: Code Arena 将演化为支持完整 Agent Harness 的评估平台,不仅评测模型本身,而是评测整个 Agent 能力。
b. 长期演进形态 (The Endgame)
- 北极星定位: 持续成为 AI 行业的基准真相来源(Ground Truth),让全球开发者和研究者能够基于真实用户反馈而非过拟合的 Benchmark 来判断模型能力。
- 数据开放: 计划继续大规模开源真实用户对话数据集(已发布数百万级对话数据),推动整个 AI 评估领域的透明度和进步。
7. 原汁原味金句 (Based Quotes)
-
“The purpose of money at a company is to give you cards to flip.” 公司的意义在于给你足够多的筹码,让你能在第一次押注失败后还能继续下注。
-
“Every user is earned. You have to earn them every single day.” 每个用户都是赚来的。你必须每一天都证明自己值得被留下。
-
“We want to provide the north star of the industry and center the use cases of real users.” 我们想成为行业的北极星,以真实用户的使用场景为核心。
-
“It’s not a Gartner. It’s not any of these pay-to-play systems. Never going to be like that.” 我们不是 Gartner,也不是任何付费上榜的系统。永远不会变成那样。
-
“The platform has a certain integrity that will never be compromised.” 平台的诚信是底线,永不妥协。
📺 播客地址
播客时长: 25分钟