从零到110亿美元ElevenLabs的崛起之路

原始标题: From $0 to $11B: The ElevenLabs Story

发布日期: 2026-02-06 | 来源频道: @a16z

📝 深度摘要

对话背景与核心主题

本期对话由a16z主办，邀请了ElevenLabs联合创始人Matty和Peter作为嘉宾。ElevenLabs是一家专注于AI语音合成技术的公司，从2021年创立至今仅用数年时间便达到110亿美元估值，成为AI语音领域的标杆企业。对话围绕语音技术的未来、公司文化与团队建设、以及AI与人机交互的演进方向展开。

核心逻辑拆解

创业缘起：解决真实痛点

ElevenLabs的诞生源于两位创始人在波兰的成长经历。他们发现，波兰观众观看外国电影时，所有角色都由同一个配音演员完成，所有的情感和语调消失殆尽。这个看似微小的用户体验问题，催生了他们打造真正自然语音的梦想。

2021年，Matty在谷歌工作，Peter在Palantir任职，两人开始在周末一起探索不同项目。他们很快招募了第一批用户，开始迭代产品。2022年初正式发布时，已有数千人排队等待，随后用户数迅速增长至数十万，远超预期。

方法论与工具箱

独特的产品哲学

ElevenLabs的成功在于将研究与产品紧密结合。两位创始人认为，许多公司要么有研究能力，要么有产品能力，但ElevenLabs同时具备两者。产品团队直接与用户沟通，获取反馈并传递给研究团队，研究团队则能立即在产品上测试模型。这种双向加速机制成为公司的核心竞争力。

远程优先的高效团队

公司从最初两人发展到如今11个城市、超过300名员工，每六个月翻一番。尽管采用远程办公模式，ElevenLabs通过极小的团队单元和高自主权来保持效率。创始团队坚持招聘全球最优秀的人才，认为语音领域顶尖研究人员可能仅有50到100人，因此采取全球化招聘策略。

无title文化

ElevenLabs激进地取消了所有职级title。这一设计有多重考量：首先，它过滤掉自我意识过强的人——如果有人执着于VP头衔，他不会得到相应职位；其次，它消除了隐性偏见，让任何人都可以向任何人请教或提出建议；第三，它赋予员工充分的自主权，可以直接访问训练集群验证自己的想法。

关键洞察与辩论

语音是唯一能让人产生情感共鸣的AI模态

Matty在对话中提出一个深刻观点：文字可以传递故事，但无法带来同样的情感体验。当人们听到声音——无论是ASMR耳语还是深沉的影院旁白——它能够真正触动人心，让人感受到生命力。这使得语音成为AI交互中最具情感价值的界面。

语音将打破语言与文化壁垒

展望未来，语音技术将使人们能够说任何语言并完全理解其表达方式——不仅是词语本身，还包括说话的方式和情感。这意味着语言障碍和文化障碍都将被打破，人们可以真正沉浸于异国文化之中。

通用音频模型的未来

目前ElevenLabs拥有音频、音效和音乐的专业模型，但他们的愿景是创建一个能够生成任何类型音频的统一模型。未来的挑战在于跨越"声音图灵测试"——让AI真正像人类一样交流，既超级聪明又超级富有同理心。

金句

“语音是唯一能让人真正产生情感共鸣的AI模态。”

“产品如果带着热爱而构建，用户是能够感知到的。”

“当你拥有优秀的人才，管理公司几乎不需要费什么力，因为他们会主动承担责任。”

“我们想要招聘全球最优秀的人才，语音领域顶尖的研究人员可能只有50到100人。”

“语言障碍和文化障碍曾经无法跨越，但语音技术将使这一切成为可能。”

📺 视频原片

视频时长: 11 分钟 | 视频ID: afkFLnyrLww

对话背景与核心主题#

核心逻辑拆解#

方法论与工具箱#

关键洞察与辩论#

金句#

对话背景与核心主题

核心逻辑拆解

方法论与工具箱

关键洞察与辩论

金句