原始标题: From $0 to $11B: The ElevenLabs Story

发布日期: 2026-02-06 | 来源频道: @a16z

📝 深度摘要

对话背景与核心主题

本期对话由a16z主办,邀请了ElevenLabs联合创始人Matty和Peter作为嘉宾。ElevenLabs是一家专注于AI语音合成技术的公司,从2021年创立至今仅用数年时间便达到110亿美元估值,成为AI语音领域的标杆企业。对话围绕语音技术的未来、公司文化与团队建设、以及AI与人机交互的演进方向展开。

核心逻辑拆解

创业缘起:解决真实痛点

ElevenLabs的诞生源于两位创始人在波兰的成长经历。他们发现,波兰观众观看外国电影时,所有角色都由同一个配音演员完成,所有的情感和语调消失殆尽。这个看似微小的用户体验问题,催生了他们打造真正自然语音的梦想。

2021年,Matty在谷歌工作,Peter在Palantir任职,两人开始在周末一起探索不同项目。他们很快招募了第一批用户,开始迭代产品。2022年初正式发布时,已有数千人排队等待,随后用户数迅速增长至数十万,远超预期。

方法论与工具箱

独特的产品哲学

ElevenLabs的成功在于将研究与产品紧密结合。两位创始人认为,许多公司要么有研究能力,要么有产品能力,但ElevenLabs同时具备两者。产品团队直接与用户沟通,获取反馈并传递给研究团队,研究团队则能立即在产品上测试模型。这种双向加速机制成为公司的核心竞争力。

远程优先的高效团队

公司从最初两人发展到如今11个城市、超过300名员工,每六个月翻一番。尽管采用远程办公模式,ElevenLabs通过极小的团队单元和高自主权来保持效率。创始团队坚持招聘全球最优秀的人才,认为语音领域顶尖研究人员可能仅有50到100人,因此采取全球化招聘策略。

无title文化

ElevenLabs激进地取消了所有职级title。这一设计有多重考量:首先,它过滤掉自我意识过强的人——如果有人执着于VP头衔,他不会得到相应职位;其次,它消除了隐性偏见,让任何人都可以向任何人请教或提出建议;第三,它赋予员工充分的自主权,可以直接访问训练集群验证自己的想法。

关键洞察与辩论

语音是唯一能让人产生情感共鸣的AI模态

Matty在对话中提出一个深刻观点:文字可以传递故事,但无法带来同样的情感体验。当人们听到声音——无论是ASMR耳语还是深沉的影院旁白——它能够真正触动人心,让人感受到生命力。这使得语音成为AI交互中最具情感价值的界面。

语音将打破语言与文化壁垒

展望未来,语音技术将使人们能够说任何语言并完全理解其表达方式——不仅是词语本身,还包括说话的方式和情感。这意味着语言障碍和文化障碍都将被打破,人们可以真正沉浸于异国文化之中。

通用音频模型的未来

目前ElevenLabs拥有音频、音效和音乐的专业模型,但他们的愿景是创建一个能够生成任何类型音频的统一模型。未来的挑战在于跨越"声音图灵测试"——让AI真正像人类一样交流,既超级聪明又超级富有同理心。

金句

“语音是唯一能让人真正产生情感共鸣的AI模态。”

“产品如果带着热爱而构建,用户是能够感知到的。”

“当你拥有优秀的人才,管理公司几乎不需要费什么力,因为他们会主动承担责任。”

“我们想要招聘全球最优秀的人才,语音领域顶尖的研究人员可能只有50到100人。”

“语言障碍和文化障碍曾经无法跨越,但语音技术将使这一切成为可能。”


📺 视频原片


视频时长: 11 分钟 | 视频ID: afkFLnyrLww