原始标题: ChatGPT will be 100x Faster… (CEREBRAS DEAL)
发布日期: 2026-01-15 | 来源频道: @matthew_berman
📝 深度摘要
1. 讨论背景与核心主题
2025年初,AI基础设施领域发生重大变革。2024年11月,Google发布Gemini 3模型,该模型首次使用TPU(张量处理单元)而非Nvidia GPU进行训练和推理,引发行业震动。随后在圣诞节前夜,Nvidia宣布收购Groq(原Grock团队),交易估值200亿美元,但仅为技术授权协议而非完整收购,旨在规避反垄断审查。
2025年1月,OpenAI正式宣布与Cerebras达成战略合作,根据《华尔街日报》报道,该交易价值超过100亿美元,OpenAI同意在3年内购买750兆瓦计算资源。Cerebras CEO Andrew Feldman曾出现在Matthew的直播节目中,但当时未透露任何风声。
本视频核心元问题:在AI推理成本和速度成为竞争关键节点的当下,专用加速芯片如何重塑行业格局?OpenAI选择Cerebras而非Nvidia/Groq的战略意图是什么?
2. 核心干货概览 (Technical Takeaways & Stack)
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 专用推理芯片 | Cerebras WSE(晶圆级引擎) | 全球最快AI芯片,推理速度超过3000 tokens/秒,不依赖外部HBM内存 |
| 传统GPU | Nvidia H100/H200 | 通用计算芯片,推理速度受限于内存带宽,面临HBM库存短缺 |
| 训练芯片 | Google TPU | Gemini 3使用TPU训练,证明非Nvidia路线可行 |
| 对比基准 | GPT-4o开源模型 | 在Cerebras上运行 vs 其他平台的推理速度实测 |
| 行业趋势 | 推理即服务(Inference-as-a-Service) | 专用芯片将统治推理市场,训练与推理资源分离 |
3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)
3.1 专用芯片 vs 通用GPU的核心差异
架构设计理念:
- Cerebras WSE(Wafer-Scale Engine):全球最大芯片,将整个晶圆作为单一芯片使用,集成194GB SRAM on-chip memory(片上内存),无需依赖外部HBM(高带宽内存)。这使得Cerebras完全不受当前HBM内存短缺和价格暴涨的影响。
- Nvidia GPU:采用分离式架构,GPU计算单元与HBM内存通过硅中介层连接。当HBM库存不足时,整个GPU产能受限。2025年Q1,RAM价格疯狂上涨,GPU制造商和游戏玩家深受其害。
- TPU(Tensor Processing Unit):Google自研专用芯片,Gemini 3首次完全使用TPU训练和推理,证明前沿模型可以不依赖Nvidia。
推理速度实测数据:
视频中展示的实测数据显示,在GPT-4o开源模型推理任务中:
- Groq:465 tokens/秒
- Cerebras:超过3000 tokens/秒
- 差距:Cerebras速度约为Groq的6.5倍
3.2 推理经济的范式转移
为什么推理是金钱所在:
- 训练成本:模型只需训练一次,前期投入巨大,但训练完成后边际成本趋近于零
- 推理成本:模型需要持续对外提供服务,用户越多,推理调用量越大,收入随用户需求线性增长
- 利润公式:推理速度越快、单次推理成本越低,利润率越高
Greg Brockman(OpenAI联合创始人)在接受Matthew采访时透露:
“2017年我们第一次看到Cerebras时非常兴奋,因为这是一种全新的范式。你看到那些数字时会想,如果能有一百万个这样的芯片,我们就能构建AGI。”
Greg Brockman还提到,OpenAI曾尝试与所有芯片玩家对话,提供关于工作负载特性的建议,但大多数公司不愿倾听。他们来自传统芯片领域,思维方式固化,难以理解大模型工作负载的本质。
3.3 OpenAI的战略选择逻辑
为什么选择Cerebras而非Groq/Nvidia:
- 平台风险:如果选择Groq,推理服务基本全部流向Nvidia,形成单一供应商依赖,风险过高
- 供应链安全:OpenAI已从Nvidia购买大量GPU用于训练和推理,再加码Groq意味着进一步绑定
- 技术领先:Cerebras在推理速度上具有代际优势,超过3000 tokens/秒的速度是当前最强竞争力
交易规模:
- 合同金额:超过100亿美元
- 采购量:750兆瓦计算资源
- 合作期限:3年
- 分析师预测:OpenAI最终可能收购Cerebras
3.4 对行业未来的影响
资源分配优化:
- OpenAI现有GPU资源可从推理业务中释放出来,专门用于训练下一代模型
- 这意味着用户将获得更好的模型,因为训练资源不再与推理资源冲突
Cerebras的IPO前景:
- Cerebras曾提交IPO申请但被迫撤回
- 近期完成多轮融资
- 与OpenAI的战略合作将加速其IPO进程,因为所有前沿实验室现在都在关注Cerebras的能力
4. 核心干货运用 (Prompts & Configuration)
本视频为新闻分析类内容,未涉及具体的Prompt或代码配置。主要价值在于揭示的行业洞察:
- 速度-成本-质量三角方程:Matthew在一年前的Twitter投票中询问用户最看重哪个因素,质量以绝对优势获胜,速度仅占2%。但Matthew认为速度被严重低估,尤其在编程场景中。
- 推理场景分类:
- 需即时响应:日常对话、代码补全、信息查询
- 可接受延迟:深度研究、多轮分析、复杂推理
- 并行代理时代:当推理速度提升100倍时,开发者可以同时运行多个代理并行工作,极大提升开发迭代效率
5. 极客洞察与避坑指南 (Geek Insights & Boundary)
5.1 反直觉技术结论
- 速度比质量更重要:在模型能力趋同的当下,响应速度成为差异化关键。用户对"稍慢但更好" vs “稍快但略差"的选择中,越来越多的场景倾向于选择速度。
- 专用芯片优于通用芯片:此前业界普遍认为通用GPU更具灵活性,但Cerebras的实测数据表明,在特定工作负载下,专用架构的性能优势无法逾越。
- 内存是瓶颈:不是计算能力,而是HBM内存供应决定了GPU产能。Cerebras的片上内存架构彻底绕过了这一限制。
5.2 适用边界与风险
- 推理专用:Cerebras在推理场景所向披靡,但在模型训练场景仍需验证
- 软件栈兼容性:Greg Brockman透露切换到专用芯片不需要大量代码重写,“软件层面都是一样的”
- 产能风险:Cerebras晶圆级芯片良率和产能是潜在风险点
- 厂商锁定:专用芯片架构可能导致更严重的供应商依赖
5.3 实战陷阱
- 不要把所有GPU资源都投入训练:OpenAI的困境在于需要二选一——训练新模型还是服务现有用户。这导致他们必须寻找外部推理供应商。
- 不要忽视非Nvidia路线:Google TPU已证明可行,Cerebras正在崛起,未来芯片采购策略需要多元化。
- 不要只看基准测试:实际推理速度体验比论文数据更重要,3000 tokens/秒的响应延迟接近"即时”。
6. 金句 (Golden Quotes)
- “推理才是金钱所在。模型训练一次,但服务是无止境的。你服务得越多,在原始训练投入上的回报就越高。”
- “如果你能让人工智能以100倍的速度运行,突然之间你就能以前所未有的速度迭代你的代码。”
- “大多数公司不会倾听(OpenAI的建议)。如果你来自芯片世界,用特定方式看待问题,却不理解工作负载,你想说’不,不,不,这个视角是反的’——但这非常困难,因为你要在此基础上重塑整个世界观。”
- “现在每个前沿实验室都在盯着Cerebras,心里想’也许我也能用上这种算力’,OpenAI的背书证明了这种可能性。”
- “我们曾以为构建非GPU架构会比2017年想象的容易得多,结果证明这比我们预期的要困难得多。”
📺 视频原片
视频ID: Yz5N45V9dfk