原始标题: DeepSeek Just CHANGED Everything!

发布日期: 2026-02-07 | 来源频道: @mreflow

📝 深度摘要

2026年1月27日,中国AI公司DeepSeek发布的新模型引发了全球科技市场的剧烈震动。Nvidia股价暴跌17%,市值蒸发4650亿美元。这是继ChatGPT之后,AI领域最令人震惊的事件。硅谷著名投资人Marc Andreessen称DeepSeek R1是"我见过的最惊人、最令人印象深刻的突破之一",并将其开源称为"送给世界的珍贵礼物"。

DeepSeek V3于2024年12月发布,拥有6710亿参数,但通过"混合专家"架构,每次推理仅激活370亿参数。关键在于:训练仅需278万H800 GPU小时,而GPT-4训练需要约6000万小时——效率提升95%以上。在数学、编程等基准测试中,V3与GPT-4和Claude 3.5 Sonnet性能相当,且完全开源免费。

随后发布的DeepSeek R1更令人震撼。它在V3基础上引入无监督强化学习微调,训练过程完全自主:模型自己尝试解答数学和编程问题,然后与已知答案比对、自我修正。在基准测试中,R1在多数任务上与OpenAI o1模型持平甚至超越,而在GitHub问题解决能力上更是领先。关键在于:R1使用受限的H800 GPU(中国无法获取先进芯片),以极低成本达到了闭源顶尖模型的水平。

市场恐慌的逻辑在于:如果训练顶尖AI模型所需GPU数量和时间大幅减少,Nvidia等芯片公司的长期需求预期将受冲击。Meta、Google、Oracle等科技巨头股价同样下跌。但也有分析师持怀疑态度,认为DeepSeek可能使用了更先进的芯片。

作者认为Nvidia会复苏,市场反应过度。DeepSeek本质上是一家量化交易公司的"副业",利用闲置GPU训练模型。其成功可能难以复制——其他中国AI公司同样"臃肿"。无论如何,DeepSeek证明了:在AI领域,算法创新可能比算力堆砌更重要。


📺 视频原片


视频时长: 23 分钟 | 视频ID: 9TU2Ootf7QE

对话背景与核心主题

2026年1月底,AI领域迎来一颗"震撼弹"——中国公司DeepSeek连续发布重磅模型。先是2024年12月的DeepSeek V3,以极低成本训练出与GPT-4性能持平的大模型;随后发布的DeepSeek R1更是在推理能力上追平甚至超越OpenAI o1。这一事件导致Nvidia股价单日暴跌17%,市值蒸发4650亿美元,成为AI界最受关注的话题。

核心逻辑拆解

1. DeepSeek V3的技术突破

  • 6710亿参数,但采用"混合专家"架构,每次推理仅激活370亿参数
  • 训练成本仅278万H800 GPU小时,相比GPT-4的6000万小时,效率提升95%
  • 在数学、编程基准测试中与GPT-4、Claude 3.5 Sonnet持平
  • 完全开源,任何人都可以免费使用

2. DeepSeek R1的强化学习突破

  • 基于V3进行无监督强化学习微调
  • 模型自主尝试解题并自我修正,无需人工标注数据
  • 推理时展示"思维链"过程,能在回答中展示思考轨迹
  • 基准测试追平OpenAI o1,部分任务超越

3. 市场反应与深层逻辑

  • 投资者担心:如果训练顶尖AI不再需要海量GPU,Nvidia需求会暴跌
  • 但作者认为这是过度反应,Nvidia最终会复苏

方法论与工具箱

  • 混合专家架构(MoE):通过动态激活部分参数,大幅降低计算成本
  • 无监督强化学习:让模型自主探索、自我修正,无需人工标注
  • 思维链推理(Chain of Thought):在回答中展示推理过程,提升准确性

关键洞察与辩论

质疑点

  • 花旗银行分析师质疑DeepSeek是否真的在受限芯片上达成这些成果
  • 其他中国AI公司同样"臃肿",DeepSeek的成功可能是特例

作者观点

  • DeepSeek是量化交易公司的副业,利用闲置GPU
  • 这证明了算法创新可能比算力堆砌更重要
  • Nvidia会复苏,当前的下跌是过度反应

金句

“DeepSeek R1是我见过的最惊人、最令人印象深刻的突破之一,作为开源模型,这是送给世界的珍贵礼物。”

“如果可以用5%的时间和成本达到同样的AI水平,为什么还需要购买那么多GPU?”

“DeepSeek证明了:在AI领域,算法创新可能比算力堆砌更重要。”