原始标题: The ML Technique Every Founder Should Know

发布日期: 2026-01-22 | 来源频道: @ycombinator

📝 深度摘要

对话背景与核心主题

本视频是YC Decoded节目与Y Combinator访问合伙人Francois Shaard的对谈。Francois自2012年起从事计算机视觉研究,曾在Fei-Fei Li的实验室工作,后创办Focal Systems十年,现于斯坦福攻读PhD,研究基于扩散的AGI世界模型。节目聚焦于当前AI领域最重要的话题之一——扩散模型(Diffusion),探讨其定义、发展历程及现代应用。

核心逻辑拆解

扩散模型本质上是一个机器学习框架,能够学习任何领域的数据概率分布P(data)。其核心优势在于处理高维到高维的映射,尤其在低数据场景下表现出色。例如,仅用30张图片就能训练出一个能生成新图像的模型,尽管这些图片处于数百万维的空间中。

扩散的工作流程分为两个阶段:前向过程(forward process)不断向数据添加噪声,直至变成纯随机噪声;逆向过程(reverse process)则训练模型从噪声中恢复出原始数据。这就像一个"加噪器"和一个"去噪器",我们训练的是去噪器部分。

方法论与工具箱

2015年Sohl-Dickstein等人的原始论文奠定了扩散模型的基础,后续研究在此基础上不断优化。关键创新包括:预测目标从原始数据→噪声误差→速度(velocity)的演进。研究发现,让模型预测"速度"——即噪声与数据之间的差值——比直接预测数据或噪声更容易学习。

Flow Matching(流匹配)是近年来的重要突破。传统扩散需要沿着复杂路径从噪声走到数据,而流匹配直接学习两点之间的"全局速度",走直线即可到达目标。这个方法简洁优雅,核心训练代码仅约5-10行,却能实现最强大的机器学习效果。值得注意的是,这个框架与具体数据类型无关——无论是图像、蛋白质序列、天气数据还是机器人轨迹,都可以用同一套代码处理。

关键洞察与辩论

Francois提出了一个有趣的"斜视测试"(squint test)概念:将人类大脑与AI系统类比。他认为人脑有两个关键特征:一是利用随机性(神经元的发放本身就是随机的),二是以概念为单位进行思考和迭代优化,而非逐个token生成。当前的LLM每次只生成一个token且无法回退,这与人类思考方式存在本质差异。扩散模型在利用随机性和并行生成方面更接近人脑的运作方式。

目前扩散模型已渗透到AI的各个领域:图像生成(Stable Diffusion、Midjourney、Sora、Flux)、视频生成、蛋白质结构预测(AlphaFold因扩散获诺贝尔奖)、机器人策略(diffusion policy)、天气预报(Google DeepMind的Gencast)、代码生成、DNA/代谢物研究等。Francois断言:“扩散已经吞噬了AI的一切,除了两个领域”——即自回归LLM和游戏/AlphaGo所用的MCTS。

金句

  • “扩散模型的核心代码只有10行,却解释了手机上那些神奇AI效果的所有数学基础。”
  • “预测速度比预测数据本身更容易,预测噪声又比预测速度更难——我们不断找到更容易让模型学习的方法。”
  • “扩散是一种非常基础性的机器学习框架,能学习任何领域的数据分布,只要有数据就行。”
  • “所有生物学和自然都在利用随机性,而扩散正是利用随机性的典范。”
  • “对于任何机器学习应用,你都应该认真考虑扩散作为训练流程的核心部分。”

📺 视频原片


视频时长: 27 分钟 | 视频ID: dC_3ys349bU