原始标题: The ML Technique Every Founder Should Know

发布日期: 2026-01-22 | 来源频道: @ycombinator

📝 深度摘要

1. 讨论背景与核心主题

本视频是YC Decoded系列访谈,嘉宾Francois Shaard是一位拥有深厚学术与产业背景的AI专家。他自2012年起在计算机视觉领域开展研究,曾运营十年专注于 Focal Systems 的公司,目前在斯坦福攻读博士学位,致力于研究用于通用人工智能的Diffusion-based world models。

核心元问题:什么是Diffusion(扩散模型)?这项技术如何演变成今天AI领域的核心范式?初创公司创始人应如何理解和应用这一技术浪潮?

2. 核心干货概览

类别 核心动作 / 策略 业务价值 / 护城河意义
技术框架 学习任意数据分布P(data)的Diffusion框架 在极少量数据(如30张图像)下仍能学习高维到高维映射,突破传统模型的数据依赖瓶颈
工程优化 Flow Matching替代传统噪声调度 代码量从复杂数学推导简化为约10行,实现门槛大幅降低
应用广度 图像、视频、蛋白质、机器人、自动驾驶、天气预测、代码生成 Diffusion已渗透至AI几乎所有垂直领域,除LLM和游戏外的SOTA均已被其攻占
创业机会 在已有Diffusion框架上构建垂直应用或训练专用模型 核心算法日趋成熟,竞争焦点转向工程化落地与数据壁垒

3. 深度战术拆解:Diffusion方法论实战

3.1 核心原理:加噪与去噪的数学本质

痛点再定义:传统的生成模型(如GAN)在高维数据生成上存在模式坍塌、训练不稳定等问题,且极度依赖大量数据。当只有30张Gary的照片却要在1000×10000×3维空间中生成新图像时,传统方法几乎失效。

核心策略推导:Diffusion的核心思想源自非平衡热力学。分两步执行:

  1. 前向过程(Forward Process):对真实数据逐步施加噪声,最终得到完全随机的噪声分布。这一步简单且可精确控制。
  2. 反向过程(Reverse Process):训练神经网络从噪声中恢复原始数据。模型学习的是如何在每一步去除适量噪声。

实战步骤SOP

  1. 定义噪声调度(beta schedule):控制每个时间步添加多少噪声
  2. 计算alpha和alpha bar:alpha代表每一步保留多少原始信息
  3. 训练目标:最小化预测噪声与真实噪声之间的KL散度(或预测velocity)
  4. 推理时:从随机噪声开始,逐步调用模型去噪,迭代直到恢复清晰数据

关键细节

  • 原始2015年Sohl-Dickstein论文奠定了核心数学框架
  • 噪声调度(noise schedule)是Diffusion中最难理解的的部分
  • 线性添加噪声在实践中极不稳定,因为初期噪声影响微乎其微,末期却需要瞬间消除大量结构
  • 正确的做法是使用beta schedule实现相对恒定的误差引入

3.2 Flow Matching:更优雅的数学简化

技术演进:Meta的Yann Litman提出的Flow Matching彻底简化了Diffusion。其核心洞察是:

  • 不再执着于精确的逆向路径
  • 直接学习从噪声到数据的全局速度(velocity)
  • 速度 = 噪声 - 数据(与时间无关)

代码实现:仅需约5-10行核心代码即可实现最强大的机器学习流程。关键代码结构:

# 采样:线性插值
x_t = (1-t) × noise + t × data
# 速度:全局方向
velocity = noise - data
# 训练:预测速度
model(x_t) → velocity

工程意义

  • 这是极其优雅的抽象:底层模型可以是RNN、UNET或Transformer
  • 与具体数据类型完全解耦:图像、蛋白质、DNA、机器人轨迹、天气数据、股票数据——同一套代码
  • 代码行数减少的同时,数学形式反而更简单,这与大多数机器学习趋势相反

3.3 推理约束与蒸馏技巧

重要限制:模型训练时使用多少个diffusion步骤(如100步),推理时就必须使用相同步数。试图使用更多步数会导致输出变成纯白噪声,更少步数则质量严重下降。

蒸馏方案:可以将100步模型蒸馏为10步模型,但需要用10步方式重新训练,而非简单压缩。

4. 技术护城河与工程实践

4.1 Diffusion已统治AI领域

SOTA分布

  • 图像生成:Stable Diffusion、Midjourney、SD3、Flux、Sora(视频)
  • 生命科学:AlphaFold(蛋白质折叠,诺奖级成果)、DiffDock(小分子-蛋白质结合)
  • 机器人:Diffusion Policy(自动驾驶、机器人动作策略)
  • 天气预测:Google DeepMind的Gencast成为全球最准确天气预报系统
  • 代码生成:Diffusion LLM(连续与离散两种形式)
  • 失败模拟:用于预测系统可能的故障模式

两个例外

  1. 大语言模型(LLM):自回归方法仍占优势
  2. 游戏(如AlphaGo):蒙特卡洛树搜索(MCTS)仍是SOTA

4.2 对AGI的深层思考:Squint Test

Francois提出了一个独特的思维框架——“Squint Test”(眯眼测试):

  • 借鉴莱特兄弟与飞行器的历史:人类曾错误地认为必须模仿鸟类的拍打翅膀
  • 真正的智能可能不需要"逐token生成"的方式
  • 人脑的特征:
    • 大量递归和反向思考(写代码时我们会不断回退、重构)
    • 概念层级的思维(从高层概念逐步解码为具体表达)
    • 大脑神经元本身具有高度随机性

Diffusion为何可能更接近AGI

  1. 引入随机性(randomness):整个生物系统都利用随机性,大脑神经元服从对数正态分布
  2. 块状输出:不像LLM逐token生成,Diffusion可以一次性生成完整概念,再解码为具体内容

5. 反直觉洞察与避坑指南

5.1 技术洞察

  • “简单"是核心竞争力:Flow Matching证明,最强大的AI技术可以用极简数学表达。10行代码背后是诺奖级应用(蛋白质折叠)。
  • 架构解耦:Diffusion的框架与具体模型架构(UNET vs Transformer)完全独立,底层模型可随意替换。
  • 数据效率被低估:仅需30张图像就能在高维空间学习的能力,对垂直领域应用意义重大。

5.2 创业者行动指南

对于自研模型的创始人

  • 无论应用场景是什么,都应认真研究Diffusion
  • 即使仅用于获取一个可操作的latent space,Diffusion也是值得考虑的底层技术

对于应用层创业者

  • 过去5年图像生成的质量提升是千倍级的(从早期Midjourney到Sora/VO/Flux)
  • 将图像领域验证的成功复制到蛋白质、DNA、机器人、自动驾驶等领域
  • 这些是可解决的可量化问题,需要的只是时间、资金和数据

最终判断

  • “Diffusion将重新定义整个经济”
  • “预测蛋白质折叠只会变得更好,然后我们将应用于DNA和代谢组学”
  • “机器人将在人们家中工作——我押注于此”

6. 金句

  • “我们不需要复杂的中间过程。存在一个全局速度——从噪声到数据——它就是这条直线。”
  • “这是我所写过的最强大的机器学习流程,却只有五行代码。”
  • “整个生物学和自然都在利用随机性。Diffusion的核心就是利用随机性。”
  • “模型变得更复杂,但我们实际上让它变得更易于理解——十行代码就能解释手机上那些神奇AI结果的基础数学原理。”
  • “滑向冰球要去的地方。机器人将在人们家中工作,我对此押下重注。”

📺 视频原片


视频ID: dC_3ys349bU