原始标题: The ML Technique Every Founder Should Know
发布日期: 2026-01-22 | 来源频道: @ycombinator
📝 深度摘要
1. 讨论背景与核心主题
本视频是YC Decoded系列访谈,嘉宾Francois Shaard是一位拥有深厚学术与产业背景的AI专家。他自2012年起在计算机视觉领域开展研究,曾运营十年专注于 Focal Systems 的公司,目前在斯坦福攻读博士学位,致力于研究用于通用人工智能的Diffusion-based world models。
核心元问题:什么是Diffusion(扩散模型)?这项技术如何演变成今天AI领域的核心范式?初创公司创始人应如何理解和应用这一技术浪潮?
2. 核心干货概览
| 类别 | 核心动作 / 策略 | 业务价值 / 护城河意义 |
|---|---|---|
| 技术框架 | 学习任意数据分布P(data)的Diffusion框架 | 在极少量数据(如30张图像)下仍能学习高维到高维映射,突破传统模型的数据依赖瓶颈 |
| 工程优化 | Flow Matching替代传统噪声调度 | 代码量从复杂数学推导简化为约10行,实现门槛大幅降低 |
| 应用广度 | 图像、视频、蛋白质、机器人、自动驾驶、天气预测、代码生成 | Diffusion已渗透至AI几乎所有垂直领域,除LLM和游戏外的SOTA均已被其攻占 |
| 创业机会 | 在已有Diffusion框架上构建垂直应用或训练专用模型 | 核心算法日趋成熟,竞争焦点转向工程化落地与数据壁垒 |
3. 深度战术拆解:Diffusion方法论实战
3.1 核心原理:加噪与去噪的数学本质
痛点再定义:传统的生成模型(如GAN)在高维数据生成上存在模式坍塌、训练不稳定等问题,且极度依赖大量数据。当只有30张Gary的照片却要在1000×10000×3维空间中生成新图像时,传统方法几乎失效。
核心策略推导:Diffusion的核心思想源自非平衡热力学。分两步执行:
- 前向过程(Forward Process):对真实数据逐步施加噪声,最终得到完全随机的噪声分布。这一步简单且可精确控制。
- 反向过程(Reverse Process):训练神经网络从噪声中恢复原始数据。模型学习的是如何在每一步去除适量噪声。
实战步骤SOP:
- 定义噪声调度(beta schedule):控制每个时间步添加多少噪声
- 计算alpha和alpha bar:alpha代表每一步保留多少原始信息
- 训练目标:最小化预测噪声与真实噪声之间的KL散度(或预测velocity)
- 推理时:从随机噪声开始,逐步调用模型去噪,迭代直到恢复清晰数据
关键细节:
- 原始2015年Sohl-Dickstein论文奠定了核心数学框架
- 噪声调度(noise schedule)是Diffusion中最难理解的的部分
- 线性添加噪声在实践中极不稳定,因为初期噪声影响微乎其微,末期却需要瞬间消除大量结构
- 正确的做法是使用beta schedule实现相对恒定的误差引入
3.2 Flow Matching:更优雅的数学简化
技术演进:Meta的Yann Litman提出的Flow Matching彻底简化了Diffusion。其核心洞察是:
- 不再执着于精确的逆向路径
- 直接学习从噪声到数据的全局速度(velocity)
- 速度 = 噪声 - 数据(与时间无关)
代码实现:仅需约5-10行核心代码即可实现最强大的机器学习流程。关键代码结构:
# 采样:线性插值
x_t = (1-t) × noise + t × data
# 速度:全局方向
velocity = noise - data
# 训练:预测速度
model(x_t) → velocity
工程意义:
- 这是极其优雅的抽象:底层模型可以是RNN、UNET或Transformer
- 与具体数据类型完全解耦:图像、蛋白质、DNA、机器人轨迹、天气数据、股票数据——同一套代码
- 代码行数减少的同时,数学形式反而更简单,这与大多数机器学习趋势相反
3.3 推理约束与蒸馏技巧
重要限制:模型训练时使用多少个diffusion步骤(如100步),推理时就必须使用相同步数。试图使用更多步数会导致输出变成纯白噪声,更少步数则质量严重下降。
蒸馏方案:可以将100步模型蒸馏为10步模型,但需要用10步方式重新训练,而非简单压缩。
4. 技术护城河与工程实践
4.1 Diffusion已统治AI领域
SOTA分布:
- 图像生成:Stable Diffusion、Midjourney、SD3、Flux、Sora(视频)
- 生命科学:AlphaFold(蛋白质折叠,诺奖级成果)、DiffDock(小分子-蛋白质结合)
- 机器人:Diffusion Policy(自动驾驶、机器人动作策略)
- 天气预测:Google DeepMind的Gencast成为全球最准确天气预报系统
- 代码生成:Diffusion LLM(连续与离散两种形式)
- 失败模拟:用于预测系统可能的故障模式
两个例外:
- 大语言模型(LLM):自回归方法仍占优势
- 游戏(如AlphaGo):蒙特卡洛树搜索(MCTS)仍是SOTA
4.2 对AGI的深层思考:Squint Test
Francois提出了一个独特的思维框架——“Squint Test”(眯眼测试):
- 借鉴莱特兄弟与飞行器的历史:人类曾错误地认为必须模仿鸟类的拍打翅膀
- 真正的智能可能不需要"逐token生成"的方式
- 人脑的特征:
- 大量递归和反向思考(写代码时我们会不断回退、重构)
- 概念层级的思维(从高层概念逐步解码为具体表达)
- 大脑神经元本身具有高度随机性
Diffusion为何可能更接近AGI:
- 引入随机性(randomness):整个生物系统都利用随机性,大脑神经元服从对数正态分布
- 块状输出:不像LLM逐token生成,Diffusion可以一次性生成完整概念,再解码为具体内容
5. 反直觉洞察与避坑指南
5.1 技术洞察
- “简单"是核心竞争力:Flow Matching证明,最强大的AI技术可以用极简数学表达。10行代码背后是诺奖级应用(蛋白质折叠)。
- 架构解耦:Diffusion的框架与具体模型架构(UNET vs Transformer)完全独立,底层模型可随意替换。
- 数据效率被低估:仅需30张图像就能在高维空间学习的能力,对垂直领域应用意义重大。
5.2 创业者行动指南
对于自研模型的创始人:
- 无论应用场景是什么,都应认真研究Diffusion
- 即使仅用于获取一个可操作的latent space,Diffusion也是值得考虑的底层技术
对于应用层创业者:
- 过去5年图像生成的质量提升是千倍级的(从早期Midjourney到Sora/VO/Flux)
- 将图像领域验证的成功复制到蛋白质、DNA、机器人、自动驾驶等领域
- 这些是可解决的可量化问题,需要的只是时间、资金和数据
最终判断:
- “Diffusion将重新定义整个经济”
- “预测蛋白质折叠只会变得更好,然后我们将应用于DNA和代谢组学”
- “机器人将在人们家中工作——我押注于此”
6. 金句
- “我们不需要复杂的中间过程。存在一个全局速度——从噪声到数据——它就是这条直线。”
- “这是我所写过的最强大的机器学习流程,却只有五行代码。”
- “整个生物学和自然都在利用随机性。Diffusion的核心就是利用随机性。”
- “模型变得更复杂,但我们实际上让它变得更易于理解——十行代码就能解释手机上那些神奇AI结果的基础数学原理。”
- “滑向冰球要去的地方。机器人将在人们家中工作,我对此押下重注。”
📺 视频原片
视频ID: dC_3ys349bU