每位创始人必须了解的机器学习技术

原始标题: The ML Technique Every Founder Should Know

发布日期: 2026-01-22 | 来源频道: @ycombinator

📝 深度摘要

1. 讨论背景与核心主题

本视频是YC Decoded系列访谈，嘉宾Francois Shaard是一位拥有深厚学术与产业背景的AI专家。他自2012年起在计算机视觉领域开展研究，曾运营十年专注于 Focal Systems 的公司，目前在斯坦福攻读博士学位，致力于研究用于通用人工智能的Diffusion-based world models。

核心元问题：什么是Diffusion（扩散模型）？这项技术如何演变成今天AI领域的核心范式？初创公司创始人应如何理解和应用这一技术浪潮？

2. 核心干货概览

类别	核心动作 / 策略	业务价值 / 护城河意义
技术框架	学习任意数据分布P(data)的Diffusion框架	在极少量数据（如30张图像）下仍能学习高维到高维映射，突破传统模型的数据依赖瓶颈
工程优化	Flow Matching替代传统噪声调度	代码量从复杂数学推导简化为约10行，实现门槛大幅降低
应用广度	图像、视频、蛋白质、机器人、自动驾驶、天气预测、代码生成	Diffusion已渗透至AI几乎所有垂直领域，除LLM和游戏外的SOTA均已被其攻占
创业机会	在已有Diffusion框架上构建垂直应用或训练专用模型	核心算法日趋成熟，竞争焦点转向工程化落地与数据壁垒

3. 深度战术拆解：Diffusion方法论实战

3.1 核心原理：加噪与去噪的数学本质

痛点再定义：传统的生成模型（如GAN）在高维数据生成上存在模式坍塌、训练不稳定等问题，且极度依赖大量数据。当只有30张Gary的照片却要在1000×10000×3维空间中生成新图像时，传统方法几乎失效。

核心策略推导：Diffusion的核心思想源自非平衡热力学。分两步执行：

前向过程（Forward Process）：对真实数据逐步施加噪声，最终得到完全随机的噪声分布。这一步简单且可精确控制。
反向过程（Reverse Process）：训练神经网络从噪声中恢复原始数据。模型学习的是如何在每一步去除适量噪声。

实战步骤SOP：

定义噪声调度（beta schedule）：控制每个时间步添加多少噪声
计算alpha和alpha bar：alpha代表每一步保留多少原始信息
训练目标：最小化预测噪声与真实噪声之间的KL散度（或预测velocity）
推理时：从随机噪声开始，逐步调用模型去噪，迭代直到恢复清晰数据

关键细节：

原始2015年Sohl-Dickstein论文奠定了核心数学框架
噪声调度（noise schedule）是Diffusion中最难理解的的部分
线性添加噪声在实践中极不稳定，因为初期噪声影响微乎其微，末期却需要瞬间消除大量结构
正确的做法是使用beta schedule实现相对恒定的误差引入

3.2 Flow Matching：更优雅的数学简化

技术演进：Meta的Yann Litman提出的Flow Matching彻底简化了Diffusion。其核心洞察是：

不再执着于精确的逆向路径
直接学习从噪声到数据的全局速度（velocity）
速度 = 噪声 - 数据（与时间无关）

代码实现：仅需约5-10行核心代码即可实现最强大的机器学习流程。关键代码结构：

# 采样：线性插值
x_t = (1-t) × noise + t × data
# 速度：全局方向
velocity = noise - data
# 训练：预测速度
model(x_t) → velocity

工程意义：

这是极其优雅的抽象：底层模型可以是RNN、UNET或Transformer
与具体数据类型完全解耦：图像、蛋白质、DNA、机器人轨迹、天气数据、股票数据——同一套代码
代码行数减少的同时，数学形式反而更简单，这与大多数机器学习趋势相反

3.3 推理约束与蒸馏技巧

重要限制：模型训练时使用多少个diffusion步骤（如100步），推理时就必须使用相同步数。试图使用更多步数会导致输出变成纯白噪声，更少步数则质量严重下降。

蒸馏方案：可以将100步模型蒸馏为10步模型，但需要用10步方式重新训练，而非简单压缩。

4. 技术护城河与工程实践

4.1 Diffusion已统治AI领域

SOTA分布：

图像生成：Stable Diffusion、Midjourney、SD3、Flux、Sora（视频）
生命科学：AlphaFold（蛋白质折叠，诺奖级成果）、DiffDock（小分子-蛋白质结合）
机器人：Diffusion Policy（自动驾驶、机器人动作策略）
天气预测：Google DeepMind的Gencast成为全球最准确天气预报系统
代码生成：Diffusion LLM（连续与离散两种形式）
失败模拟：用于预测系统可能的故障模式

两个例外：

大语言模型（LLM）：自回归方法仍占优势
游戏（如AlphaGo）：蒙特卡洛树搜索（MCTS）仍是SOTA

4.2 对AGI的深层思考：Squint Test

Francois提出了一个独特的思维框架——“Squint Test”（眯眼测试）：

借鉴莱特兄弟与飞行器的历史：人类曾错误地认为必须模仿鸟类的拍打翅膀
真正的智能可能不需要"逐token生成"的方式
人脑的特征：
- 大量递归和反向思考（写代码时我们会不断回退、重构）
- 概念层级的思维（从高层概念逐步解码为具体表达）
- 大脑神经元本身具有高度随机性

Diffusion为何可能更接近AGI：

引入随机性（randomness）：整个生物系统都利用随机性，大脑神经元服从对数正态分布
块状输出：不像LLM逐token生成，Diffusion可以一次性生成完整概念，再解码为具体内容

5. 反直觉洞察与避坑指南

5.1 技术洞察

“简单"是核心竞争力：Flow Matching证明，最强大的AI技术可以用极简数学表达。10行代码背后是诺奖级应用（蛋白质折叠）。
架构解耦：Diffusion的框架与具体模型架构（UNET vs Transformer）完全独立，底层模型可随意替换。
数据效率被低估：仅需30张图像就能在高维空间学习的能力，对垂直领域应用意义重大。

5.2 创业者行动指南

对于自研模型的创始人：

无论应用场景是什么，都应认真研究Diffusion
即使仅用于获取一个可操作的latent space，Diffusion也是值得考虑的底层技术

对于应用层创业者：

过去5年图像生成的质量提升是千倍级的（从早期Midjourney到Sora/VO/Flux）
将图像领域验证的成功复制到蛋白质、DNA、机器人、自动驾驶等领域
这些是可解决的可量化问题，需要的只是时间、资金和数据

最终判断：

“Diffusion将重新定义整个经济”
“预测蛋白质折叠只会变得更好，然后我们将应用于DNA和代谢组学”
“机器人将在人们家中工作——我押注于此”

6. 金句

“我们不需要复杂的中间过程。存在一个全局速度——从噪声到数据——它就是这条直线。”
“这是我所写过的最强大的机器学习流程，却只有五行代码。”
“整个生物学和自然都在利用随机性。Diffusion的核心就是利用随机性。”
“模型变得更复杂，但我们实际上让它变得更易于理解——十行代码就能解释手机上那些神奇AI结果的基础数学原理。”
“滑向冰球要去的地方。机器人将在人们家中工作，我对此押下重注。”

📺 视频原片

视频ID: dC_3ys349bU

📝 深度摘要#

1. 讨论背景与核心主题#

2. 核心干货概览#

3. 深度战术拆解：Diffusion方法论实战#

3.1 核心原理：加噪与去噪的数学本质#

3.2 Flow Matching：更优雅的数学简化#

3.3 推理约束与蒸馏技巧#

4. 技术护城河与工程实践#

4.1 Diffusion已统治AI领域#

4.2 对AGI的深层思考：Squint Test#

5. 反直觉洞察与避坑指南#

5.1 技术洞察#

5.2 创业者行动指南#

6. 金句#

📺 视频原片#