每个创始人必须掌握的机器学习技术

原始标题: The ML Technique Every Founder Should Know

发布日期: 2026-01-22 | 来源频道: @ycombinator

📝 深度摘要

对话背景与核心主题

本视频是YC Decoded节目与Y Combinator访问合伙人Francois Shaard的对谈。Francois自2012年起从事计算机视觉研究，曾在Fei-Fei Li的实验室工作，后创办Focal Systems十年，现于斯坦福攻读PhD，研究基于扩散的AGI世界模型。节目聚焦于当前AI领域最重要的话题之一——扩散模型（Diffusion），探讨其定义、发展历程及现代应用。

核心逻辑拆解

扩散模型本质上是一个机器学习框架，能够学习任何领域的数据概率分布P(data)。其核心优势在于处理高维到高维的映射，尤其在低数据场景下表现出色。例如，仅用30张图片就能训练出一个能生成新图像的模型，尽管这些图片处于数百万维的空间中。

扩散的工作流程分为两个阶段：前向过程（forward process）不断向数据添加噪声，直至变成纯随机噪声；逆向过程（reverse process）则训练模型从噪声中恢复出原始数据。这就像一个"加噪器"和一个"去噪器"，我们训练的是去噪器部分。

方法论与工具箱

2015年Sohl-Dickstein等人的原始论文奠定了扩散模型的基础，后续研究在此基础上不断优化。关键创新包括：预测目标从原始数据→噪声误差→速度（velocity）的演进。研究发现，让模型预测"速度"——即噪声与数据之间的差值——比直接预测数据或噪声更容易学习。

Flow Matching（流匹配）是近年来的重要突破。传统扩散需要沿着复杂路径从噪声走到数据，而流匹配直接学习两点之间的"全局速度"，走直线即可到达目标。这个方法简洁优雅，核心训练代码仅约5-10行，却能实现最强大的机器学习效果。值得注意的是，这个框架与具体数据类型无关——无论是图像、蛋白质序列、天气数据还是机器人轨迹，都可以用同一套代码处理。

关键洞察与辩论

Francois提出了一个有趣的"斜视测试"（squint test）概念：将人类大脑与AI系统类比。他认为人脑有两个关键特征：一是利用随机性（神经元的发放本身就是随机的），二是以概念为单位进行思考和迭代优化，而非逐个token生成。当前的LLM每次只生成一个token且无法回退，这与人类思考方式存在本质差异。扩散模型在利用随机性和并行生成方面更接近人脑的运作方式。

目前扩散模型已渗透到AI的各个领域：图像生成（Stable Diffusion、Midjourney、Sora、Flux）、视频生成、蛋白质结构预测（AlphaFold因扩散获诺贝尔奖）、机器人策略（diffusion policy）、天气预报（Google DeepMind的Gencast）、代码生成、DNA/代谢物研究等。Francois断言：“扩散已经吞噬了AI的一切，除了两个领域”——即自回归LLM和游戏/AlphaGo所用的MCTS。

金句

“扩散模型的核心代码只有10行，却解释了手机上那些神奇AI效果的所有数学基础。”
“预测速度比预测数据本身更容易，预测噪声又比预测速度更难——我们不断找到更容易让模型学习的方法。”
“扩散是一种非常基础性的机器学习框架，能学习任何领域的数据分布，只要有数据就行。”
“所有生物学和自然都在利用随机性，而扩散正是利用随机性的典范。”
“对于任何机器学习应用，你都应该认真考虑扩散作为训练流程的核心部分。”

📺 视频原片

视频时长: 27 分钟 | 视频ID: dC_3ys349bU

对话背景与核心主题#

核心逻辑拆解#

方法论与工具箱#

关键洞察与辩论#

金句#

对话背景与核心主题

核心逻辑拆解

方法论与工具箱

关键洞察与辩论

金句