原始标题: The Powerful Alternative To Fine-Tuning

发布日期: 2026-02-27 | 来源频道: @ycombinator

📝 深度摘要

1. 讨论背景与核心主题

本视频是 Y Combinator Light Cone 节目对 Ian Fischer 的深度访谈。Ian Fischer 是 Poetic 的联合创始人兼联合首席执行官,该公司正在构建 递归自改进 AI 推理框架(recursively self-improving AI reasoning harnesses)。在此之前,Ian 在 Google DeepMind 担任了十年研究员,并通过 YC 创办了一家移动开发工具公司(后被 Google 收购)。本视频的核心元问题是:对于初创公司而言,如何在不使用昂贵的微调(Fine-tuning)方案前提下,让基于大语言模型的应用始终保持竞争优势。Poetic 给出的答案是构建"脚手架"(Stilts)——一种能够自动生成并持续优化的推理系统,使基于任何底层模型构建的应用都能超越原生模型的表现。

2. 核心干货概览

类别 核心动作 / 策略 业务价值 / 护城河意义
增长/获客 通过"脚手架"范式为任何 AI Agent 公司提供推理增强能力 让初创公司无需投入数百万美元微调费用,即可获得比前沿模型更强的推理能力
产品/转化 构建递归自改进系统,自动生成针对特定问题的推理策略 系统输出的 Prompt 和推理策略并非人类手写,而是 AI 自动生成,往往包含人类意想不到的方法
技术架构 基于现有大语言模型构建"推理框架"(Harness),而非重新训练模型 确保每当新模型发布时,现有投资不会归零;系统自动兼容新模型并持续优化

3. 深度战术拆解:YC 方法论实战

痛点再定义

初创公司在构建 AI 应用时面临一个根本性的两难选择:要么投入巨额资金进行微调(Fine-tuning),要么接受基础模型的能力上限。Ian 在访谈中指出,传统的微调方案存在三个致命缺陷:

  1. 成本极其高昂:从头训练一个大语言模型需要数亿美元和数月的计算资源
  2. 技术代际淘汰:当 Anthropic 或 OpenAI 发布新一代模型时,之前微调的模型会瞬间失去优势
  3. 投入产出不对称:花费大量资金微调后的模型表现,往往只能提升几个百分点,但每次底层模型更新都需要重新微调

对于 AI Agent 公司而言,如果选择微调,就意味着在每一次技术迭代中都面临"数百万美元打水漂"的风险。这种模式对于资金有限的初创公司来说几乎是不可持续的。

核心策略推导

Ian 和 Poetic 团队从第一性原理出发,提出了一个极具颠覆性的观点:与其试图让模型变得更聪明,不如在模型之上构建一个"推理增强层"(Reasoning Harness)。这个增强层包含代码、Prompt、数据和推理策略,本质上是一个自动化优化系统。核心逻辑如下:

  • 传统微调是在"模型层面"做功,试图让模型本身记住更多知识
  • Poetic 的方法是在"系统层面"做功,通过自动生成推理策略让模型在特定任务上表现得更好
  • 这就好比给一个运动员(基础模型)配上专业教练和训练方案(推理框架),而不是试图改造运动员的基因

Ian 特别强调,这个方法的关键创新在于递归自改进(Recursive Self-Improvement):Poetic 的元系统能够自动分析任务数据、识别失败模式、生成改进策略,并持续迭代优化,整个过程不需要人类手动干预。

实战步骤

Ian 在访谈中详细描述了 Poetic 系统的工作流程,可以归纳为以下关键步骤:

  1. 问题定义:用户向 Poetic 提交一个需要解决的困难问题(如需要复杂推理的编程任务、数学证明、专家知识提取等)
  2. 元系统分析:Poetic 的递归自改进系统自动分析该问题的数据分布、识别模型的失败模式
  3. 策略生成:元系统自动生成针对该问题的推理策略,包括:更优的 Prompt 设计、上下文填充方案、多次采样与重排序策略、以及代码化的推理流程
  4. 自动化验证:系统通过自动化评估(Evals)验证策略的有效性,并持续迭代优化
  5. 部署与迭代:生成的推理框架可以直接部署到生产环境;当底层模型更新时,系统自动兼容新模型并重新优化

值得注意的是,Ian 提到一个关键洞察:真正有效的推理策略往往需要写成代码,而不是仅仅优化 Prompt。传统的 Prompt 工程只能带来有限的性能提升,而将推理策略编码为可执行的逻辑流程,能够实现从 5% 到 95% 的性能跃升(在特定任务上的真实案例)。

细节支撑

Ian 分享了 Poetic 在多个权威基准测试上的实际表现,这些数据具有极高的参考价值:

  • ARC AGI V2 基准:在 Gemini 3 Deep Think(45% 准确率)发布后仅两天,Poetic 基于 Gemini 3 Pro(更便宜的模型)构建的系统达到了 54%,同时成本仅为 Gemini 3 Deep Think 的一半
  • Humanity’s Last Exam(人类最终考试):这是包含 2500 道极具挑战性的问题集,由多个领域的专家编写,甚至连 PhD 也难以全部答对。Poetic 达到了 55% 准确率,超过 Anthropic 的 Claude Opus 4.6 所创下的 53.1% 前沿纪录,而整个优化过程的花费不足 10 万美元
  • 团队规模:Poetic 目前仅有 7 名员工,全部是研究科学家和工程师,以极小的团队规模实现了足以与数千人AI实验室竞争的技术突破

Ian 还提到了一个有趣的观察:系统自动生成的 Prompt 和推理策略有时"看起来不像人类会写的东西",甚至有些生成的示例是错误的,但整体系统表现却更好。这恰恰说明了 AI 在自动化优化任务上具有超越人类直觉的潜力。

4. 技术护城河与工程实践

AI/ML 策略应用

Ian 在访谈中对 AI 领域的未来趋势提出了几个重要判断:

关于 80% 的 App 会消失的预言:Ian 认为,随着基础模型能力的快速提升,那些仅仅依赖模型原生能力的 AI 应用将面临严重的同质化竞争。没有独特推理框架保护的应用,将无法在"模型能力快速逼近"的时代建立可持续的竞争优势。

推理框架作为护城河:Ian 提出了一个极具洞察力的观点——未来的 AI 竞争将在"推理框架"层面展开,而非模型层面。每一个需要 AI 驱动复杂任务的企业,都需要在基础模型之上构建自己独特的推理增强系统。而 Poetic 正是为这一需求提供解决方案的公司。

关于"脚手架"(Stilts)的隐喻:Ian 喜欢用"脚手架"来比喻 Poetic 的技术定位——基础模型是"地面",而 Poetic 的推理框架是"脚手架",让应用能够站得更高。更重要的是,这个脚手架是"可迁移的"——无论底层模型如何升级,脚手架都能适配并持续发挥增强作用。

工程化决策逻辑

Ian 详细对比了微调(Fine-tuning)与推理框架(Prompt + Reasoning Strategies)两种技术路线的本质差异:

维度 微调(Fine-tuning) 推理框架(Harness)
修改对象 模型权重 模型之外的代码和策略层
成本 数百万至数亿美元 显著低于微调(具体数字因任务而异)
迭代周期 每次模型更新需重新训练 自动兼容新模型
适用范围 需要大量标注数据 对数据量要求更低
性能天花板 受限于模型容量 可通过策略设计突破模型原生能力

Ian 还特别提到,在他们发表在 DeepMind 的论文中,手动优化 Prompt 只能将某个困难任务的性能从 5% 提升到"稍微好一点",但当他们加入推理策略(Reasoning Strategies)后,性能直接从 5% 飙升至 95%。这个数量级的飞跃说明了一个核心道理:在 AI 应用层面,推理策略的设计往往比模型本身的优化更具杠杆效应

5. 反直觉洞察与避坑指南

创业非共识

Ian 提出了一个与主流认知截然不同的观点:对于大多数 AI 初创公司而言,投资于"更聪明的基础模型"是一种投资陷阱。他的理由是:

  1. 基础模型的迭代速度极快,今天花费数百万美元微调的模型,可能在 6 个月后被开源模型或新一代商业模型超越
  2. 真正可持续的竞争优势应该建立在"模型无关"的技术层上——即推理框架和方法论
  3. 最优秀的 AI 应用团队(如 Perplexity、Anthropic 等)实际上都在做大量的"上下文工程"和"推理策略优化",而不是单纯依赖模型能力

Ian 还提到了一个反直觉的观察:系统自动生成的内容(包括可能存在的错误)往往比人类手动优化的结果更有效。这挑战了传统的"人工精调优于自动化"假设。

“死亡之谷"预警

Ian 警告了初创公司在追求 AI 产品市场匹配度(PMF)过程中最常掉入的技术陷阱:

  1. 微调依赖症:过早投入大量资源进行微调,导致资金链断裂或错失快速验证市场的窗口期
  2. 评测基准过拟合:在公开基准测试上刷分,但实际产品落地时表现糟糕
  3. 模型切换惰性:固守某一特定模型,没有建立"模型无关"的抽象层,导致每次技术迭代都需要大规模重构

Ian 建议初创公司应该首先通过"上下文工程”(Context Engineering)验证产品概念,只有在明确需要突破模型原生能力边界时,才考虑使用类似 Poetic 的自动化推理优化工具。

6. 金句

  • “你不需要花费数百万美元去重新训练模型——你只需要在模型之上构建一个更好的’脚手架’,它会自动让模型表现得更好,而且永远不会被新一代模型淘汰。”
  • “真正的竞争不在模型层面,而在推理框架层面。基础模型会越来越强,但如果你有自己的推理增强系统,你将始终站在巨人的肩膀上。”
  • “AI 的未来不是让模型变得更聪明,而是让系统知道如何更好地使用模型。”
  • “不要限制自己的想法——任何你想象的东西,都应该试着让 AI 来帮你实现,看看它能走多远。你会惊讶于这个世界正在变得多好。”

📺 视频原片


视频ID: UPGB-hsAoVY