原始标题: Claude Code Let’s Build: The AI Video Oracle (Qwen3 TTS)

发布日期: 2026-01-23 | 来源频道: @AllAboutAI

📝 深度摘要

AI 智能体架构与自主开发实战笔记

1. 对话背景与核心主题

本期"Let’s Build"视频的核心主题是构建一个**AI 视频预言机(AI Video Oracle)**流水线。博主在 Qwen 发布新款 TTS 模型后,决定在本地 MacBook 上测试其效果,进而设计了一套完整的问答视频生成系统。该系统的元问题是:用户输入任意问题,能否在 20 秒内获得一个由 AI 生成的带口型动画的视频回答? 博主的愿景是展望未来 10 年 YouTube 可能变成的样子——用户搜索一个问题,平台直接生成一个由虚拟形象播报的完整视频。

2. 核心干货概览

类别 名称 核心用途 / 技术意义
核心 AI 代理 Gemini 3 Flash 承担研究模块,利用 Google 搜索进行实时信息检索,并压缩答案至 50 词以内
语音合成模型 Qwen 3 TTS(1.7B 参数) 本地运行的文本转语音模型,支持语音克隆,在 MacBook 上通过 MPS 加速推理
视频生成模型 Omnihuman 接收参考图像 URL 和音频 URL,生成带口型同步的虚拟形象视频
编程辅助工具 Cursor / Claude Code 在开发过程中获取文档、编写和调试 Python 代码
运行环境 MacBook(MPS 后端) 本地运行 1.7B 参数模型,绕过云端 API 成本

3. 智能体架构与 SOP

环境搭建与初始化

整个项目使用 Python 实现,博主通过 Cursor IDE 获取各模型的文档:

  • Gemini 文档:用于 Google 搜索 grounding
  • Qwen 3 GitHub 仓库:获取 TTS 模型的使用方法
  • Omnihuman 文档:获取视频生成 API 的调用方式

环境配置使用 conda 管理 Python 环境,博主在演示中现场修复了环境未激活的问题(conda run 命令)。

自主运行逻辑链(The Loop)

该流水线包含 6 个步骤的闭环执行:

  1. 问题输入:用户通过 python pipeline.py 传入自然语言问题
  2. 研究阶段:Gemini 3 Flash 接收问题,使用 Google 搜索进行实时研究
  3. 答案压缩:Gemini Flash 将研究结果压缩为 50 词以内、2-3 句话的简明答案
  4. 语音合成:将压缩后的答案字符串发送至 Qwen 3 TTS 1.7B 模型,配合参考音频(VTuber 风格)生成语音文件
  5. 视频生成:将参考图像 URL 和生成的音频 URL 发送至 Omnihuman 模型,生成带口型同步的虚拟形象 MP4 视频
  6. 结果输出:下载并保存最终视频文件

实战案例还原

博主演示了两个具体案例:

案例一:提问"2026 年《Severance》会有第三季吗?"

  • Gemini 搜索结果显示:Apple TV Plus 尚未正式续订第三季,第二季定于 2025 年 1 月 17 日首播
  • Qwen 3 生成语音:女声 VTuber 播报"Apple TV Plus 尚未正式续订…"
  • Omnihuman 生成视频:虚拟形象配合语音口型同步
  • 总耗时:约 5 分钟

案例二:提问"Dario Amade 在 2026 年达沃斯论坛上关于 AI 说了什么?"

  • Gemini 实时检索最新新闻
  • 生成回答:“他批评美国芯片出口政策,将其比作向朝鲜出售核武器…”
  • 视频成功生成并播报

细节支撑

  • 推理速度:Qwen 3 1.7B 模型在 MacBook 上运行"非常快"(原话),得益于模型体积小且支持 MPS 加速
  • 语音克隆:使用一段 VTuber 风格的参考音频作为克隆目标,无需额外训练
  • 与 11 Labs 对比:博主指出 Qwen 3 的效果不如 11 Labs,但对于"不需要高质量的长文本"场景足够好用,且省大量钱

4. 核心执行资产

指令集还原

# 激活 conda 环境并运行语音克隆脚本
conda run python voice.py

# 运行完整流水线
python pipeline.py

关键 Python 代码结构:

  • 加载 Qwen 3 TTS 1.7B Base Model(后端设置为 MPS)
  • 输入文本字符串 + 参考音频文件路径 → 输出语音文件
  • 调用 Omnihuman API:传入图像 URL + 音频 URL → 返回视频文件

系统提示词策略

博主未在视频中展示完整的 System Prompt,但演示了关键指令逻辑:

  • 对 Gemini Flash:“用 50 词以内回答这个问题,进行在线研究” -3:“将以下 对 Qwen 文本转为语音,使用参考音频的风格”
  • 对 Omnihuman:“根据以下图像和音频生成带口型同步的视频”

5. 开发者进阶洞察

Vibe Coding 核心心法

博主展示了**“写指令而非写代码”的核心理念:整个流水线的实现并未从零手写所有逻辑,而是通过 Cursor/Claude Code 读取各模型的官方文档,根据文档快速组装调用代码。“这并不是什么难搞的东西”**——博主强调利用 AI 辅助编程可以极大降低技术门槛。

自主性风险预警

  • API 成本:虽然 Qwen 3 在本地运行省去了 TTS 费用,但 Gemini Flash 和 Omnihuman 仍依赖云端 API,大规模调用会产生费用
  • 生成时间:完整流水线耗时约 5-10 分钟,不适合实时交互场景
  • 质量局限:Qwen 3 TTS 仅为 1.7B 参数,博主承认"不完全一样,但对这个尺寸的模型来说已经很好"

实战陷阱

  • 环境问题:博主现场遇到 conda 环境未激活的错误,演示了 conda run 的解决方案
  • 模型尺寸权衡:小模型推理快、成本低,但音质和自然度不如 11 Labs 等商业方案
  • 参考音频依赖:语音克隆效果高度依赖参考音频的质量,博主使用 VTuber 风格的音频获得对应风格的输出

6. 金句

  • “这真的很简单,即使在 MacBook 上也运行得很快,因为模型尺寸很小。”
  • “你可以用这个本地运行,只需要几分钟就能生成,成本很低。”
  • “也许这能给你一些灵感,让你知道如何用 Cursor 和 Qwen 的新 TTS 模型来做一些工作流或流水线。”
  • “它很小,但表现非常好,实话说让人印象深刻。”

📺 视频原片


视频ID: Vbws3a_OmBM