原始标题: Claude Code Let’s Build: The AI Video Oracle (Qwen3 TTS)

发布日期: 2026-01-23 | 来源频道: @AllAboutAI

📝 深度摘要

AI 智能体架构与自主开发实战笔记

1. 对话背景与核心主题

本期"Let’s Build"视频的核心主题是构建一个**AI 视频预言机（AI Video Oracle）**流水线。博主在 Qwen 发布新款 TTS 模型后，决定在本地 MacBook 上测试其效果，进而设计了一套完整的问答视频生成系统。该系统的元问题是：用户输入任意问题，能否在 20 秒内获得一个由 AI 生成的带口型动画的视频回答？ 博主的愿景是展望未来 10 年 YouTube 可能变成的样子——用户搜索一个问题，平台直接生成一个由虚拟形象播报的完整视频。

2. 核心干货概览

类别	名称	核心用途 / 技术意义
核心 AI 代理	Gemini 3 Flash	承担研究模块，利用 Google 搜索进行实时信息检索，并压缩答案至 50 词以内
语音合成模型	Qwen 3 TTS（1.7B 参数）	本地运行的文本转语音模型，支持语音克隆，在 MacBook 上通过 MPS 加速推理
视频生成模型	Omnihuman	接收参考图像 URL 和音频 URL，生成带口型同步的虚拟形象视频
编程辅助工具	Cursor / Claude Code	在开发过程中获取文档、编写和调试 Python 代码
运行环境	MacBook（MPS 后端）	本地运行 1.7B 参数模型，绕过云端 API 成本

3. 智能体架构与 SOP

环境搭建与初始化

整个项目使用 Python 实现，博主通过 Cursor IDE 获取各模型的文档：

Gemini 文档：用于 Google 搜索 grounding
Qwen 3 GitHub 仓库：获取 TTS 模型的使用方法
Omnihuman 文档：获取视频生成 API 的调用方式

环境配置使用 conda 管理 Python 环境，博主在演示中现场修复了环境未激活的问题（conda run 命令）。

自主运行逻辑链（The Loop）

该流水线包含 6 个步骤的闭环执行：

问题输入：用户通过 python pipeline.py 传入自然语言问题
研究阶段：Gemini 3 Flash 接收问题，使用 Google 搜索进行实时研究
答案压缩：Gemini Flash 将研究结果压缩为 50 词以内、2-3 句话的简明答案
语音合成：将压缩后的答案字符串发送至 Qwen 3 TTS 1.7B 模型，配合参考音频（VTuber 风格）生成语音文件
视频生成：将参考图像 URL 和生成的音频 URL 发送至 Omnihuman 模型，生成带口型同步的虚拟形象 MP4 视频
结果输出：下载并保存最终视频文件

实战案例还原

博主演示了两个具体案例：

案例一：提问"2026 年《Severance》会有第三季吗？"

Gemini 搜索结果显示：Apple TV Plus 尚未正式续订第三季，第二季定于 2025 年 1 月 17 日首播
Qwen 3 生成语音：女声 VTuber 播报"Apple TV Plus 尚未正式续订…"
Omnihuman 生成视频：虚拟形象配合语音口型同步
总耗时：约 5 分钟

案例二：提问"Dario Amade 在 2026 年达沃斯论坛上关于 AI 说了什么？"

Gemini 实时检索最新新闻
生成回答：“他批评美国芯片出口政策，将其比作向朝鲜出售核武器…”
视频成功生成并播报

细节支撑

推理速度：Qwen 3 1.7B 模型在 MacBook 上运行"非常快"（原话），得益于模型体积小且支持 MPS 加速
语音克隆：使用一段 VTuber 风格的参考音频作为克隆目标，无需额外训练
与 11 Labs 对比：博主指出 Qwen 3 的效果不如 11 Labs，但对于"不需要高质量的长文本"场景足够好用，且省大量钱

4. 核心执行资产

指令集还原

# 激活 conda 环境并运行语音克隆脚本
conda run python voice.py

# 运行完整流水线
python pipeline.py

关键 Python 代码结构：

加载 Qwen 3 TTS 1.7B Base Model（后端设置为 MPS）
输入文本字符串 + 参考音频文件路径 → 输出语音文件
调用 Omnihuman API：传入图像 URL + 音频 URL → 返回视频文件

系统提示词策略

博主未在视频中展示完整的 System Prompt，但演示了关键指令逻辑：

对 Gemini Flash：“用 50 词以内回答这个问题，进行在线研究” -3：“将以下对 Qwen 文本转为语音，使用参考音频的风格”
对 Omnihuman：“根据以下图像和音频生成带口型同步的视频”

5. 开发者进阶洞察

Vibe Coding 核心心法

博主展示了**“写指令而非写代码”的核心理念：整个流水线的实现并未从零手写所有逻辑，而是通过 Cursor/Claude Code 读取各模型的官方文档，根据文档快速组装调用代码。“这并不是什么难搞的东西”**——博主强调利用 AI 辅助编程可以极大降低技术门槛。

自主性风险预警

API 成本：虽然 Qwen 3 在本地运行省去了 TTS 费用，但 Gemini Flash 和 Omnihuman 仍依赖云端 API，大规模调用会产生费用
生成时间：完整流水线耗时约 5-10 分钟，不适合实时交互场景
质量局限：Qwen 3 TTS 仅为 1.7B 参数，博主承认"不完全一样，但对这个尺寸的模型来说已经很好"

实战陷阱

环境问题：博主现场遇到 conda 环境未激活的错误，演示了 conda run 的解决方案
模型尺寸权衡：小模型推理快、成本低，但音质和自然度不如 11 Labs 等商业方案
参考音频依赖：语音克隆效果高度依赖参考音频的质量，博主使用 VTuber 风格的音频获得对应风格的输出

6. 金句

“这真的很简单，即使在 MacBook 上也运行得很快，因为模型尺寸很小。”
“你可以用这个本地运行，只需要几分钟就能生成，成本很低。”
“也许这能给你一些灵感，让你知道如何用 Cursor 和 Qwen 的新 TTS 模型来做一些工作流或流水线。”
“它很小，但表现非常好，实话说让人印象深刻。”

📺 视频原片

视频ID: Vbws3a_OmBM

📝 深度摘要#

AI 智能体架构与自主开发实战笔记#

1. 对话背景与核心主题#

2. 核心干货概览#

3. 智能体架构与 SOP#

环境搭建与初始化#

自主运行逻辑链（The Loop）#

实战案例还原#

细节支撑#

4. 核心执行资产#

指令集还原#

系统提示词策略#

5. 开发者进阶洞察#

Vibe Coding 核心心法#

自主性风险预警#

实战陷阱#

6. 金句#

📺 视频原片#