原始标题: Claude Code Let’s Build: The AI Video Oracle (Qwen3 TTS)
发布日期: 2026-01-23 | 来源频道: @AllAboutAI
📝 深度摘要
AI 智能体架构与自主开发实战笔记
1. 对话背景与核心主题
本期"Let’s Build"视频的核心主题是构建一个**AI 视频预言机(AI Video Oracle)**流水线。博主在 Qwen 发布新款 TTS 模型后,决定在本地 MacBook 上测试其效果,进而设计了一套完整的问答视频生成系统。该系统的元问题是:用户输入任意问题,能否在 20 秒内获得一个由 AI 生成的带口型动画的视频回答? 博主的愿景是展望未来 10 年 YouTube 可能变成的样子——用户搜索一个问题,平台直接生成一个由虚拟形象播报的完整视频。
2. 核心干货概览
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 核心 AI 代理 | Gemini 3 Flash | 承担研究模块,利用 Google 搜索进行实时信息检索,并压缩答案至 50 词以内 |
| 语音合成模型 | Qwen 3 TTS(1.7B 参数) | 本地运行的文本转语音模型,支持语音克隆,在 MacBook 上通过 MPS 加速推理 |
| 视频生成模型 | Omnihuman | 接收参考图像 URL 和音频 URL,生成带口型同步的虚拟形象视频 |
| 编程辅助工具 | Cursor / Claude Code | 在开发过程中获取文档、编写和调试 Python 代码 |
| 运行环境 | MacBook(MPS 后端) | 本地运行 1.7B 参数模型,绕过云端 API 成本 |
3. 智能体架构与 SOP
环境搭建与初始化
整个项目使用 Python 实现,博主通过 Cursor IDE 获取各模型的文档:
- Gemini 文档:用于 Google 搜索 grounding
- Qwen 3 GitHub 仓库:获取 TTS 模型的使用方法
- Omnihuman 文档:获取视频生成 API 的调用方式
环境配置使用 conda 管理 Python 环境,博主在演示中现场修复了环境未激活的问题(conda run 命令)。
自主运行逻辑链(The Loop)
该流水线包含 6 个步骤的闭环执行:
- 问题输入:用户通过
python pipeline.py传入自然语言问题 - 研究阶段:Gemini 3 Flash 接收问题,使用 Google 搜索进行实时研究
- 答案压缩:Gemini Flash 将研究结果压缩为 50 词以内、2-3 句话的简明答案
- 语音合成:将压缩后的答案字符串发送至 Qwen 3 TTS 1.7B 模型,配合参考音频(VTuber 风格)生成语音文件
- 视频生成:将参考图像 URL 和生成的音频 URL 发送至 Omnihuman 模型,生成带口型同步的虚拟形象 MP4 视频
- 结果输出:下载并保存最终视频文件
实战案例还原
博主演示了两个具体案例:
案例一:提问"2026 年《Severance》会有第三季吗?"
- Gemini 搜索结果显示:Apple TV Plus 尚未正式续订第三季,第二季定于 2025 年 1 月 17 日首播
- Qwen 3 生成语音:女声 VTuber 播报"Apple TV Plus 尚未正式续订…"
- Omnihuman 生成视频:虚拟形象配合语音口型同步
- 总耗时:约 5 分钟
案例二:提问"Dario Amade 在 2026 年达沃斯论坛上关于 AI 说了什么?"
- Gemini 实时检索最新新闻
- 生成回答:“他批评美国芯片出口政策,将其比作向朝鲜出售核武器…”
- 视频成功生成并播报
细节支撑
- 推理速度:Qwen 3 1.7B 模型在 MacBook 上运行"非常快"(原话),得益于模型体积小且支持 MPS 加速
- 语音克隆:使用一段 VTuber 风格的参考音频作为克隆目标,无需额外训练
- 与 11 Labs 对比:博主指出 Qwen 3 的效果不如 11 Labs,但对于"不需要高质量的长文本"场景足够好用,且省大量钱
4. 核心执行资产
指令集还原
# 激活 conda 环境并运行语音克隆脚本
conda run python voice.py
# 运行完整流水线
python pipeline.py
关键 Python 代码结构:
- 加载 Qwen 3 TTS 1.7B Base Model(后端设置为 MPS)
- 输入文本字符串 + 参考音频文件路径 → 输出语音文件
- 调用 Omnihuman API:传入图像 URL + 音频 URL → 返回视频文件
系统提示词策略
博主未在视频中展示完整的 System Prompt,但演示了关键指令逻辑:
- 对 Gemini Flash:“用 50 词以内回答这个问题,进行在线研究” -3:“将以下 对 Qwen 文本转为语音,使用参考音频的风格”
- 对 Omnihuman:“根据以下图像和音频生成带口型同步的视频”
5. 开发者进阶洞察
Vibe Coding 核心心法
博主展示了**“写指令而非写代码”的核心理念:整个流水线的实现并未从零手写所有逻辑,而是通过 Cursor/Claude Code 读取各模型的官方文档,根据文档快速组装调用代码。“这并不是什么难搞的东西”**——博主强调利用 AI 辅助编程可以极大降低技术门槛。
自主性风险预警
- API 成本:虽然 Qwen 3 在本地运行省去了 TTS 费用,但 Gemini Flash 和 Omnihuman 仍依赖云端 API,大规模调用会产生费用
- 生成时间:完整流水线耗时约 5-10 分钟,不适合实时交互场景
- 质量局限:Qwen 3 TTS 仅为 1.7B 参数,博主承认"不完全一样,但对这个尺寸的模型来说已经很好"
实战陷阱
- 环境问题:博主现场遇到 conda 环境未激活的错误,演示了
conda run的解决方案 - 模型尺寸权衡:小模型推理快、成本低,但音质和自然度不如 11 Labs 等商业方案
- 参考音频依赖:语音克隆效果高度依赖参考音频的质量,博主使用 VTuber 风格的音频获得对应风格的输出
6. 金句
- “这真的很简单,即使在 MacBook 上也运行得很快,因为模型尺寸很小。”
- “你可以用这个本地运行,只需要几分钟就能生成,成本很低。”
- “也许这能给你一些灵感,让你知道如何用 Cursor 和 Qwen 的新 TTS 模型来做一些工作流或流水线。”
- “它很小,但表现非常好,实话说让人印象深刻。”
📺 视频原片
视频ID: Vbws3a_OmBM