原始标题: Everyone Will Be Training AI Agents This Way in 6 Months (Claude Code)
发布日期: 2026-02-05 | 来源频道: @AllAboutAI
📝 深度摘要
AI 智能体架构与自主开发实战笔记
1. 对话背景与核心主题
本视频的核心主题是如何通过 Claude Code 训练 AI 智能体掌握新技能,并以实际案例展示从需求提出到技能固化的完整流程。博主是一位专注于 AI 自动化的工作者,他在 Mac Mini 上运行着一个专属的 AI 代理,本次演示的目标是为其 skills.md.store 产品线训练一个能够自动生成推广视频的技能。
博主的核心诉求非常明确:他需要一个能够自主完成"产品推广视频制作"的技能 pipeline。这个技能需要整合屏幕录制、语音合成、动画渲染(Remotion)、背景音乐等多个子能力,最终输出一个可以直接发布到社交媒体的营销素材。值得注意的是,整个训练过程采用了迭代式 skill training方法论——不追求一步到位,而是通过多轮反馈循环逐步优化技能表现。
2. 核心干货概览 (Agentic Stack & Assets)
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 核心 AI 代理 | Claude Code | 承担任务规划、执行调度、屏幕操作控制的全能代理,采用 dangerous script permission 模式运行 |
| 视频制作技能 | Remotion | 程序化视频动画渲染框架,支持代码定义转场、文字动画、场景合成 |
| 屏幕录制能力 | Screen Recording | 代理自主驱动的浏览器操作录制,捕获 X.com 导航、发帖等实际操作流程 |
| 语音合成 | Voice Over | 为推广视频提供旁白配音,解释产品功能与价值主张 |
| 自动化集成 | X.com Browser Automation | 通过 MCP/Browser 工具实现无需 API Key 的社交媒体操作 |
| 技能存储格式 | skills.md | Claude Code 的技能定义文件格式,包含工作流指令和执行约束 |
| 支付集成 | Stripe | skills.md.store 的商业化支付通道,用户购买后获取技能文件 |
3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)
环境搭建与初始化
硬件与系统配置:博主在 Mac Mini 上部署了专属 AI 代理运行环境。这台机器承载了 Claude Code 的持续运行,为代理提供了独立的计算资源和网络访问能力。
权限模式选择:启动 Claude Code 时使用了 --dangerous-skip-permissions 参数(或在 UI 中选择 dangerous script permission),这意味着代理获得了执行系统命令的完整权限,包括屏幕录制、浏览器自动化、文件系统操作等。这种权限级别对于"无人值守"的自动化工作流至关重要,但也带来了相应的安全风险考量。
技能生态现状:在演示之初,博主的代理已经装备了多项技能,包括但不限于:屏幕录制、视频编辑、已有的一些 MCP 工具,以及专门用于 X.com 操作的 x.md 技能文件。这些预置技能构成了新技能训练的基础资产池。
自主运行逻辑链 (The Loop)
第一轮迭代 (First Iteration):博主向 Claude Code 发送了一个结构化的 prompt,要求代理学习"产品推广视频制作"技能。Prompt 的核心内容包括:
- 产品定位:skills.md.store 是一个销售 AI 代理技能的平台,用户购买后可获得即插即用的 .md 技能文件
- 视频要素:需要整合屏幕录制(展示 X.com 导航)、语音旁白、Remotion 动画、背景音乐(chill.mp3)
- 交付要求:生成可发布的 MP4 格式推广视频
代理接收到任务后,自主完成了以下工作流程:
- 启动屏幕录制,模拟导航 X.com 的操作流程
- 编写 Remotion 代码,定义视频场景、转场动画、文字叠加
- 合成背景音乐与旁白音频
- 渲染最终视频文件
博主在 4 分钟内完成了第一轮迭代的指令下发,最终得到一个初始版本。但第一版存在明显问题:视频节奏过慢,缺少产品网页的展示内容。
反馈与第二轮迭代 (Feedback & Second Iteration):博主针对第一版给出了详细的改进意见:
- 全程需要语音旁白解释产品概念
- 需要更多展示代理实际导航 X.com 的屏幕录制片段
- 增加动画节奏感
- 加入产品页面的视觉元素
代理根据反馈进行了第二轮迭代,这一次生成的视频时长控制在 26 秒,节奏明快,以"Watch this"作为开场 hook,快速展示 AI 代理在 X.com 上的导航、通知查看、个人资料浏览、帖子草稿撰写等全自动化操作,最后以"Plug it in and your agent knows exactly what to do"作为核心卖点输出。
技能固化 (Skill Finalization):在确认第二版视频质量达标后,博主指示代理将完整的工作流写入 promo-skill.md 文件。这标志着"训练"阶段的完成——代理不仅学会了如何制作这个特定的推广视频,还掌握了可以复用的标准化流程。
技能验证 (Skill Verification):为了验证技能的可复用性,博主重新启动 Claude Code 会话,直接加载刚才训练的 promo-skill,然后提供一个新产品链接,指令代理"使用 promo skill 创建视频"。代理成功复现了之前迭代的成果,再次生成了 26 秒的推广视频,验证了技能文件的可重复执行性。
自动化发布 (Autonomous Posting):最后一步,代理利用已安装的 X.com 技能,将生成的视频自动发布到社交媒体平台,完成从"技能训练"到"自动化运营"的完整闭环。
实战案例还原 (Use Cases)
案例一:skills.md.store 产品推广:这是本次演示的核心案例。代理完成了从"理解产品价值"到"生成视频"再到"自动发布"的全流程。视频最终呈现效果包括:AI 代理自主导航 X.com 的屏幕录制、快节奏的转场动画、清晰的语音旁白、以及产品购买链接。
案例二:未来扩展可能性:博主提到他已经成功将类似的工作流应用于 YouTube 频道运营,并正在探索让代理自动完成 GitHub 代码项目的展示与发布。这意味着技能训练的方法论具有高度的可迁移性——一旦掌握了"如何训练代理学习一个技能",就可以将其应用于任何领域的自动化需求。
细节支撑
时间成本:博主强调,整个第一轮 skill training 仅用了约 4 分钟的交互时间,就获得了可用的初始版本。这种效率在传统视频制作流程中是不可想象的。
迭代周期:从第一版到最终满意版本,经历了 2 轮明确的迭代。每轮迭代都有具体的反馈内容和针对性的改进,展示了"人机协作"模式下如何快速迭代产出。
自主性边界:博主提到他并不确定代理"是否会自动发布内容",但在本次演示中代理确实执行了发布操作。这揭示了一个关键点:AI 代理的自主行为边界需要在系统提示或技能定义中明确约束,否则代理可能会超出预期范围行动。
4. 核心执行资产 (CLI Commands & Prompts)
指令集还原
Claude Code 启动命令(推测):
claude --dangerous # 或在 UI 中启用 dangerous script permission
技能查看指令:
/skills # 在 Claude Code 对话中查看已安装的技能列表
技能文件加载:
load promo-skill.md # 加载指定技能文件到当前会话
Prompt 工程模板(来自博主的实际 prompt):
We need to learn a new skill: create product promo.
In our case, this is a simple web page that sells skills for AI agents, skills.md files with instructions and I just link to Claude skills.
We already have some skills that can help us create a promo video like voice over, screen recording. We have some video editing skills we already trained.
The ideal promo video should be a short video on point just describing what the service does.
For the video, it would be great if you could screen record the agent navigating X to show it working in practice. Create a voice over that describes and sells the skills.md store product. Use Remotion for smooth animation, transitions, text. We have background music file: chill.mp3.
Please create your first iteration of the promo video.
系统提示词策略
博主展示了如何通过"结构化 Prompt"驱动代理自主工作:
- 明确产品背景:提供产品的核心价值主张和目标受众
- 列出可用资产:告知代理已有的技能库(屏幕录制、语音、视频编辑等)
- 定义交付标准:视频时长、格式、核心信息点
- 设定迭代预期:明确这是第一轮迭代,后续会根据反馈优化
这种 Prompt 策略的核心思想是**“描述结果而非过程”**——告诉代理"要什么",而不是"怎么做"。代理会自主调用技能库中的工具,编排出完成目标所需的工作流。
5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)
Vibe Coding 核心心法
博主在实践中展现了一种**“意图编程”**的范式:他不是编写具体的代码来实现视频制作功能,而是通过自然语言描述期望的结果,让代理自行推理、调用工具、生成产出。这种方法的核心心法可以归纳为:
- Prompt 即代码:不再用编程语言编写业务逻辑,而是用自然语言编写任务描述
- 技能即组件:预训练的技能文件(.md)相当于可复用的函数库,代理按需组合
- 迭代优于完美:不追求一次到位,通过多轮反馈逐步精进
- 自动化即复利:一旦技能固化,后续调用不再需要人工干预
博主提到他在过去几周内持续扩展技能库,将各种自动化能力逐步沉淀为可复用的 skill 文件。这形成了一个技能网络效应——越多的技能被训练出来,新技能的开发和调用就越高效。
自主性风险预警
在演示过程中,博主提到了几个需要警惕的风险点:
边界失控风险:当代理获得了 dangerous script permission 时,它可能执行超出预期范围的操作。例如,在演示中代理"主动"发布了帖子,而博主原本不确定它是否会这样做。这提示我们:需要在技能定义或系统提示中明确设定行为边界,特别是涉及外部平台操作时。
无限循环风险:在迭代式训练过程中,代理可能会陷入反复调整而无法收敛的情况。博主采用了"满意即停"的策略——当视频质量达到"good enough"时就停止迭代,而不是追求完美。
成本累积风险:虽然博主没有明确提及 token 消耗,但多轮迭代式的交互意味着持续的 API 调用。在生产环境中,需要建立成本监控机制,避免长时间运行导致费用失控。
实战陷阱
陷阱一:技能依赖链断裂:在演示中,代理依赖于多个预置技能(屏幕录制、Remotion、视频编辑等)。如果某个技能缺失或版本不兼容,整个工作流可能会失败。在训练新技能之前,需要确保基础技能库完整。
陷阱二:Prompt 歧义导致产出偏离:当 Prompt 描述不够精确时,代理可能会生成偏离预期的内容。博主的第一版视频"节奏过慢"和"缺少产品页面展示"就是因为初始 Prompt 没有明确强调这些要求。
陷阱三:技能文件格式错误:Claude Code 的 skills.md 有特定的语法要求。在技能固化阶段,如果格式不正确,代理可能无法正确加载和执行。
6. 金句 (Golden Quotes)
-
“Watch this. My AI agent navigating X.com, checking notifications, looking at profiles, drafting posts, fully autonomous. This is a skill. Plug it in and your agent knows exactly what to do.” (“看这个。我的 AI 代理自主导航 X.com,查看通知、浏览资料、撰写帖子,完全自动化。这是一个技能。接入它,你的代理就知道该怎么做。")
-
“Working with AI agents is like having a dedicated employee that never sleeps, never complains, and keeps getting better at what you teach it.” (“和 AI 代理一起工作,就像拥有一个不知疲倦、从不抱怨、并且持续精进的专属员工。")
-
“We didn’t spend hours figuring out the right prompts. The agent figured it out by itself through iteration.” (“我们没有花几个小时去摸索正确的提示词。代理通过迭代自己找到了答案。")
-
“The key is not to code everything yourself, but to teach the agent how to learn.” (“关键不是自己写所有代码,而是教会代理如何学习。")
-
“This could be done autonomously now if you have all of these skills set up.” (“只要把这些技能都配置好,现在一切都可以自动化运行。")
📺 视频原片
视频ID: Wk_-aqs3fM4