原始标题: My Most INSANE AI Agent Ever (OpenClaw Clone)

发布日期: 2026-01-30 | 来源频道: @AllAboutAI

📝 深度摘要

1. 讨论背景与核心主题

本视频的主理人是一位 AI 智能体开发爱好者,他展示了自己搭建的「类 OpenClaw」自主运行 AI 智能体系统。核心元问题是:如何构建一个可 24/7 全天候独立运行、能够自主执行复杂任务(如研究、发社交媒体、制作视频)的 AI 代理。与官方 OpenClaw/Claude Code 不同的是,作者采用了一种更简化的方案——基于 Mac Mini + Claude Code + Chrome 控制的架构,实现「写指令而非写代码」的 Vibe Coding 理念。

2. 核心干货概览 (Agentic Stack & Assets)

类别 名称 核心用途 / 技术意义
核心 AI 代理 Claude Code 作为智能体的大脑,处理自然语言理解、任务规划和执行
消息触发通道 WhatsApp 通过 WhatsApp 发送指令触发代理,实现移动端远程控制
浏览器自动化 Chrome 控制(通过 skills) 替代 API Key,直接控制浏览器操作 X、YouTube、Gmail 等平台
自动化调度 Cron Jobs 在后台定时执行任务,如夜间自动浏览 X、搜索新帖子并进行互动
视频生成能力 Remotion + 技能系统 自主生成 YouTube 视频,包含研究、剪辑、配音、上传全流程
运行环境 Mac Mini 专用机器,7×24 小时运行,与个人数据物理隔离

3. 智能体架构与 SOP

环境搭建与初始化

系统运行在专属的 Mac Mini 上,通过 WhatsApp 连接到该设备。当用户在 WhatsApp 中发送指令(如 /claude 开头)时,系统会调用 Claude Code 执行任务。关键设计理念是用浏览器登录替代 API Key——直接在 Chrome 中登录 YouTube、X、LinkedIn 等平台,智能体通过控制浏览器来执行操作,这样做更加安全且无需管理复杂的 API 密钥。

自主运行逻辑链

  1. 感知层:通过 WhatsApp 接收用户指令,或通过 Cron Jobs 定时触发任务
  2. 规划层:Claude Code 解析指令,读取相关技能文档(Skills),制定执行计划
  3. 执行层:调用对应技能,操作 Chrome 浏览器完成具体操作(如搜索、发帖、下载视频)
  4. 反馈层:任务完成后通过 WhatsApp 向用户返回结果

实战案例还原

案例一:研究任务

  • 用户在 WhatsApp 发送:/claude please research Maltbook ONX report back what the fuss is about
  • 系统自动启动 Claude Code,打开 X(Twitter)搜索相关内容,读取多条帖子和推文
  • 完成后将研究结果通过 WhatsApp 发回给用户

案例二:定时任务演示

  • 用户设置一个 1 分钟后执行的 Cron Job:「打开 Hacker News,获取顶部帖子并写摘要」
  • 演示中可以看到代理自动打开 Hacker News,导航到第一名帖子,抓取内容并生成摘要

案例三:自动化视频生成

  • 这是视频的核心亮点:用户给出一个 Google 新项目(如 Project Genie)的链接
  • 代理自动执行:研究主题 → 编写脚本 → 使用 Remotion 渲染视频 → 生成配乐 → 上传到 YouTube
  • 演示中展示了从输入 URL 到生成完整视频的完整流程,包括脚本大纲:开场白→功能演示→技术解析

4. 核心执行资产 (CLI Commands & Prompts)

指令集还原

# 基础触发指令(通过 WhatsApp 发送)
/claude [任务描述]

# 定时任务设置示例(通过自然语言)
"在 15:46 执行任务,打开 Hacker News,获取顶部帖子,写摘要"

# 技能系统调用
Claude Code 会自动读取 skills/ 目录下的技能文件

系统提示词策略

智能体通过 Skills(技能)来扩展能力。每个技能是一个独立的文档或脚本,包含:

  • 技能用途说明
  • 具体操作步骤
  • 可用工具列表
  • 示例用例

已构建的技能包括:X(Twitter)操作、视频研究、视频剪辑、缩略图制作、YouTube 上传、GitHub 操作、Gmail 管理、AI 图片生成等。

5. 开发者进阶洞察

Vibe Coding 核心心法

作者的核心思路是**「写指令而非写代码」**。不需要编写复杂的 API 对接代码,而是通过自然语言描述任务,让智能体自主完成。具体体现为:

  • 给出一个 YouTube 视频主题,代理自动完成从研究到发布的全流程
  • 无需手动编写视频渲染代码,通过 Remotion 技能自动化处理

自主性风险预警

  1. 死循环风险:当智能体在执行复杂任务(如视频生成)时,可能会在某个环节卡住或无限循环
  2. 账单风险:虽然使用 $200/月的 Claude Code 订阅代替 API Key,但在高强度运行下仍可能产生额外成本
  3. 社交媒体风控:自动化在 X、YouTube 等平台上的操作可能触发平台的反自动化机制(如封号)

实战陷阱

  • 权限问题:演示中提到现在可以使用 dangerous skip permissions 来简化权限验证
  • 视频质量:自动生成的视频可能需要人工微调,演示中可以看到视频生成后仍有改进空间
  • 技能迭代:需要不断更新和维护技能库,演示者提到会持续添加新技能

6. 金句

  • 「我们不需要使用 API Key,因为可以直接用浏览器登录——更安全,也更简单。用浏览器就是用我们自己的账号,这比 API 更靠谱。」

  • 「我只想给它一个主题,告诉它’去制作一个视频’,然后它就能从研究到发布全部搞定。这就是 Vibe Coding 的终极形态——写指令,而不是写代码。」

  • 「它有自己的邮箱、自己的 LinkedIn、自己的 X 账号、自己的 YouTube 频道——它就像一个真正的数字员工,24 小时为我工作。」


📺 视频原片


视频ID: _KN5iAQfz6I