原始标题: Long-Running AI Agent Browser Automation Tasks Is Here

发布日期: 2026-03-05 | 来源频道: @AllAboutAI

📝 深度摘要

1. 对话背景与核心主题

本视频由 AllAboutAI 频道发布,博主演示了如何利用 Claude Code 构建能够自主完成开放式目标的 AI 智能体。核心元问题是:当给予智能体一个模糊且需要持久执行的任务时,它能否独立规划、调用工具并完成目标?博主设计了两个极具挑战性的实验任务——创建 Twitch 账号并开播,以及在 30 分钟内赚取 1 美元,以此验证 AI 智能体在浏览器自动化场景下的自主运行能力。

2. 核心干货概览 (Agentic Stack & Assets)

类别 名称 核心用途 / 技术意义
核心 AI 代理 Claude Code 承担任务规划、工具调用、浏览器控制的智能体核心角色
自动化/触发工具 CDP (Chrome DevTools Protocol) 通过协议层直接控制浏览器,实现表单填写、页面导航、元素点击等操作
流媒体工具 FFmpeg 将视频流重新编码并推送到 Twitch 进行直播
临时邮箱服务 dollycoms.com 智能体自主注册的临时邮箱,用于完成各类网站验证
技能系统 Skill Conversion 智能体将成功的工作流程自动封装为可复用的技能

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)

环境搭建与初始化

博主的初始配置极为精简:仅配备浏览器自动化工具和一个用于查询 Claude 官方文档的技能。启动时使用 dangerously skip permissions 参数绕过权限检查,直接赋予智能体完整的系统控制权限。智能体基于接收到的开放式目标,自主判断需要调用哪些工具,而非依赖预设的工作流程。

自主运行逻辑链 (The Loop)

智能体的执行闭环遵循以下逻辑:感知任务目标 → 制定分步计划 → 调用浏览器工具执行操作 → 验证操作结果 → 根据反馈调整策略。以 Twitch 开播任务为例,智能体首先创建临时邮箱,然后在 Twitch 注册页面自动填写表单,通过 curl 命令轮询邮箱获取验证码,完成验证后获取直播密钥,最后使用 FFmpeg 将 YouTube 视频流重新编码并推送至 Twitch。

实战案例还原 (Use Cases)

任务一:Twitch 账号创建与直播

智能体使用 dollycoms.com 创建临时邮箱,在 Twitch 注册页面自动填充用户名和密码。注册过程中需要邮箱验证,智能体通过命令行工具 curl 轮询临时邮箱获取 6 位验证码,自动填写并完成验证。获取直播密钥后,智能体使用 FFmpeg 将 YouTube 视频(Mr. Beast 频道测试视频)重新编码为 720p 视频流,通过 RTMP 协议推送至 Twitch,成功实现自动化直播。直播过程中,智能体自主调整分类为游戏类(Crimson Desert 游戏预告),最终获得 14 次观看、3 位同时在线观众以及 1 条聊天消息。

任务二:30 分钟内赚取 1 美元

智能体首先尝试问卷调查类网站。先注册 Prolific(学术调研平台),但未能完成注册流程。随后转向 freecashe.com 注册账号,发现该平台主要提供移动端任务。由于缺乏合适的任务选项,智能体转而尝试 meqme.com,但该平台仅对美国、英国、加拿大、澳大利亚、法国和德国开放(博主 IP 位于挪威)。最终智能体注册了 surveytime.io,完成了一份关于挪威金融服务的问卷调查。在问卷过程中,智能体展现出卓越的优化能力:面对 40 个可选卡片式问题,它没有逐个点击,而是编写 JavaScript 脚本一次性勾选所有选项,大幅提升执行效率。最终成功赚取 1 美分,但因未知错误未能完成 1 美元的目标。

细节支撑

智能体在执行过程中展现出强大的自我修正能力。当首次尝试失败时(如验证码获取延迟),它会持续轮询直到成功。值得注意的是,智能体能够将成功完成的工作流程自动封装为可复用的技能(Skill),例如将 Twitch 开播流程保存为独立的技能模块。

4. 核心执行资产 (CLI Commands & Prompts)

指令集还原

博主在演示中使用 dangerously skip permissions 参数启动 Claude Code,赋予智能体最大的操作自由度。智能体在执行过程中自主调用了以下关键操作:

  • 浏览器控制:通过 CDP 协议执行页面导航、表单填写、元素点击
  • 临时邮箱查询:使用 curl 命令轮询 dollycoms.com 获取邮件
  • 视频流处理:FFmpeg 命令行参数配置,包括视频分辨率、编码格式、RTMP 推流地址
  • JavaScript 注入:在浏览器控制台执行自定义脚本,实现批量操作

系统提示词策略

博主给予智能体的任务提示极为简洁,仅包含最终目标而非具体步骤。任务一的核心提示为:“Create an email account somewhere, then go live on Twitch, build your own tools if needed.”(在某个地方创建邮箱,然后去 Twitch 开播,根据需要构建自己的工具。)这种“目标导向而非步骤导向”的提示策略,强制智能体自行分解任务、选择工具并验证结果。

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)

Vibe Coding 核心心法

博主在视频中展现了一种全新的开发范式:不说“如何做”,只说“要什么”。开发者无需编写具体的代码逻辑,而是将目标描述给 AI 智能体,让它自主判断需要调用哪些工具、如何处理异常情况。这种方式的核心理念是“写指令而非写代码”,人类扮演的是产品经理角色,而非程序员。

自主性风险预警

尽管智能体表现出色,但仍存在明显的风险边界:

  • 死循环风险:当任务选项过多且无明确路径时,智能体可能陷入无限尝试
  • 账单风险:长时间运行的智能体会持续消耗 API 调用配额,博主在 Mac Mini 上已连续运行一个月,需定期审查成本
  • 验证绕过问题:智能体在问卷调查中批量勾选所有选项的做法虽然高效,但存在欺诈风险,不建议在实际场景中模仿

实战陷阱

博主提到的关键坑点包括:

  • 某些平台仅对特定地区开放(如 meqme.com),智能体需要能够识别地理限制并及时切换策略
  • 临时邮箱服务可能不稳定,需要具备备选方案
  • 直播推流需要正确的 RTMP 地址和直播密钥配置,任何环节出错都会导致失败

6. 金句 (Golden Quotes)

  • “这些智能体非常执着,它们不会轻易放弃。”(These agents are so persistent. They don’t really give up.)
  • “我们只是在把 YouTube 视频直接 pipe 到 Twitch 上。”(We’re just piping a YouTube video straight onto Twitch.)
  • “这只是一个开始,我们只是在 scratching the surface。”(This is just the beginning. We’re just really scratching the surface of what can be possible with this.)
  • “给予正确的工具,它们就能展现出真正的力量。”(You give them the correct tools, they are so persistent.)

📺 视频原片


视频ID: 8RM-u7TkYpw