原始标题: Long-Running AI Agent Browser Automation Tasks Is Here

发布日期: 2026-03-05 | 来源频道: @AllAboutAI

📝 深度摘要

1. 对话背景与核心主题

本视频由 AllAboutAI 频道发布，博主演示了如何利用 Claude Code 构建能够自主完成开放式目标的 AI 智能体。核心元问题是：当给予智能体一个模糊且需要持久执行的任务时，它能否独立规划、调用工具并完成目标？博主设计了两个极具挑战性的实验任务——创建 Twitch 账号并开播，以及在 30 分钟内赚取 1 美元，以此验证 AI 智能体在浏览器自动化场景下的自主运行能力。

2. 核心干货概览 (Agentic Stack & Assets)

类别	名称	核心用途 / 技术意义
核心 AI 代理	Claude Code	承担任务规划、工具调用、浏览器控制的智能体核心角色
自动化/触发工具	CDP (Chrome DevTools Protocol)	通过协议层直接控制浏览器，实现表单填写、页面导航、元素点击等操作
流媒体工具	FFmpeg	将视频流重新编码并推送到 Twitch 进行直播
临时邮箱服务	dollycoms.com	智能体自主注册的临时邮箱，用于完成各类网站验证
技能系统	Skill Conversion	智能体将成功的工作流程自动封装为可复用的技能

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)

环境搭建与初始化

博主的初始配置极为精简：仅配备浏览器自动化工具和一个用于查询 Claude 官方文档的技能。启动时使用 dangerously skip permissions 参数绕过权限检查，直接赋予智能体完整的系统控制权限。智能体基于接收到的开放式目标，自主判断需要调用哪些工具，而非依赖预设的工作流程。

自主运行逻辑链 (The Loop)

智能体的执行闭环遵循以下逻辑：感知任务目标 → 制定分步计划 → 调用浏览器工具执行操作 → 验证操作结果 → 根据反馈调整策略。以 Twitch 开播任务为例，智能体首先创建临时邮箱，然后在 Twitch 注册页面自动填写表单，通过 curl 命令轮询邮箱获取验证码，完成验证后获取直播密钥，最后使用 FFmpeg 将 YouTube 视频流重新编码并推送至 Twitch。

实战案例还原 (Use Cases)

任务一：Twitch 账号创建与直播

智能体使用 dollycoms.com 创建临时邮箱，在 Twitch 注册页面自动填充用户名和密码。注册过程中需要邮箱验证，智能体通过命令行工具 curl 轮询临时邮箱获取 6 位验证码，自动填写并完成验证。获取直播密钥后，智能体使用 FFmpeg 将 YouTube 视频（Mr. Beast 频道测试视频）重新编码为 720p 视频流，通过 RTMP 协议推送至 Twitch，成功实现自动化直播。直播过程中，智能体自主调整分类为游戏类（Crimson Desert 游戏预告），最终获得 14 次观看、3 位同时在线观众以及 1 条聊天消息。

任务二：30 分钟内赚取 1 美元

智能体首先尝试问卷调查类网站。先注册 Prolific（学术调研平台），但未能完成注册流程。随后转向 freecashe.com 注册账号，发现该平台主要提供移动端任务。由于缺乏合适的任务选项，智能体转而尝试 meqme.com，但该平台仅对美国、英国、加拿大、澳大利亚、法国和德国开放（博主 IP 位于挪威）。最终智能体注册了 surveytime.io，完成了一份关于挪威金融服务的问卷调查。在问卷过程中，智能体展现出卓越的优化能力：面对 40 个可选卡片式问题，它没有逐个点击，而是编写 JavaScript 脚本一次性勾选所有选项，大幅提升执行效率。最终成功赚取 1 美分，但因未知错误未能完成 1 美元的目标。

细节支撑

智能体在执行过程中展现出强大的自我修正能力。当首次尝试失败时（如验证码获取延迟），它会持续轮询直到成功。值得注意的是，智能体能够将成功完成的工作流程自动封装为可复用的技能（Skill），例如将 Twitch 开播流程保存为独立的技能模块。

4. 核心执行资产 (CLI Commands & Prompts)

指令集还原

博主在演示中使用 dangerously skip permissions 参数启动 Claude Code，赋予智能体最大的操作自由度。智能体在执行过程中自主调用了以下关键操作：

浏览器控制：通过 CDP 协议执行页面导航、表单填写、元素点击
临时邮箱查询：使用 curl 命令轮询 dollycoms.com 获取邮件
视频流处理：FFmpeg 命令行参数配置，包括视频分辨率、编码格式、RTMP 推流地址
JavaScript 注入：在浏览器控制台执行自定义脚本，实现批量操作

系统提示词策略

博主给予智能体的任务提示极为简洁，仅包含最终目标而非具体步骤。任务一的核心提示为：“Create an email account somewhere, then go live on Twitch, build your own tools if needed.”（在某个地方创建邮箱，然后去 Twitch 开播，根据需要构建自己的工具。）这种“目标导向而非步骤导向”的提示策略，强制智能体自行分解任务、选择工具并验证结果。

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)

Vibe Coding 核心心法

博主在视频中展现了一种全新的开发范式：不说“如何做”，只说“要什么”。开发者无需编写具体的代码逻辑，而是将目标描述给 AI 智能体，让它自主判断需要调用哪些工具、如何处理异常情况。这种方式的核心理念是“写指令而非写代码”，人类扮演的是产品经理角色，而非程序员。

自主性风险预警

尽管智能体表现出色，但仍存在明显的风险边界：

死循环风险：当任务选项过多且无明确路径时，智能体可能陷入无限尝试
账单风险：长时间运行的智能体会持续消耗 API 调用配额，博主在 Mac Mini 上已连续运行一个月，需定期审查成本
验证绕过问题：智能体在问卷调查中批量勾选所有选项的做法虽然高效，但存在欺诈风险，不建议在实际场景中模仿

实战陷阱

博主提到的关键坑点包括：

某些平台仅对特定地区开放（如 meqme.com），智能体需要能够识别地理限制并及时切换策略
临时邮箱服务可能不稳定，需要具备备选方案
直播推流需要正确的 RTMP 地址和直播密钥配置，任何环节出错都会导致失败

6. 金句 (Golden Quotes)

“这些智能体非常执着，它们不会轻易放弃。”（These agents are so persistent. They don’t really give up.）
“我们只是在把 YouTube 视频直接 pipe 到 Twitch 上。”（We’re just piping a YouTube video straight onto Twitch.）
“这只是一个开始，我们只是在 scratching the surface。”（This is just the beginning. We’re just really scratching the surface of what can be possible with this.）
“给予正确的工具，它们就能展现出真正的力量。”（You give them the correct tools, they are so persistent.）

📺 视频原片

视频ID: 8RM-u7TkYpw

📝 深度摘要#

1. 对话背景与核心主题#

2. 核心干货概览 (Agentic Stack & Assets)#

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)#

环境搭建与初始化#

自主运行逻辑链 (The Loop)#

实战案例还原 (Use Cases)#

细节支撑#

4. 核心执行资产 (CLI Commands & Prompts)#

指令集还原#

系统提示词策略#

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)#

Vibe Coding 核心心法#

自主性风险预警#

实战陷阱#

6. 金句 (Golden Quotes)#

📺 视频原片#