原始标题: Did My Claude Code AI Agent Automate a Six Figure Job?

发布日期: 2026-02-17 | 来源频道: @AllAboutAI

📝 深度摘要

1. 对话背景与核心主题

本次视频的博主在 Mac Mini 上运行 Claude Code AI Agent,探索将 AI 智能体应用于真实工作场景的可能性。核心元问题是:AI 智能体能否替代人类执行六位数年薪工作中的日常会计任务? 博主选择了一个极具代表性的实战场景——自动化发票处理流程,包括从 Gmail 提取 PDF 发票、导入第三方会计软件(accounting.com)、创建新发票并通过邮件发送给客户。整个演示完全基于浏览器自动化,无需编写任何 API 接口,展示了 AI Agent 在"无人值守"环境下完成多步骤业务流程的潜力。

2. 核心干货概览 (Agentic Stack & Assets)

类别 名称 核心用途 / 技术意义
核心 AI 代理 Claude Code 在 Mac Mini 上运行,负责任务规划、浏览器控制、技能调用
自动化/触发工具 Skills(skills.md / skill.md) 定义 AI Agent 可调用的技能集,支持工作流持久化
浏览器自动化 Chrome 浏览器 + CDP 协议 通过 CDP 脚本实现无 API 式的网页操作控制
集成技能 #1 Gmail Skill 赋予 Agent 读取邮件、下载附件、编写发送邮件的能力
集成技能 #2 Accounting Skill 赋予 Agent 操作会计软件(accounting.com)的能力,包括创建发票、供应商录入、账单管理等
测试平台 accounting.com 免费的在线会计软件,用于构建测试环境

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)

环境搭建与初始化

博主的运行环境构建在 Mac Mini 之上,核心依赖包括:

  • Claude Code:作为主 AI 代理引擎,负责接收自然语言指令并分解为可执行的操作步骤
  • Cloud Code:提供本地代码执行环境,支持 Skills 系统的加载与运行
  • Skills 系统:通过 skills.mdskill.md 文件定义 Agent 可用的技能模块。每个技能包含该技能的功能描述、操作步骤、CDP 脚本指令等元信息
  • Chrome 浏览器 + CDP 协议:Agent 通过 CDP(Chrome DevTools Protocol)脚本控制浏览器执行点击、输入、截图、文件下载等操作

初始化流程演示:

  1. 在 Claude Code 中打开 Skills 面板,可见已训练的技能列表(X Skill、React Video Skill、Coding Skills、Accounting Skill 等)
  2. 博主提前创建了 accounting.com 测试账户,并设置了三封包含 PDF 发票附件的测试邮件到 Agent 的 Gmail 邮箱
  3. Gmail 中预先准备了三个模拟发票:AI Agent Julie 的 $500 账单、All About AI 的 $1,000 赞助费等

自主运行逻辑链 (The Loop)

AI Agent 的自主运行遵循典型的感知-决策-执行-反馈闭环:

  1. 任务感知:Agent 接收自然语言指令(如"创建一张给 All About AI 的 $1,000 赞助费发票,通过 Gmail 发送")
  2. 技能匹配:Agent 分析任务需求,自动匹配对应的 Skills(Accounting Skill + Gmail Skill)
  3. CDP 脚本生成:Agent 根据目标网页结构生成 CDP 操作脚本(如 click(selector), type(text), screenshot() 等)
  4. 浏览器执行:通过 CDP 协议控制 Chrome 浏览器逐项执行操作
  5. 视觉反馈:Agent 对网页进行截图分析,识别 UI 元素和操作结果,判断是否需要调整下一步行动
  6. 技能更新:任务完成后,Agent 可将完整工作流更新到 Skill 中,下次执行同类任务时实现"一次训练,长期复用"

实战案例还原 (Use Cases)

案例一:创建并发送发票

任务指令:Create a draft invoice for customer All About AI $1,000 job for a sponsorship. Use the accountant skill.

执行过程:

  • Agent 加载 Accounting Skill,生成 CDP 脚本
  • 自动导航至 accounting.com → Sales Invoices → New Invoice
  • 选择客户 “All About AI”(已存在的客户记录)
  • 添加商品项目:Video Sponsorship,数量 1,单价 $1,000
  • 系统自动将金额转换为 cents(100,000)进行存储
  • 保存为草稿(Draft)状态
  • 应博主后续指令,Agent 下载该发票 PDF
  • 切换至 Gmail,使用 Gmail Skill 创建新邮件
  • 自动填充收件人、主题(“Invoice January 2024 - Sponsorship”)、正文(“Please find the attached invoice. Best, EJ $1,000”)
  • 上传 PDF 附件并发送

关键观察:Agent 在执行过程中展现了对两个技能的无缝衔接能力,CDP 脚本能够准确定位网页元素(如 “Add New Item”、“Compose” 按钮),并正确处理文件上传场景。

案例二:从邮件提取发票信息并录入账单

任务指令:Check our email if we have any invoices that needs to be logged as bills in our accounting software. Use the Gmail skill and the accounting skill.

执行过程:

  • Agent 使用 Gmail Skill 打开收件箱,识别三封包含发票附件的邮件
  • 对第一封邮件(AI Agent Julie,$500)进行截图分析,提取供应商名称和金额
  • 切换至 Accounting Skill,进入 Bills 模块
  • 自动创建新供应商:点击 “New Vendor”,输入供应商名称 “AI Agent Julie”(包含空格)
  • 填写账单信息:Due Date 设置为 2024-03-17,Order Number 设为 100
  • 添加商品行:10 个 Claude Code 账号,$50/个 = $500
  • 保存为草稿(Draft)状态
  • 博主加速演示后续两个发票的录入过程

最终结果:Dashboard 显示 $1,700 未付账单总额,与三个发票金额之和($500 + $1,000 + $200)匹配。

细节支撑

  • 金额处理:系统内部使用"分"作为最小单位(100 cents = $1),Agent 正确处理了这一转换
  • 重复项处理:在创建发票时曾出现添加了两次商品行的情况,Agent 通过截图识别后手动删除了重复项
  • 技能持久化:完成首次工作流后,博主指令 Agent “Update the accounting skill with the workflow you use to create this and send invoice via Gmail”,系统自动将完整的操作序列保存到 Skill 中,下次执行同类任务时可直接调用
  • 无需 API:整个流程完全基于浏览器自动化,未使用任何第三方会计软件的 API 接口

4. 核心执行资产 (CLI Commands & Prompts)

博主在视频中未直接展示具体 CLI 终端命令,但通过自然语言交互展示了关键的 Prompt 策略。

关键 Prompt 策略

发票创建指令

Create a draft invoice for the customer All About AI $1,000 job for a sponsorship. Use the accountant skill.

发票发送指令

Send this to another Gmail address. Attach the invoice. Use the Gmail skill for this. Add a fitting text subject line.

工作流固化指令

Update the accounting skill with the workflow you use to create this and send invoice via Gmail so we save time the next time we're going to do this.

多技能联合任务指令

Check our email if we have any invoices that needs to be logged as bills in our accounting software. If we do, execute this, use the Gmail skill and the accounting skill.

Dashboard 查询指令

Use the accounting skill and go to dashboard just to see if the dashboard was updated.

核心执行逻辑

  • Agent 依赖 Skills 系统中的 CDP 脚本执行浏览器操作
  • 截图(screenshot())是 Agent 获取环境反馈的核心手段,用于验证操作结果和决策下一步行动
  • Skills 的"Update"机制实现了工作流的自我学习和复用

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)

Vibe Coding 核心心法

博主在整场演示中贯彻了"写指令而非写代码"的核心理念。整个过程中:

  • 零代码编写:所有操作均通过自然语言指令完成,Agent 自行生成 CDP 脚本
  • 意图驱动:开发者只需描述"做什么"(What),而不必关心"怎么做"(How)
  • 技能资产化:完成的工作流可随时固化到 Skills 中,形成可复用的数字资产

博主明确表示,这种方式意味着无需 API 即可实现"会计任务自动化",这对中小型企业的日常运营具有极高的实用价值。

自主性风险预警

尽管演示过程异常顺畅,博主仍提出了关键的风险警示:

  • 信任边界:目前阶段,博主表示"我不会完全信任它处理我所有的发票和会计工作",但可以将其用于"把发票放入草稿箱以便人工审核"的半自动化场景
  • 错误恢复:演示中 Agent 出现了添加重复商品行的情况,需要人工干预或 Agent 自行截图发现后修正
  • 成本考量:虽然视频未提及具体 Token 消耗,但长时间运行的 Agent 会持续消耗 API 额度,需设置预算上限

实战陷阱

  • 字段格式:金额需要以"分"为单位输入(如 $1,000 = 100,000 cents),否则会导致数据错误
  • UI 状态依赖:CDP 脚本高度依赖网页的 DOM 结构,网页更新可能导致脚本失效,需要定期重新训练
  • 附件处理:从会计软件下载 PDF 并作为邮件附件发送,需要 Agent 理解本地文件系统的临时存储路径,视频中 Agent 正确将下载的文件附加到 Gmail

6. 金句 (Golden Quotes)

  • “We’re going to use the browser-based automation system. This means no API to actually execute some more of like accounting tasks.” (我们将使用基于浏览器的自动化系统。这意味着无需 API 就能执行各类会计任务。)

  • “That was surprisingly easy, right? And you can see it’s pretty fast.” (这出乎意料地简单,不是吗?而且速度还挺快。)

  • “I’m not sure if I trust this to handle all my invoices and to do all my accounting yet, but it is doing a really good job.” (我还不确定是否放心让它处理我所有的发票和会计工作,但它确实做得非常出色。)

  • “I could just put them in draft so I can just review them and approve them. That would at least save me some time.” (我可以让它把发票放入草稿箱,这样我可以审核后再批准。至少能省下不少时间。)


📺 视频原片


视频ID: 7lyU_CKp3WA