第201期：Anthropic vs. Pentagon 第二轮、AI就业影响研究、服务即新软件与GPT-5.4

原始标题: #201: Anthropic vs. Pentagon Round 2, AI Job Impact Study, Services as the New Software & GPT-5.4

发布日期: 2026-03-10 | 来源频道: @ai-show

📝 深度摘要

1. 播客背景与宏观基调

集数与主题：第 201 期——Anthropic 与五角大楼第二轮博弈、AI 就业影响研究、“服务即软件"新范式与 GPT-5.4 发布
核心情绪/基调：对 AI 替代白领岗位的极度紧迫感 + 对大厂间政治与算力博弈的高度警惕。Paul 直言：“这些事情正在变得非常好、非常快，而且它不仅会在今年发生在程序员身上，它将开始发生在所有人身上。”
AI Pulse 民意调查：本期听众调查共 91 人响应。问题一：Anthropic 与五角大楼在 AI 安全红线上的争议，62% 认为 Anthropetic 正确坚守自主武器和大规模监控底线，即使以失去政府合约为代价；18% 认为红线合理但应更安静地谈判；16.5% 认为这主要是政治权力博弈而非真正的安全辩论。问题二：Block 近半数员工裁员并归因 AI，44% 认为裁员真实但速度会比标题慢；29% 认为主要是疫情过度招聘的纠正，AI 是便利的叙事；25% 认为这是 AI 驱动裁员浪潮的开始。合并 44% + 25% = 69%，显示听众倾向于认为"这是真的，正在发生”。

2. 核心洞察与高管摘要 (Executive Matrix)

维度	核心动态 / 关键节点	商业与行业颠覆性意义
底层模型/基建	GPT-5.4 发布（2026年3月5日），含标准版、思考版（Reasoning）和专业版（Pro）；首个在 OSWorld Verified 基准上原生超越人类表现的通用 AI 模型，得分 75%（人类基准 72.4%）；GPT-5.2 得分仅 47.3%	百万 token 上下文窗口 + 工具搜索功能（token 消耗降低 47%）；意味着企业级 AI 部署从"辅助"转向"自主执行"；模型能力跃迁进入新阶段
行业/宏观经济	Anthropic 就业影响研究：AI 理论上可覆盖知识工作者 94% 的任务，但实际 Claude 仅覆盖 33%；最高暴露岗位从业者收入比平均工人高 47%；Gen Z（22-25岁）进入暴露岗位的求职率较 2022 年下降 14%	白领岗位而非蓝领将首先被颠覆；传统 SaaS 正在被"服务即软件"取代；知识工作劳动力市场是美国软件收入的 10 倍（4-5 万亿 vs. 3000-5000 亿）
硬核指标/数据	Sequoia 合伙人 Julian Beck 预测：保险经纪 1400-2000 亿美元年薪池；会计 500-800 亿美元；医疗收入周期 500-800 亿美元；招聘 2000+ 亿美元；管理咨询 3000-4000 亿美元；金融与保险职位空缺降至 1.9%，为本世纪最低	软件 1 美元对应服务 6 美元的市场结构；下一个万亿级公司将是"伪装成服务公司的软件公司"；金融业职位空缺较 2022 年峰值下降 75%

3. 深度话题解析 (Main Topics Deep Dive)

📌 议题一：Anthropic 与五角大楼的第二轮博弈——AI 安全护栏与国家机器的冲突

底层矛盾与背景：2026 年 3 月 4 日，美国国防部正式将 Anthropic 列为"供应链风险"（Supply Chain Risk），这是首次有美国公司获得通常仅针对外国对手的标签。起因是 Anthropic 创始人 Dario Amodei 拒绝将 Claude 用于大规模国内监控或完全自主武器。国防部长 Pete Hegseth 曾发出最后通牒。财政部、国务院、卫生与公众服务部（HHS）相继宣布停止使用 Anthropic 产品。但荒谬的是，美国军方仍在实战中使用 Claude——Palantir 的 Maven 智能系统依赖 Claude 在伊朗行动的前 24 小时内识别了超过 1000 个目标，甚至可能参与了一次导致 150 名儿童死亡的目标选择。
利益链与逻辑推演：
- 资本政治维度：Amodei 在被泄露的内部备忘录中指控 OpenAI 与五角大楼的交易是"80% 的安全 theater"，指责 OpenAI 对特朗普总统进行"独裁式赞美"。Amodei 指出 Anthropic 未向特朗普捐款，而 OpenAI 总裁 Greg Brockman 及其妻子 Anna 是共和党超级 PAC 的主要捐助者。政治献金差异是此次冲突的深层原因之一。
- 技术依赖困境：五角大楼副部长 Emil Michael 在 All-In 播客中透露，在 1 月份捕获委内瑞拉独裁者马杜罗的军事行动后，Anthropic 询问 Palantir 该行动是否使用了 Claude，这让五角大楼意识到他们完全依赖单一 AI 提供商——如果因安全护栏或伦理反对突然断供，作战人员将陷入困境。这一"Whac-A-Mole"时刻促使政府急于寻找替代方案。
- 各方动态：OpenAI 因匆忙与五角大楼达成交易而失去员工——Caitlin Kalinowski（机器人负责人）公开辞职，理由是监控和致命自主权是需要更多 deliberation 的红线。Sam Altman 在全员会议上承认交易看起来"机会主义且草率"。Anthropic 仍表示愿在过渡期以名义成本继续向军方提供 Claude，以确保前线作战人员不被剥夺工具。
对商业生态的影响：
- 企业采购决策：AWS、Google Cloud、Microsoft 纷纷澄清，其云客户仍可访问 Claude，禁令仅限于政府特定用例。这一定义（窄化 vs. 宽化）将影响企业如何评估 AI 供应商风险。
- 行业话语权：这是 AI 实验室首次在国家安全层面被"点名"，预示着未来 AI 公司可能面临更多类似的合规审查。
- 公众情绪：NBC 新闻 poll 显示 AI sentiment（公众情绪）为 -20（负面高于正面 20 点），仅高于民主党（-22）和伊朗（-53），低于特朗普（-12）、共和党（-14）、ICE（-18）。这是政治人物首次将 AI 纳入选民情绪调查，反映出 AI 正在成为选举议题。

📌 议题二：AI 对白领工作的量化冲击——从理论到现实的巨大鸿沟

核心痛点/趋势：Anthropic 发布研究报告，推出新指标"观察到的暴露"（Observed Exposure），将理论 LLM 能力与 Claude 实际使用数据对比。最大发现：理论 vs 现实存在巨大鸿沟——AI 理论上可处理 94% 的知识工作任务，但实际仅覆盖 33%。这一鸿沟正在缩小，而首当其冲的群体出人意料：不是体力劳动者，而是高学历、高收入人群。
数据与事实支撑：
- 人口统计学特征：最高暴露岗位从业者收入比平均工人高 47%；女性占比高 16 个百分点；拥有研究生学位的可能性是未暴露岗位的近 4 倍。
- 职业暴露排名：计算机程序员（75% 任务被 AI 覆盖）排名第一，其次是客服代表和数据录入员。大约 30% 的工人（如厨师、机修工、救生员）零暴露。
- 早期预警信号：自 2022 年 ChatGPT 发布以来，高暴露白领工人尚未出现系统性失业增加，但 Gen Z（22-25 岁）进入这些暴露岗位的求职率下降了约 14%——公司虽未大规模裁员，但已大幅放缓入门级招聘。
- 历史对比：与 2023 年 OpenAI 的 GDP Val 基准（衡量模型在经济价值任务上的表现）一脉相承，Anthropic 此次研究将 ONET 数据库（800 个职业、每个职业分解为 20-25 个任务）作为分析框架，与 Paul 早期构建的 Jobs GPT 工具方法论一致。
主播的独家洞察：
- Paul 援引与 Andrew Yang 的对话，提出"社会契约"问题：如果 AI 打破"努力工作→获得工作→养家糊口"的传统契约，社会将如何应对？AI 带来的生产力收益应归谁？雇主使用 AI 替代人力的责任边界在哪里？一份 AI 时代的社会契约应包括：工人获得培训和适应机会；公司更广泛地分享生产力收益；AI 用于增强人类而非仅替代；影响生计的决策仍由人类负责；社会加强过渡期的安全网。
- Paul 坦言：“我接触过很多高管、企业家、政府领导人。没有人想裁员。但有些 CEO 会被迫裁员。“他甚至提出一个激进想法：对自动化征"AI 税”——如果公司声称因 AI 裁员 4000 人，除失业金外还需支付 AI 税。

📌 议题三：服务即软件——下一个万亿公司的诞生范式

核心痛点/趋势：Sequoia 合伙人 Julian Beck 预测：下一个价值万亿美元的公司不会是传统软件提供商，而是因 AI 赋能而"伪装成服务公司的软件公司”。过去 AI 公司做的是"副驾驶"（Copilot）——卖给专业人士一个工具与其协同工作；而现在模型足够聪明，可以作为"自动驾驶"（Autopilot）直接向买家出售最终工作成果。
数据与事实支撑：
- 市场数学：每在软件上花费 1 美元，就在服务上花费 6 美元。例如，公司可能在会计软件 QuickBooks 上花费 1 万美元，但支付 12 万美元给人类会计来使用它。下一个"传奇公司"将直接帮你结账。
- 垂直领域 TAM：保险经纪（1400-2000 亿美元年薪）、会计（500-800 亿美元）、医疗收入周期（500-800 亿美元）、招聘（2000+ 亿美元）、管理咨询（3000-4000 亿美元）。
- AI 代理部署现状：软件工程占所有 AI 工具使用量的 49.7%，遥遥领先；其次是后台自动化 9%、其他 7%；营销文案 4%、销售 CRM 4%、财务会计 4%、学术研究 2.8%。
- “判断"将成为明天的"智能”：随着 AI 系统积累特定领域的专有数据，判断能力将从人类转移到 AI。现状是 copilot 阶段（人+AI 协作），未来是 autopilot 阶段（AI 自主完成）。
- ** Outsourcing as Wedge（外包作为切入点）**：如果一项任务已被外包，说明公司已接受它可以外部完成、已有可替代的预算线、买家已在购买结果。替换外包合同是"供应商替换"（简单），替换人头是"组织重组"（复杂）。最佳策略是从已外包的智力密集型任务切入。
主播的独家洞察：
- Paul 指出：“软件行业年收入约 3000-5000 亿美元，知识工作者年薪 4-5 万亿美元——后者是前者的 10 倍。这是 VC 会投资的更大市场。”
- 以会计为例：美国过去 5 年失去了约 34 万名会计师，75% 的 CPA 即将退休，起薪落后于科技和金融。这种结构性短缺正在推动该行业比几乎任何其他职业更快地接受 AI。
- Cursor 的例子：用户最初将 AI 当作自动补全工具使用，如今由 AI agent 启动的任务多于人类。软件工程首先到达"自动驾驶"临界点，所有其他职业将随之而来。

4. 实操案例与工具箱 (AI in Action & Tools)

核心工具链：
- GPT-5.4（标准版/思考版/专业版）+ Claude 4.6 + Gemini——Paul 在高价值战略任务中通常同时测试至少三个模型，以 5.4 为例，他会测试 5.4 思考版和 5.4 专业版，并对比有无自定义 GPT。
- Claude Co-Work——可在 20 分钟 demo 中展示其作为自主工作助手的能力。
- Microsoft Copilot Co-Work（基于 workIQ 系统）——预计 2026 年 3 月底全面推出，可接管日历分类、邮件处理、生成客户会议简报等。
实战工作流 (Workflow/SOP)：
- 多模型交叉验证：Paul 在处理高价值任务时，会让多个模型交叉比对以建立"Success Score"。他建议：为每个新模型建立 3-5 个核心评估（eval）指标，定期测试。
- Jobs GPT 工具：访问 smarterx.ai/jobs-gpt，输入任何工作标题，它会将该工作分解为任务，为每个任务分配暴露级别（基于 11 个要素的暴露密钥：语音能力、高级推理、说服力、数字世界行动、AI agent、物理世界行动等）。
效率增益评估：
- Paul 分享：他用 GPT-5.4 完成了一个通常需要外包数万美元的任务，在接孩子的 3 分钟内完成。虽然未与 Claude 4.6 对比，但"极其令人印象深刻"。

5. 快讯与散点观点 (Rapid Fire Intelligence)

GPT-5.4 基准炸裂：
- 硬核事实：首个通用 AI 模型在 OSWorld Verified 上原生超越人类（75% vs 72.4%）；GDP Val 基准（44 个职业知识工作）中匹配或超越行业专业人员 83% 的时间；ARC AGI 2 抽象推理得分从 52.9% 跃升至 73.3%；首个在网络安全领域获得高能力的通用推理模型。
- 商业启示：模型能力正在以"指数级"速度逼近人类专业水平，三年前 GPT-4 发布时这些基准甚至不存在。企业如果还在用"免费版 ChatGPT"，相当于在智能手机时代坚持用翻盖手机。
数学家 Bartosz Naskarecki 的"个人奇点"：
- 硬核事实：这位曾称 AI 为"高级计算器"的波兰数学家，如今称其"个人奇点已到来"。他设计的 Frontier Math 第四层问题（基于其 15-20 年研究、13 页解答）被 GPT-5.4 Pro 破解——AI 首次解决此类问题。他称解决方案"非常漂亮、干净，感觉几乎是人类的"，比作 AlphaGo 的第 37 手。2025 年中期仅 3 道第四层题被解决；如今 42% 被至少破解一次。
- 商业启示：AI 开始展现"真正的创造性洞察"，而不仅是计算能力。这意味着科学发现、新知识创造可能正在加速。
Ethan Mollick 的"采用鸿沟"：
- 硬核事实：Wharton 教授指出，同一行业的两家公司——一家已使用 AI 18 个月，另一家仍需委员会逐个审批用例。决定因素是高管是否愿意承担风险。“这是领导力问题。”
- 商业启示：人类摩擦是企业采用 AI 的最大障碍——人们低估了企业内部推行 AI 的阻力。
OpenClaw 的爆发与争议：
- 硬核事实：Jensen Huang 称其为"可能是历来最重要的软件发布"。发布后两周内获 145,000 GitHub stars，单周 200 万访问。由奥地利开发者 Peter Steinberger 一小时内原型化，已获 OpenAI 高薪 offer。但安全专家警告：“如果你不介意所有数据泄露到互联网，就用它。没有人认为自己的设置是 100% 安全的。”
- 商业启示：Agent 工具的潜力巨大，但安全风险尚未解决。Paul 选择暂不使用：“我会等它安全后再尝试。”
AI 与新闻业的冲突：
- 硬核事实：Associated Press 高级 AI 产品经理 Amy Reinhart 在内部Slack称"抵抗是徒劳的"，建议记者只负责收集报价，让 LLM 写故事。记者反击称这是"侮辱和令人厌恶的"。AP 官方与该言论划清界限。
- 商业启示：新闻业对 AI 的抵触源于职业认同——记者从业是因为相信故事的力量，而非仅为了谋生。AI 正在剥夺这一核心意义。
AI 版权案件：
- 硬核事实：美国最高法院拒绝审理 Steven Thaler 案——他试图为 AI 生成图像注册版权。版权办公室裁决"人类作者身份是版权的基本要求"，下级法院裁决维持。
- 商业启示：纯 AI 生成内容无法获得版权，但人类参与创作的作品仍可保护。这一定位是行业的起点而非终点。
Meta Ray-Ban 智能眼镜隐私诉讼：
- 硬核事实：Meta 去年售出超过 700 万副 Ray-Ban 智能眼镜，营销承诺"隐私设计"。瑞典媒体调查揭露：眼镜拍摄的画面被routine 送往肯尼亚外包公司进行人工审查，包括用户在浴室脱衣、性行为等高度敏感内容。用户无法选择退出这一数据管道。
- 商业启示：AI 训练的现实是——人类必须审查内容。你在智能设备上的一切都可能被他人观看。

6. 给职场人与企业的行动指南 (Actionable SOPs & Strategy)

🎯 高管/CXO 战略部署：
- 设立"创新沙盒"：选择 1-2 个非敏感业务场景（如市场营销文案、内部知识库整理），授权团队在受控环境下快速测试 AI，绕过冗长的 IT/法务审批流程。用实际成果而非概念证明来推动组织变革。
- 建立企业级评估（Eval）体系：定义 3-5 个核心业务指标，每次新模型发布时进行基准测试。例如：客户响应时间、内容生成准确率、代码缺陷率。Paul 强调：“知道你正在测试什么比测试本身更重要。”
- 重新审视外包组合：盘点公司现有外包合同，将已可 AI 化的任务标记为优先替代目标。替换外包合同是"供应商替换"（简单），替换人头是"组织重组"（复杂）。
🛠️ 一线负责人战术落地：
- 用 AI 原生工具替代入门级重复任务：如用 Claude/GPT 处理数据清洗、会议纪要生成、基础文案撰写。将节省的时间重新分配给需要人类判断的高价值任务。
- 建立内部 Prompt/技能文档库：将团队中有效的 Prompt 模式、失败教训整理成知识库。Paul 建议：记录每次模型更新的"语气变化"，及时微调。
- 从 outsourced 任务切入：如果你的工作已被外包给第三方，那是 AI 替代的最佳起点——公司已有预算且接受外部执行。
🧠 认知重塑：
- 从"购买软件席位"转向"购买 Agent 产出"：传统 SaaS 按席位收费；未来按 AI 完成任务的结果付费。理解这一转变是制定下一代 AI 采购策略的关键。
- 接受"AI 是协作者而非替代者"的过渡期现实：正如 Tesla 的 FSD 仍需人类在关键时刻接管，copilot 到 autopilot 的转变不是一蹴而就。今天的 copilot 明天的 autopilot——但转型期间，人类仍是"AI 调度枢纽"。
- 理解"社会契约"正在被重新定义：AI 带来的生产力收益如何分配将成为企业和政策制定者的核心议题。提前思考你的组织在这一新契约中的位置。

7. 专家洞察与风险边界 (Insights & Boundaries)

非共识结论：
- 知识工作者不会马上被全盘替代：尽管 AI 能力快速提升，但企业内部的"人类摩擦"——IT/法务阻挠、员工抵触、流程惯性——是巨大的采用障碍。Wharton 教授 Ethan Mollick 指出，同一行业的公司可能一家已使用 AI 18 个月，另一家仍在组建委员会审批用例。差距不是技术，而是领导层的风险意愿。
- AI 采用将是"不均匀分布"的：Paul 在 2023 年提出的"AI 不均匀分布定律"至今仍有效。AI 的影响和收益将因个人、公司和行业而不均匀分配——有时是你的选择，有时是制度设计的结果。
局限性与风险预警：
- Agent 工具的"脱轨"风险：OpenClaw 的安全争议表明，AI agent 可自主执行任务，但也可能自主泄露数据。Allie K. Miller 引述安全专家：“如果你不介意所有数据泄露到互联网，就用它。”
- 幻觉与验证需求：即使是 GPT-5.4，仍需人类验证关键输出。Paul 建议对高价值任务使用多模型交叉验证。
- 企业内部 AI 推广的人际摩擦：当 AI 威胁到员工的核心职业认同时（如记者被告知只需"收集报价"），抵制情绪会非常强烈。这可能导致核心人才流失。
- 公众情绪的负面趋势：NBC 调查显示 AI sentiment 为 -20，且首次出现在政治民调中。如果 AI 负面情绪与失业担忧叠加，可能引发政策反弹。

8. 核心金句 (Golden Quotes)

“如果你还在用免费版 ChatGPT，就像在智能手机时代坚持使用翻盖手机评估科技发展。”
“模型不仅没有减轻工作量，反而加剧了工作强度，因为现在的知识工作者成了 AI 的调度枢纽。”
“这些 things are getting really good, really fast, and it’s not just going to be happening to computer programmers this year. It’s going to start happening to everybody else.”
“Looking backwards isn’t going to tell us anywhere about where we’re going. The data isn’t going to show the impact yet.”
“No one wants to fire people. But there are going to be CEOs forced to do it.”
“If AI creates enormous value, what do people owe one another so that progress benefits more than just a few?”
“Today’s judgment will become tomorrow’s intelligence. As AI systems accumulate proprietary data about what good judgment looks like in their domain, the frontier will shift.”

📺 播客地址

播客时长: 85分钟

1. 播客背景与宏观基调#

2. 核心洞察与高管摘要 (Executive Matrix)#

3. 深度话题解析 (Main Topics Deep Dive)#

📌 议题一：Anthropic 与五角大楼的第二轮博弈——AI 安全护栏与国家机器的冲突#

📌 议题二：AI 对白领工作的量化冲击——从理论到现实的巨大鸿沟#

📌 议题三：服务即软件——下一个万亿公司的诞生范式#

4. 实操案例与工具箱 (AI in Action & Tools)#

5. 快讯与散点观点 (Rapid Fire Intelligence)#

6. 给职场人与企业的行动指南 (Actionable SOPs & Strategy)#

7. 专家洞察与风险边界 (Insights & Boundaries)#

8. 核心金句 (Golden Quotes)#

1. 播客背景与宏观基调

2. 核心洞察与高管摘要 (Executive Matrix)

3. 深度话题解析 (Main Topics Deep Dive)

📌 议题一：Anthropic 与五角大楼的第二轮博弈——AI 安全护栏与国家机器的冲突

📌 议题二：AI 对白领工作的量化冲击——从理论到现实的巨大鸿沟

📌 议题三：服务即软件——下一个万亿公司的诞生范式

4. 实操案例与工具箱 (AI in Action & Tools)

5. 快讯与散点观点 (Rapid Fire Intelligence)

6. 给职场人与企业的行动指南 (Actionable SOPs & Strategy)

7. 专家洞察与风险边界 (Insights & Boundaries)

8. 核心金句 (Golden Quotes)