原始标题: Anthropic just dropped Sonnet 4.6

发布日期: 2026-02-17 | 来源频道: @matthew_berman

📝 深度摘要

对话背景与核心主题

Anthropic 发布了全新模型 Claude Sonnet 4.6,这是继 4.5 之后的又一次重大升级。Sonnet 4.6 被定位为 Anthropic 的"主力模型"(workhorse),专门针对知识工作者场景优化。视频详细介绍了新模型的能力提升、基准测试表现以及与竞争对手的对比。

核心逻辑拆解

Sonnet 4.6 在多个关键领域实现了显著提升:

  • 编码能力:智能终端编码从 51% 提升至 59%,工具使用从 43.8% 飙升至 61.3%
  • 计算机使用:代理计算机使用从 61% 跃升至 72.5%
  • 财务分析:以 63 分位列所有模型第一,甚至超越 Opus 4.6
  • 办公任务:以 1633 分大幅领先 Opus 4.6

该模型支持 100 万 token 上下文窗口,定价与 4.5 保持一致(输入 $3/百万 token,输出 $15/百万 token),且已成为免费版的默认模型。

方法论与工具箱

Sonnet 4.6 采用"无特殊 API"的设计理念——模型像人类一样通过虚拟鼠标和键盘与计算机交互。它能够创建 PowerPoint、操作 Excel,并支持 MCP(Model Context Protocol)连接器。Anthropic 还引入了自适应推理功能,允许用户动态调整思考 token 的使用量。

其他产品更新包括:

  • 上下文压缩(Context Compaction)进入 Beta
  • 网页搜索和获取工具可自动编写和执行代码进行结果过滤
  • 代码执行、记忆、程序化工具调用等功能正式可用

关键洞察与辩论

视频指出一个有趣的现象:Sonnet 和 Opus 之间的差距正在迅速缩小。Sonnet 4.6 在许多任务上已经与 Opus 4.6 持平或接近,引发了关于模型命名策略的讨论——有人猜测 Anthropic 可能正在训练 Sonnet 5 或 Opus 5,最终决定将其命名为 4.6。

在安全层面,Sonnet 4.6 达到 AI 安全级别 3(ASL-3),对提示注入攻击的抵抗力显著提升,已接近 Opus 4.6 的水平。但 Anthropic 也承认,“自信地排除这些阈值正变得越来越困难”,部分原因在于模型正在接近或超越其评估中的高级能力水平。

金句

  • “Sonnet 4.6 是知识工作的绝对主力模型。”
  • “在真实世界金融任务中,Sonnet 4.6 仅以约 5 分之差紧随 Opus 4.6 之后。”
  • “模型能够像人类一样点击虚拟鼠标、敲击虚拟键盘来与计算机交互。”
  • “Sonnet 和 Opus 之间的差异正变得越来越难界定。”

📺 视频原片


视频时长: 12 分钟 | 视频ID: BYxF-svDl8Q