原始标题: Anthropic just dropped Sonnet 4.6
发布日期: 2026-02-17 | 来源频道: @matthew_berman
📝 深度摘要
对话背景与核心主题
Anthropic 发布了全新模型 Claude Sonnet 4.6,这是继 4.5 之后的又一次重大升级。Sonnet 4.6 被定位为 Anthropic 的"主力模型"(workhorse),专门针对知识工作者场景优化。视频详细介绍了新模型的能力提升、基准测试表现以及与竞争对手的对比。
核心逻辑拆解
Sonnet 4.6 在多个关键领域实现了显著提升:
- 编码能力:智能终端编码从 51% 提升至 59%,工具使用从 43.8% 飙升至 61.3%
- 计算机使用:代理计算机使用从 61% 跃升至 72.5%
- 财务分析:以 63 分位列所有模型第一,甚至超越 Opus 4.6
- 办公任务:以 1633 分大幅领先 Opus 4.6
该模型支持 100 万 token 上下文窗口,定价与 4.5 保持一致(输入 $3/百万 token,输出 $15/百万 token),且已成为免费版的默认模型。
方法论与工具箱
Sonnet 4.6 采用"无特殊 API"的设计理念——模型像人类一样通过虚拟鼠标和键盘与计算机交互。它能够创建 PowerPoint、操作 Excel,并支持 MCP(Model Context Protocol)连接器。Anthropic 还引入了自适应推理功能,允许用户动态调整思考 token 的使用量。
其他产品更新包括:
- 上下文压缩(Context Compaction)进入 Beta
- 网页搜索和获取工具可自动编写和执行代码进行结果过滤
- 代码执行、记忆、程序化工具调用等功能正式可用
关键洞察与辩论
视频指出一个有趣的现象:Sonnet 和 Opus 之间的差距正在迅速缩小。Sonnet 4.6 在许多任务上已经与 Opus 4.6 持平或接近,引发了关于模型命名策略的讨论——有人猜测 Anthropic 可能正在训练 Sonnet 5 或 Opus 5,最终决定将其命名为 4.6。
在安全层面,Sonnet 4.6 达到 AI 安全级别 3(ASL-3),对提示注入攻击的抵抗力显著提升,已接近 Opus 4.6 的水平。但 Anthropic 也承认,“自信地排除这些阈值正变得越来越困难”,部分原因在于模型正在接近或超越其评估中的高级能力水平。
金句
- “Sonnet 4.6 是知识工作的绝对主力模型。”
- “在真实世界金融任务中,Sonnet 4.6 仅以约 5 分之差紧随 Opus 4.6 之后。”
- “模型能够像人类一样点击虚拟鼠标、敲击虚拟键盘来与计算机交互。”
- “Sonnet 和 Opus 之间的差异正变得越来越难界定。”
📺 视频原片
视频时长: 12 分钟 | 视频ID: BYxF-svDl8Q