berman_Anthropic发布Sonnet4_6知识工作者的超级引擎

原始标题: Anthropic just dropped Sonnet 4.6

发布日期: 2026-02-17 | 来源频道: @matthew_berman

📝 深度摘要

对话背景与核心主题

Anthropic 发布了全新模型 Claude Sonnet 4.6，这是继 4.5 之后的又一次重大升级。Sonnet 4.6 被定位为 Anthropic 的"主力模型"（workhorse），专门针对知识工作者场景优化。视频详细介绍了新模型的能力提升、基准测试表现以及与竞争对手的对比。

核心逻辑拆解

Sonnet 4.6 在多个关键领域实现了显著提升：

编码能力：智能终端编码从 51% 提升至 59%，工具使用从 43.8% 飙升至 61.3%
计算机使用：代理计算机使用从 61% 跃升至 72.5%
财务分析：以 63 分位列所有模型第一，甚至超越 Opus 4.6
办公任务：以 1633 分大幅领先 Opus 4.6

该模型支持 100 万 token 上下文窗口，定价与 4.5 保持一致（输入 $3/百万 token，输出 $15/百万 token），且已成为免费版的默认模型。

方法论与工具箱

Sonnet 4.6 采用"无特殊 API"的设计理念——模型像人类一样通过虚拟鼠标和键盘与计算机交互。它能够创建 PowerPoint、操作 Excel，并支持 MCP（Model Context Protocol）连接器。Anthropic 还引入了自适应推理功能，允许用户动态调整思考 token 的使用量。

其他产品更新包括：

上下文压缩（Context Compaction）进入 Beta
网页搜索和获取工具可自动编写和执行代码进行结果过滤
代码执行、记忆、程序化工具调用等功能正式可用

关键洞察与辩论

视频指出一个有趣的现象：Sonnet 和 Opus 之间的差距正在迅速缩小。Sonnet 4.6 在许多任务上已经与 Opus 4.6 持平或接近，引发了关于模型命名策略的讨论——有人猜测 Anthropic 可能正在训练 Sonnet 5 或 Opus 5，最终决定将其命名为 4.6。

在安全层面，Sonnet 4.6 达到 AI 安全级别 3（ASL-3），对提示注入攻击的抵抗力显著提升，已接近 Opus 4.6 的水平。但 Anthropic 也承认，“自信地排除这些阈值正变得越来越困难”，部分原因在于模型正在接近或超越其评估中的高级能力水平。

金句

“Sonnet 4.6 是知识工作的绝对主力模型。”
“在真实世界金融任务中，Sonnet 4.6 仅以约 5 分之差紧随 Opus 4.6 之后。”
“模型能够像人类一样点击虚拟鼠标、敲击虚拟键盘来与计算机交互。”
“Sonnet 和 Opus 之间的差异正变得越来越难界定。”

📺 视频原片

视频时长: 12 分钟 | 视频ID: BYxF-svDl8Q

对话背景与核心主题#

核心逻辑拆解#

方法论与工具箱#

关键洞察与辩论#

金句#

对话背景与核心主题

核心逻辑拆解

方法论与工具箱

关键洞察与辩论

金句