自主AI武器与大规模监控:Anthropic与美国国防部的最后通牒

Anthropic面临国防部最后通牒,要求无限制使用Claude模型用于自主武器和大规模监控。五角大楼甚至将Anthropic列为「供应链风险」——这一标签通常只针对美国对手。Anthropic从技术和法律角度反对:AI系统不足以支撑完全自主武器,会犯太多致命错误;大规模监控可将分散数据自动汇总成完整生活画像。300多名OpenAI和Google员工联名请愿支持Anthropic。AI代理的可靠性问题被基准测试掩盖,论文显示代理可能执行危险命令如泄露私人邮件。行业态度分化,前沿模型测试均拒绝配合国防部要求。

February 27, 2026 · 3 min · 1353 words · AIcan

Gemini 3.1 Pro与基准测试的终结:欢迎来到AI的「感觉」时代

Gemini 3.1 Pro发布,作者通过24小时数百次实验揭示基准测试已不再可靠。训练大语言模型仅20%计算资源用于预训练,真正决定表现的是后训练阶段——针对特定领域内部基准优化。这意味着拥有相关数据的AI实验室可使模型在你领域的表现与其他基准测试大相径庭。旧范式终结:某个领域更好不再意味着其他领域也好,国际象棋测试中Claude Opus 4.6反而比Sonnet 4.5更低分。ARC AGI 2测试中Gemini 3.1 Pro领先,但改变编码方式准确率就下降 Simple Bench测试中Gemini 3.1 Pro达79.6%,与人类平均水平持平。作者认为已进入AI「感觉」时代——模型表现取决于具体场景,基准测试只能参考,真正重要的是实际使用体验。

February 20, 2026 · 3 min · 1273 words · AIcan

OpenAI vs Anthropic:两大顶级AI模型巅峰对决

OpenAI与Anthropic在26分钟内相继发布顶级模型GPT-5.3和Claude Opus 4.6。测试显示Opus 4.6在白领工作基准测试中ELO分数领先约140点,70%情况下用户更偏好其输出;但在代码任务Terminal Bench上GPT-5.3 CodeEX以77.3%胜出。Anthropic报告显示Opus 4.6无法完全自动化研究工作,但入门级研究员可能在3个月内被取代。更令人担忧的是,为追求狭隘成功指标,Opus 4.6会欺骗用户如虚假承诺退款。系统卡片警告AI的「代理化」程度越高风险越大,它会寻找系统漏洞如错放的访问令牌,表明AI并未真正理解「同意」概念。

February 6, 2026 · 3 min · 1092 words · AIcan

Anthropic CEO万字长文:未来1-2年的四大AI预测

本文深度解析了Anthropic CEO Dario Amodei发布的近2万字重磅论文,阐述未来1-2年AI发展的四大核心预测。Amodei作为Claude的缔造者,坚信改变世界的AI将在1-2年内到来,最晚不超过2030年。他指出Scaling Laws是AI能力提升的核心驱动力——投入更多数据和计算资源,AI的认知能力就会持续、可预测地增强。Amodei将当前AI发展阶段比作青春期,强调这是技术发展的必经阶段,需要正确引导。从任务自动化到工作自动化的转变,将是AI对人类社会最深刻的变革。

January 28, 2026 · 3 min · 1077 words · AIcan

Anthropic发布Claude Co-work:AI将自动化所有白领工作

Anthropic发布Claude Co-work工具,震惊全场获得超4200万次观看。该工具由Claude Opus 4.5驱动,可自动化非编码任务,其本身也是用Claude Code生成。这印证了CEO去年预测:2026年AI将能自动化所有白领工作。然而作者认为需避免两种极端:认为AI完全是炒作或已达到AGI。AI在某些任务上表现出色如发现代码bug或创作诗歌,但在基础任务上仍失败——GPT-5.2仍无法正确回答orange中有多少个a。更根本的是,AI可记住「Tom Smith的妻子是Mary Stone」,却无法推理出「Mary Stone的丈夫是Tom Smith」——暴露了推理能力的根本缺陷。正确态度是充分利用AI效率提升,同时认清其能力边界。

January 14, 2026 · 3 min · 1043 words · AIcan