berman_谷歌发布_Gemini_3_1_Pro_基准测试创纪录

Google发布Gemini 3.1 Pro,在SVG动画生成方面实现质的飞跃,能够生成骑自行车、溜冰等复杂动画细节。基准测试全面胜出:ARC AGI 2达到77.1%(是Gemini 3 Pro的两倍多),GPQA Diamond达94.3%,工具使用测试接近满分99.3%。新增城市规划与3D建模支持,Jeff Dean展示了用该模型创建城市规划模拟应用的能力,AI可根据技术图纸直接生成CAD模型实现3D打印。

February 20, 2026 · 2 min · 743 words · AIcan

最佳免费AI变得更强大与中国AI动态

本周AI领域竞争激烈,消费级产品不仅在成熟更在真正竞争用户注意力。Claude宣布将其一些最佳功能和模型开放给免费用户,这是一次重大策略转变,标志着AI平台竞争进入新阶段。OpenAI正尝试通过多个故事和叙事赢得公众关注,公关战日趋白热化。与此同时,中国AI领域呈现独特发展路径,不再追随西方而是自主发展各种新模型和实用功能,在多模态、推理等方向展现出独立的技术路线。三方势力各自发力,全球AI竞争格局正在重塑,对普通用户而言意味着更多选择和更好的免费服务。

February 20, 2026 · 1 min · 467 words · AIcan

berman_Anthropic发布Sonnet4_6知识工作者的超级引擎

Anthropic 发布 Claude Sonnet 4.6,被定位为知识工作者的主力模型。多项基准测试实现显著提升:智能终端编码从 51% 升至 59%,工具使用从 43.8% 飙升至 61.3%,代理计算机使用从 61% 跃升至 72.5%,财务分析以 63 分超越 Opus 4.6 位列第一。该模型支持 100 万 token 上下文窗口,定价与 4.5 保持一致(输入 $3/百万 token,输出 $15/百万 token),已成为免费版默认模型。Sonnet 4.6 采用无特殊 API设计,模型像人类一样通过虚拟鼠标键盘与计算机交互,能够创建 PowerPoint、操作 Excel,并支持 MCP 连接器。Anthropic 还引入自适应推理功能,允许用户动态调整思考 token 使用量。值得注意的是,Sonnet 与 Opus 之间的差距正在迅速缩小。

February 17, 2026 · 2 min · 943 words · AIcan

Claude_Opus_4.6首发实测

Claude推出全新旗舰模型Opus 4.6,主持人称其为见过最强的AI模型。本周AI领域迎来全面重大改进,最常用的模型都获得显著升级。近期出现大量用户从ChatGPT迁移到Claude或Gemini的趋势,原因是这些平台持续推出新功能、新模型和新应用。与此同时,OpenAI首次推出企业级解决方案,旨在实际替代人类工作者的AI系统。Claude与Gemini的快速迭代正在重塑AI模型竞争格局,为用户带来更多优质选择。

February 6, 2026 · 1 min · 461 words · AIcan

berman_Anthropic刚刚发布了Opus4_6

Anthropic发布Claude Opus 4.6重大升级版,是除Google Gemini外唯一提供100万token上下文窗口的模型。Agent Teams功能允许协调多个Claude Code实例协同工作,每个实例拥有独立上下文窗口可相互通信。模型具备自适应思考能力,可根据任务动态调整推理深度。基准测试显示SWE-bench Lite得分1662,领先GPT-5.2达150分。视频发布前一天SaaS行业蒸发3000亿美元市值,分析师认为Anthropic的Excel和PowerPoint插件是诱因——当AI能通过对话自主完成工作时,传统SaaS面临根本性威胁。定价与4.5相同,20万token以内输入$5/百万,输出$25/百万。

February 5, 2026 · 3 min · 1089 words · AIcan