前沿资讯
1771407244更新
0
在 AI 领域,等级制度正在崩塌。
Anthropic 发布了 Claude Sonnet 4.6。虽然名字里带着“Sonnet”,但它的表现却像是一台冷酷的工业收割机。
开发者们在用过之后给出了一个令人震惊的评价:“这是披着 Sonnet 外壳的极速版 Opus 。”
以往我们认为,Sonnet 是性价比之选,Opus 才是智能巅峰。但 Sonnet 4.6 撕碎了这个剧本。
在最新的基准测试中,Sonnet 4.6 的智能水平已经无限接近本月早些时候发布的 Opus 4.6,而在实际的 Claude Code 环境中,59% 的开发者更倾向于使用 Sonnet 4.6 而非去年的顶级旗舰 Opus 4.5。

为什么大家“弃旗舰选次旗舰”?因为 Sonnet 4.6 解决了两个 AI 顽疾:“过拟合的懒惰”和“无效的复杂设计”。它更听得懂人话,且在执行多步任务时,几乎不再出现“虚假成功”的幻觉。
计算机操控:不再是“嘴炮”,现在它是真正的操作员。
这是本次更新最硬核的部分。
当其他 AI 还在对话框里给你写“操作建议”时,Claude Sonnet 4.6 已经开始直接操控你的桌面了。
在模拟真实办公环境的 OSWorld 测试中,Sonnet 4.6 的表现令人战栗:
- Claude Sonnet 4.6:72.5%
- GPT-5.2:38.2%
- 人类专家:约 80-85%
这意味着,在处理复杂的 Excel 跨表联动、网页多级表单填写、甚至是那些没有 API 的“远古时代”办公系统时,Sonnet 4.6 的精确度已经极其接近人类。它不再是帮你写代码,它是直接帮你把活儿干了。

100 万上下文:这次是真的“过目不忘”。
虽然 100 万 token 上下文在 2026 年已不是新闻,但 Sonnet 4.6 解决了一个一直没被解决的问题:有效记忆。
通过全新的 Context Compaction(上下文压缩) 技术,当对话接近上限时,系统会自动总结旧信息。这不仅增加了对话的“体感长度”,更重要的是——它更省钱了。
相比于 Gemini 3 Pro 在处理长文本时的偶尔“断片”,Sonnet 4.6 在 Vending-Bench Arena(商业经营模拟) 中展现出了惊人的长线规划能力:它会像一个老练的 CEO,在前 10 个月忍受亏损进行基建投资,并在最后关头精准收割利润。
竞品横评:2026 年初的 AI 全家桶该怎么选?
为了让大家看得更清楚,我们整理了目前市面上三大热门模型的对比表:
| 特性 | Claude Sonnet 4.6 | GPT-5.2 (Thinking) | Gemini 3 Pro |
|---|---|---|---|
| 核心优势 | 计算机操控、代码逻辑、长文记忆 | 科学推理、抽象思维 (ARC-AGI) | 谷歌生态集成、原生多模态(视频) |
| OSWorld 成绩 | 72.5% (顶尖) | 38.2% | 45% 左右 |
| 1M 上下文质量 | 极佳 (支持 Compaction) | 良好 | 优秀 (Google 强项) |
| 定价 (out) | 约 20 | 约 15 | |
| 适用人群 | 开发者、重度办公族、AI Agent 开发者 | 科研人员、复杂逻辑发烧友 | 个人博主、视频内容创作者 |
结论很明确:如果你需要一个能帮你重构整套代码库、操作繁杂软件、且性价比极高的“数字分身”,Sonnet 4.6 是目前全行业的唯一选。
Anthropic CTO Hanlin Tang 曾说,Sonnet 4.6 是为了“经济价值”而生的。
它不再追求那种只能在智商测试里刷高分的虚假繁荣,而是实实在在地进入了办公软件、进入了终端环境。随着 Claude Code 和 Claude in Excel 的全面升级,我们离“只要下指令,电脑自己动”的未来,只剩下最后 10% 的距离。
即刻起,免费用户也可在 Claude.ai 直接体验 Sonnet 4.6。建议你把最头疼的那个 Excel 表丢给它试试。
参考资料:https://www.anthropic.com/news/claude-sonnet-4-6
豫公网安备41010702003375号