干掉“旗舰”的次旗舰!Claude Sonnet 4.6发布:这一次,AI真的能操控你的电脑了

前沿资讯 1771407244更新

0

在 AI 领域,等级制度正在崩塌。

Anthropic 发布了 Claude Sonnet 4.6。虽然名字里带着“Sonnet”,但它的表现却像是一台冷酷的工业收割机。

开发者们在用过之后给出了一个令人震惊的评价:“这是披着 Sonnet 外壳的极速版 Opus 。”

以往我们认为,Sonnet 是性价比之选,Opus 才是智能巅峰。但 Sonnet 4.6 撕碎了这个剧本。

在最新的基准测试中,Sonnet 4.6 的智能水平已经无限接近本月早些时候发布的 Opus 4.6,而在实际的 Claude Code 环境中,59% 的开发者更倾向于使用 Sonnet 4.6 而非去年的顶级旗舰 Opus 4.5。

为什么大家“弃旗舰选次旗舰”?因为 Sonnet 4.6 解决了两个 AI 顽疾:“过拟合的懒惰”“无效的复杂设计”。它更听得懂人话,且在执行多步任务时,几乎不再出现“虚假成功”的幻觉。

计算机操控:不再是“嘴炮”,现在它是真正的操作员。

这是本次更新最硬核的部分。

当其他 AI 还在对话框里给你写“操作建议”时,Claude Sonnet 4.6 已经开始直接操控你的桌面了。

在模拟真实办公环境的 OSWorld 测试中,Sonnet 4.6 的表现令人战栗:

  • Claude Sonnet 4.6:72.5%
  • GPT-5.2:38.2%
  • 人类专家:约 80-85%

这意味着,在处理复杂的 Excel 跨表联动、网页多级表单填写、甚至是那些没有 API 的“远古时代”办公系统时,Sonnet 4.6 的精确度已经极其接近人类。它不再是帮你写代码,它是直接帮你把活儿干了。

100 万上下文:这次是真的“过目不忘”。

虽然 100 万 token 上下文在 2026 年已不是新闻,但 Sonnet 4.6 解决了一个一直没被解决的问题:有效记忆。

通过全新的 Context Compaction(上下文压缩) 技术,当对话接近上限时,系统会自动总结旧信息。这不仅增加了对话的“体感长度”,更重要的是——它更省钱了。

相比于 Gemini 3 Pro 在处理长文本时的偶尔“断片”,Sonnet 4.6 在 Vending-Bench Arena(商业经营模拟) 中展现出了惊人的长线规划能力:它会像一个老练的 CEO,在前 10 个月忍受亏损进行基建投资,并在最后关头精准收割利润。

竞品横评:2026 年初的 AI 全家桶该怎么选?

为了让大家看得更清楚,我们整理了目前市面上三大热门模型的对比表:

特性Claude Sonnet 4.6GPT-5.2 (Thinking)Gemini 3 Pro
核心优势计算机操控、代码逻辑、长文记忆科学推理、抽象思维 (ARC-AGI)谷歌生态集成、原生多模态(视频)
OSWorld 成绩72.5% (顶尖)38.2%45% 左右
1M 上下文质量极佳 (支持 Compaction)良好优秀 (Google 强项)
定价 (out)约 20约 15
适用人群开发者、重度办公族、AI Agent 开发者科研人员、复杂逻辑发烧友个人博主、视频内容创作者

结论很明确:如果你需要一个能帮你重构整套代码库、操作繁杂软件、且性价比极高的“数字分身”,Sonnet 4.6 是目前全行业的唯一选。

Anthropic CTO Hanlin Tang 曾说,Sonnet 4.6 是为了“经济价值”而生的。

它不再追求那种只能在智商测试里刷高分的虚假繁荣,而是实实在在地进入了办公软件、进入了终端环境。随着 Claude CodeClaude in Excel 的全面升级,我们离“只要下指令,电脑自己动”的未来,只剩下最后 10% 的距离。

即刻起,免费用户也可在 Claude.ai 直接体验 Sonnet 4.6。建议你把最头疼的那个 Excel 表丢给它试试。


参考资料:https://www.anthropic.com/news/claude-sonnet-4-6