AI 前沿·阅读约 2 分钟·
Claude Sonnet 4.6 发布:编码、计算机使用和长期推理全面升级

Claude Sonnet 4.6 发布:编码、计算机使用和长期推理全面升级

Anthropic 发布 Claude Sonnet 4.6,在编码、计算机使用(Computer Use)、长上下文推理和 Agent 规划方面实现全面升级,1M token 上下文窗口进入测试阶段,价格与 Sonnet 4.5 保持不变。

原文来源:Anthropic — Introducing Claude Sonnet 4.6 — Anthropic 发布 Claude Sonnet 4.6,相比前代在编码、计算机使用、长上下文推理和 Agent 规划方面全面提升,1M token 上下文窗口进入公测。

2026 年 2 月 17 日,Anthropic 正式发布 Claude Sonnet 4.6,这是迄今为止最强大的 Sonnet 系列模型。它在编码、计算机使用(Computer Use)、长上下文推理、Agent 自主规划、知识工作和设计等多个维度实现了全面升级,并首次在 Sonnet 系列中引入 100 万 token 的上下文窗口(测试阶段)。

定价不变,性能飞跃

Sonnet 4.6 的定价与 Sonnet 4.5 保持一致:输入 $3/百万 token,输出 $15/百万 token。对于 Free 和 Pro 计划的用户,Sonnet 4.6 已成为 claude.ai 和 Claude Cowork 中的默认模型。

编码能力:大幅超越前代

Anthropic 的内部测试显示,在 Claude Code 中,开发者对 Sonnet 4.6 的偏好度相比 Sonnet 4.5 达到约 70%。用户反馈称,该模型在修改代码前更善于阅读上下文,并能有效整合共享逻辑而非简单复制粘贴,大幅减少了长时间编码会话中的挫败感。

更令人瞩目的是,用户甚至以 59% 的偏好率选择了 Sonnet 4.6 而非 Opus 4.5(Anthropic 于 2025 年 11 月发布的前沿模型)。用户评价 Sonnet 4.6 在过度工程化和"偷懒"倾向方面明显改善,指令遵循能力显著增强,虚假成功声明和幻觉现象更少,多步骤任务的执行一致性也更好。

这意味着,以往只有 Opus 级别模型才能胜任的复杂任务——包括那些具有实际经济价值的办公任务——现在 Sonnet 4.6 同样可以完成。Anthropic 指出,Sonnet 4.6 在一致性、指令遵循等方面的改进,使早期体验的开发者对其偏好度远超前代。

计算机使用:16 个月的持续进化

Anthropic 在 2024 年 10 月首次推出了通用计算机使用模型。当时团队坦诚该功能"仍处于实验阶段,笨拙且容易出错",但预期会快速迭代。OSWorld 基准测试——AI 计算机使用的标准评估平台——见证了 Claude 模型的持续进步。

OSWorld 在模拟计算机上运行数百项真实软件任务(Chrome、LibreOffice、VS Code 等),没有特殊 API 或专用连接器。模型必须像人类一样通过点击虚拟鼠标、敲击虚拟键盘来操作计算机。经过 16 个月的迭代,Sonnet 系列在这一基准上稳步提升。

早期用户报告称,Sonnet 4.6 在处理复杂电子表格导航、多步骤 Web 表单填写、跨浏览器标签页信息整合等任务时已展现出接近人类水平的能力。当然,模型在与最熟练的人类用户相比仍有差距,但这种进步速度令人瞩目。

与此同时,计算机使用也带来了安全挑战——恶意行为者可能通过在网页中隐藏指令进行提示注入攻击。Anthropic 的安全评估显示,Sonnet 4.6 在抵抗提示注入方面的能力相比 Sonnet 4.5 有了大幅提升,表现与 Opus 4.6 相当。

百万级上下文与长程推理

Sonnet 4.6 的 100 万 token 上下文窗口足以容纳整个代码库、数万字的合同或几十篇研究论文。更关键的是,该模型能够在此范围内有效推理。这一点在 Vending-Bench Arena 评估中体现得尤为明显——该测试要求模型在模拟环境中长期经营虚拟企业,甚至包含与其他 AI 模型竞争盈利能力的元素。

Sonnet 4.6 展现了一个颇有意思的新策略:它在模拟的前十个月大举投资、扩充产能,支出远超竞争对手;然后在最后阶段果断转向追求盈利。这一转型时机让它以压倒性优势领先。

综合评测:接近 Opus 水准

除了计算机使用能力,Sonnet 4.6 在各项基准测试中全面提升。在 OfficeQA 测试(评估模型读取企业文档、提取事实并推理的能力)中,其表现与 Opus 4.6 持平,是企业文档理解工作负载的一次有意义的升级。

早期客户报告了广泛的改进,前端编码和金融分析尤为突出。用户描述 Sonnet 4.6 的视觉输出质量明显更精致——布局、动画和设计感都超越了前代模型,且完成生产级结果所需的迭代次数更少。

行业反馈

众多合作伙伴对 Sonnet 4.6 给出了高度评价。Databricks 神经网络 CTO Hanlin Tang 表示"性价比极为出色";Replit 总裁 Michele Catasta 称其"性能成本比非凡";Cursor CEO Michael Truell 认为其"在长程任务和更困难问题上都有显著提升";GitHub 产品 VP Joe Binder 指出其在大型代码库搜索和复杂代码修复方面表现出色。

其他合作伙伴如 Box、Zapier、Harvey、Bolt、Rakuten 等也均对 Sonnet 4.6 在各自领域的表现给予了积极反馈。

产品更新与可用性

在 Claude 平台上,Sonnet 4.6 支持自适应思考(adaptive thinking)和扩展思考(extended thinking),以及上下文压缩(context compaction)功能(测试阶段),后者可在对话接近限制时自动总结旧内容,有效增加上下文长度。

API 方面,Claude 的 Web 搜索和 fetch 工具现在可以自动编写和执行代码来筛选搜索结果,仅保留相关内容,同时改善响应质量和 token 效率。此外,代码执行、记忆、程序化工具调用、工具搜索和工具使用示例现已全面可用。

Claude Sonnet 4.6 现已面向所有 Claude 计划、Claude Cowork、Claude Code、API 以及各大云平台开放。免费用户也已默认升级至 Sonnet 4.6,并支持文件创建、连接器、技能和压缩功能。开发者可通过 claude-sonnet-4-6 模型 ID 在 Claude API 上快速上手。

安全评估

与每个新 Claude 模型一样,Anthropic 对 Sonnet 4.6 进行了广泛的安全评估。总体结果显示,该模型与之前版本的 Claude 模型同样安全甚至更为安全。安全研究人员总结认为,Sonnet 4.6 具有"广泛的温暖、诚实、亲社会且时而幽默的性格特质,非常强的安全行为,没有高风险错配方面的重大担忧迹象"。

总体而言,Claude Sonnet 4.6 的发布标志着 Sonnet 系列在性能上实现了质的飞跃——以更具性价比的方式将前沿模型的能力带给更广泛的用户群体,无论是代码开发、文档处理还是自动化办公,都展现出令人印象深刻的水准。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/ai/claude-sonnet-4-6