Claude Sonnet 4.6 发布：编码、计算机使用和长期推理全面升级

原文来源：Anthropic — Introducing Claude Sonnet 4.6 — Anthropic 发布 Claude Sonnet 4.6，相比前代在编码、计算机使用、长上下文推理和 Agent 规划方面全面提升，1M token 上下文窗口进入公测。

2026 年 2 月 17 日，Anthropic 正式发布 Claude Sonnet 4.6，这是迄今为止最强大的 Sonnet 系列模型。它在编码、计算机使用（Computer Use）、长上下文推理、Agent 自主规划、知识工作和设计等多个维度实现了全面升级，并首次在 Sonnet 系列中引入 100 万 token 的上下文窗口（测试阶段）。

定价不变，性能飞跃

Sonnet 4.6 的定价与 Sonnet 4.5 保持一致：输入 $3/百万 token，输出 $15/百万 token。对于 Free 和 Pro 计划的用户，Sonnet 4.6 已成为 claude.ai 和 Claude Cowork 中的默认模型。

编码能力：大幅超越前代

Anthropic 的内部测试显示，在 Claude Code 中，开发者对 Sonnet 4.6 的偏好度相比 Sonnet 4.5 达到约 70%。用户反馈称，该模型在修改代码前更善于阅读上下文，并能有效整合共享逻辑而非简单复制粘贴，大幅减少了长时间编码会话中的挫败感。

更令人瞩目的是，用户甚至以 59% 的偏好率选择了 Sonnet 4.6 而非 Opus 4.5（Anthropic 于 2025 年 11 月发布的前沿模型）。用户评价 Sonnet 4.6 在过度工程化和"偷懒"倾向方面明显改善，指令遵循能力显著增强，虚假成功声明和幻觉现象更少，多步骤任务的执行一致性也更好。

这意味着，以往只有 Opus 级别模型才能胜任的复杂任务——包括那些具有实际经济价值的办公任务——现在 Sonnet 4.6 同样可以完成。Anthropic 指出，Sonnet 4.6 在一致性、指令遵循等方面的改进，使早期体验的开发者对其偏好度远超前代。

计算机使用：16 个月的持续进化

Anthropic 在 2024 年 10 月首次推出了通用计算机使用模型。当时团队坦诚该功能"仍处于实验阶段，笨拙且容易出错"，但预期会快速迭代。OSWorld 基准测试——AI 计算机使用的标准评估平台——见证了 Claude 模型的持续进步。

OSWorld 在模拟计算机上运行数百项真实软件任务（Chrome、LibreOffice、VS Code 等），没有特殊 API 或专用连接器。模型必须像人类一样通过点击虚拟鼠标、敲击虚拟键盘来操作计算机。经过 16 个月的迭代，Sonnet 系列在这一基准上稳步提升。

早期用户报告称，Sonnet 4.6 在处理复杂电子表格导航、多步骤 Web 表单填写、跨浏览器标签页信息整合等任务时已展现出接近人类水平的能力。当然，模型在与最熟练的人类用户相比仍有差距，但这种进步速度令人瞩目。

与此同时，计算机使用也带来了安全挑战——恶意行为者可能通过在网页中隐藏指令进行提示注入攻击。Anthropic 的安全评估显示，Sonnet 4.6 在抵抗提示注入方面的能力相比 Sonnet 4.5 有了大幅提升，表现与 Opus 4.6 相当。

百万级上下文与长程推理

Sonnet 4.6 的 100 万 token 上下文窗口足以容纳整个代码库、数万字的合同或几十篇研究论文。更关键的是，该模型能够在此范围内有效推理。这一点在 Vending-Bench Arena 评估中体现得尤为明显——该测试要求模型在模拟环境中长期经营虚拟企业，甚至包含与其他 AI 模型竞争盈利能力的元素。

Sonnet 4.6 展现了一个颇有意思的新策略：它在模拟的前十个月大举投资、扩充产能，支出远超竞争对手；然后在最后阶段果断转向追求盈利。这一转型时机让它以压倒性优势领先。

综合评测：接近 Opus 水准

除了计算机使用能力，Sonnet 4.6 在各项基准测试中全面提升。在 OfficeQA 测试（评估模型读取企业文档、提取事实并推理的能力）中，其表现与 Opus 4.6 持平，是企业文档理解工作负载的一次有意义的升级。

早期客户报告了广泛的改进，前端编码和金融分析尤为突出。用户描述 Sonnet 4.6 的视觉输出质量明显更精致——布局、动画和设计感都超越了前代模型，且完成生产级结果所需的迭代次数更少。

行业反馈

众多合作伙伴对 Sonnet 4.6 给出了高度评价。Databricks 神经网络 CTO Hanlin Tang 表示"性价比极为出色"；Replit 总裁 Michele Catasta 称其"性能成本比非凡"；Cursor CEO Michael Truell 认为其"在长程任务和更困难问题上都有显著提升"；GitHub 产品 VP Joe Binder 指出其在大型代码库搜索和复杂代码修复方面表现出色。

其他合作伙伴如 Box、Zapier、Harvey、Bolt、Rakuten 等也均对 Sonnet 4.6 在各自领域的表现给予了积极反馈。

产品更新与可用性

在 Claude 平台上，Sonnet 4.6 支持自适应思考（adaptive thinking）和扩展思考（extended thinking），以及上下文压缩（context compaction）功能（测试阶段），后者可在对话接近限制时自动总结旧内容，有效增加上下文长度。

API 方面，Claude 的 Web 搜索和 fetch 工具现在可以自动编写和执行代码来筛选搜索结果，仅保留相关内容，同时改善响应质量和 token 效率。此外，代码执行、记忆、程序化工具调用、工具搜索和工具使用示例现已全面可用。

Claude Sonnet 4.6 现已面向所有 Claude 计划、Claude Cowork、Claude Code、API 以及各大云平台开放。免费用户也已默认升级至 Sonnet 4.6，并支持文件创建、连接器、技能和压缩功能。开发者可通过 claude-sonnet-4-6 模型 ID 在 Claude API 上快速上手。

安全评估

与每个新 Claude 模型一样，Anthropic 对 Sonnet 4.6 进行了广泛的安全评估。总体结果显示，该模型与之前版本的 Claude 模型同样安全甚至更为安全。安全研究人员总结认为，Sonnet 4.6 具有"广泛的温暖、诚实、亲社会且时而幽默的性格特质，非常强的安全行为，没有高风险错配方面的重大担忧迹象"。

总体而言，Claude Sonnet 4.6 的发布标志着 Sonnet 系列在性能上实现了质的飞跃——以更具性价比的方式将前沿模型的能力带给更广泛的用户群体，无论是代码开发、文档处理还是自动化办公，都展现出令人印象深刻的水准。

Claude Sonnet 4.6 发布：编码、计算机使用和长期推理全面升级

定价不变，性能飞跃

编码能力：大幅超越前代

计算机使用：16 个月的持续进化

百万级上下文与长程推理

综合评测：接近 Opus 水准

行业反馈

产品更新与可用性

安全评估

相关文章

Code with Claude 2026 大会亲历记：AI 原生的工程组织长什么样

Claude Platform on AWS 正式上线：Anthropic 原生平台全面登陆

Claude Opus 4.7 发布：进阶软件工程能力的新里程碑