Claude Opus 4.8 正式发布：Anthropic 迄今最强模型，Agent 能力大幅提升

原文来源：Anthropic 官方博客 — Anthropic 发布 Claude Opus 4.8，在编程、Agent、推理等能力上全面超越前代，同时推出 Effort Control、动态工作流等新功能。

一、重磅发布：Opus 4.8 登场

2026 年 5 月 28 日，Anthropic 正式发布 Claude Opus 4.8，这是继 Opus 4.7 之后的一次重大升级。新模型在编程、Agent 任务、推理能力等方面实现了全面超越，进一步巩固了 Opus 系列在高端大模型领域的领先地位。

官方评估显示，Opus 4.8 在多个关键基准测试中都取得了显著进步，尤其在 Agent 类任务上表现出众，是首个在 Super-Agent 基准测试中完成全部端到端案例的模型。

二、核心新特性

1. 全面 Benchmark 提升

Opus 4.8 在 SWE-bench Verified、CursorBench 等编程基准上均超越了 4.7 版本。在 Legal Agent Benchmark 上，Opus 4.8 取得了历史最高分，成为首个突破 10% 全通过率的模型。其浏览器 Agent 在 Online-Mind2Web 上达到 84% 准确率，相比 4.7 和 GPT-5.5 都有明显跃升。

值得一提的是，Opus 4.8 在审查代码时，漏掉缺陷的概率比 4.7 降低了约 4 倍，这对开发者而言意味着更高的代码质量和更少的潜在 bug。

2. Effort Control — 按需分配模型算力

Claude.ai 上新增了 Effort Control 功能，用户可以根据任务复杂程度选择模型的投入程度：

Normal — 日常问答和简单任务
Extra — 需深度推理的复杂任务
Max — 极致质量的推理和创作任务

这种灵活的算力分配机制，让用户可以在日常使用中平衡速度与质量。

3. API 升级：Messages 内嵌 System 指令

Messages API 现在允许在消息数组内部包含 System 条目，这意味着开发者可以在任务中途更新系统指令，而无需打断缓存的连续性。这一改进对构建多步骤 Agent 工作流尤为有价值。

4. Claude Code 动态工作流

Claude Code 引入了 动态工作流（Dynamic Workflows）功能，能够自动拆解和规划大规模问题，将复杂任务分解为可管理的子步骤，大幅提升解决大型工程问题的效率。

三、Super-Agent 与浏览能力

Opus 4.8 在 Agent 能力上实现了质的飞跃。在 Super-Agent 基准测试中，Opus 4.8 是唯一一个完成全部端到端案例的模型，并且在与 GPT-5.5 的成本相当的情况下表现更优。

浏览器 Agent 方面，Opus 4.8 在 Online-Mind2Web 上取得 84% 的成绩，使其在 Web 自动化、数据采集和在线任务执行方面更具实用价值。结合 Anthropic 此前发展的 Computer Use 能力，Opus 4.8 的 Agent 生态正在快速成熟。

四、行业反馈

多家早期合作企业给出了高度评价：

Devin 团队表示："Opus 4.8 能干净利落地使用工具，指令执行一致性极佳，修复了 4.7 在注释冗余和工具调用方面的问题。"
Databricks（Genie） 称："Agent 推理能力实现了阶跃性提升，且 token 成本比 Opus 4.7 便宜 61%。"
Hebbia 评价："质量强劲，引文精度和 token 效率均有提升。"
Cursor 团队反馈："判断力明显更好，会主动提出正确的问题，发现自身错误，在复杂探索中逐步建立信心。"
CoCounsel Legal 表示："在一致性和推理质量上有显著改进。"

五、定价策略

Anthropic 保持了极具竞争力的定价，让开发者和企业可以更低成本使用最强模型：

模式	输入价格	输出价格
标准模式	$5/M tokens	$25/M tokens
快速模式	$10/M tokens	$50/M tokens

快速模式的速度提升至原来的 2.5 倍，而价格相比之前降低了 3 倍，对于追求低延迟的实时应用场景尤为适合。

六、未来展望

Anthropic 透露，将在未来几周内发布比 Opus 更强大的 Mythos 级模型。与此同时，Opus 4.8 的发布标志着 Anthropic 在多模态、Agent 和推理能力上的持续投入正在加速产出。对于 AI 开发者和企业用户而言，现在就是升级到 Opus 4.8 的最佳时机。