重磅！Anthropic 发布 Claude Opus 4.6：多项基准创历史新高，1M 上下文震撼登场

Anthropic 正式发布了 Claude Opus 4.6，目前定位为有史以来最强的 Opus 系列模型。本次升级重点聚焦真实工作场景表现，尤其在编程、长时间 Agent 任务以及超大上下文处理能力上实现显著突破。同时，Anthropic 还将 Opus 级模型带入全新领域——百万 token 上下文窗口（1M token context window），目前已开放 Beta 测试。

Claude Opus 4.6 在 Opus 4.5 的基础上进一步优化：在常规步骤上显著提速，在难题出现时主动减速、更深度思考；它能制定更周密的计划、更好地自我审视工作成果，并在大型代码库中保持更高可靠性。这些改进对于需要长时间连续使用 AI 的开发者与团队尤为重要，而不仅仅适用于一次性短 Prompt 场景。

该模型同时瞄准日常知识工作场景，在财务分析、研究调研、文档撰写等方面需要的修正次数大幅减少。在 Cowork 和 Claude Code 环境中，Opus 4.6 可以自主完成多步任务，并在不同工具间协调工作，大幅降低人工来回干预的频率。

核心基准成绩

Claude Opus 4.6 在多项聚焦真实高价值任务的权威评测中位居前列。

Terminal-Bench 2.0：前沿模型中 Agent 编程能力最高分。
Humanity’s Last Exam：复杂跨学科推理能力排名第一。
GDPval-AA：比排名第二的模型（包括 OpenAI 的 GPT-5.2）高出约 144 Elo 分。
相比前代 Claude Opus 4.5，Elo 分数提升约 190 分。
BrowseComp：在线搜索难以定位信息的任务中获得最佳成绩。

这些成绩表明模型在金融、法律研究、深度技术分析等高经济价值领域具备显著优势。

超长上下文表现

上下文处理能力迎来重大升级，Opus 4.6 大幅缓解开发者常说的“上下文衰减”（context rot）问题。

Beta 版支持 100万 token 上下文。
在 MRCR v2 8针测试中得分 76%，而 Sonnet 4.5 仅为 18.5%。
能在数十万 token 的超长文本中更稳定地追踪细节，漂移更少。
能找回早期 Opus 模型经常遗漏的深层埋藏事实。

这些特性使模型在审计、代码库审查、大型文档分析等场景中变得更加可靠。

产品与 API 更新

Anthropic 在模型发布的同时推出多项平台级升级：

自适应思考（Adaptive thinking）：模型可自主判断何时需要更深度推理。
四档努力等级（effort levels）：用户可灵活控制速度、成本与思考深度。
上下文压缩（Context compaction）：自动总结早期上下文，支持更长的连续任务。
单次输出最高支持 128k token。
价格维持不变：输入 $5 / 输出 $25 每百万 token，超大 Prompt 按高级费率计算。

安全性和可用性

Anthropic 表示，Opus 4.6 在安全性上与之前模型持平或更优，失控行为率低，无谓拒绝的情况也进一步减少。针对模型更强的攻防能力，新增了多项网络安全专项探测与防护措施。

Claude Opus 4.6 现已正式上线，可通过 claude.ai、Claude API 以及各大主流云平台使用。对于追求深度、规模与一致性的团队来说，此次发布无疑是显著的代际飞跃。

重磅！Anthropic 发布 Claude Opus 4.6：多项基准创历史新高，1M 上下文震撼登场

核心基准成绩

超长上下文表现

产品与 API 更新

安全性和可用性

全部评论0

发表评论