重磅!Anthropic 发布 Claude Opus 4.6:多项基准创历史新高,1M 上下文震撼登场

重磅!Anthropic 发布 Claude Opus 4.6:多项基准创历史新高,1M 上下文震撼登场

Anthropic 正式发布了 Claude Opus 4.6,目前定位为有史以来最强的 Opus 系列模型。本次升级重点聚焦真实工作场景表现,尤其在编程、长时间 Agent 任务以及超大上下文处理能力上实现显著突破。同时,Anthropic 还将 Opus 级模型带入全新领域——百万 token 上下文窗口(1M token context window),目前已开放 Beta 测试。

Claude Opus 4.6 在 Opus 4.5 的基础上进一步优化:在常规步骤上显著提速,在难题出现时主动减速、更深度思考;它能制定更周密的计划、更好地自我审视工作成果,并在大型代码库中保持更高可靠性。这些改进对于需要长时间连续使用 AI 的开发者与团队尤为重要,而不仅仅适用于一次性短 Prompt 场景。

该模型同时瞄准日常知识工作场景,在财务分析、研究调研、文档撰写等方面需要的修正次数大幅减少。在 Cowork 和 Claude Code 环境中,Opus 4.6 可以自主完成多步任务,并在不同工具间协调工作,大幅降低人工来回干预的频率。

核心基准成绩

Claude Opus 4.6 在多项聚焦真实高价值任务的权威评测中位居前列。

  • Terminal-Bench 2.0:前沿模型中 Agent 编程能力最高分。
  • Humanity’s Last Exam:复杂跨学科推理能力排名第一。
  • GDPval-AA:比排名第二的模型(包括 OpenAI 的 GPT-5.2)高出约 144 Elo 分。
  • 相比前代 Claude Opus 4.5,Elo 分数提升约 190 分。
  • BrowseComp:在线搜索难以定位信息的任务中获得最佳成绩。

这些成绩表明模型在金融、法律研究、深度技术分析等高经济价值领域具备显著优势。

超长上下文表现

上下文处理能力迎来重大升级,Opus 4.6 大幅缓解开发者常说的“上下文衰减”(context rot)问题。

  • Beta 版支持 100万 token 上下文
  • 在 MRCR v2 8针测试中得分 76%,而 Sonnet 4.5 仅为 18.5%
  • 能在数十万 token 的超长文本中更稳定地追踪细节,漂移更少。
  • 能找回早期 Opus 模型经常遗漏的深层埋藏事实。

这些特性使模型在审计、代码库审查、大型文档分析等场景中变得更加可靠。

产品与 API 更新

Anthropic 在模型发布的同时推出多项平台级升级:

  • 自适应思考(Adaptive thinking):模型可自主判断何时需要更深度推理。
  • 四档努力等级(effort levels):用户可灵活控制速度、成本与思考深度。
  • 上下文压缩(Context compaction):自动总结早期上下文,支持更长的连续任务。
  • 单次输出最高支持 128k token
  • 价格维持不变:输入 $5 / 输出 $25 每百万 token,超大 Prompt 按高级费率计算。

安全性和可用性

Anthropic 表示,Opus 4.6 在安全性上与之前模型持平或更优,失控行为率低,无谓拒绝的情况也进一步减少。针对模型更强的攻防能力,新增了多项网络安全专项探测与防护措施。

Claude Opus 4.6 现已正式上线,可通过 claude.ai、Claude API 以及各大主流云平台使用。对于追求深度、规模与一致性的团队来说,此次发布无疑是显著的代际飞跃。

<iframe frameborder="0" height="360" src="https://www.youtube.com/embed/dPn3GBI8lII?feature=oembed" width="640"> </iframe>

全部评论0

没有了

到底了

查看更多

发表评论

评分:
显示验证码 验证码