GPT-5.3 Codex重磅发布!完整基准成绩单+全新亮点全解析

GPT-5.3 Codex重磅发布!完整基准成绩单+全新亮点全解析

OpenAI正式推出GPT-5.3 Codex,这款全新编码模型专为处理更长、更复杂的软件全生命周期任务而设计。它在GPT-5.2 Codex和GPT-5.2的基础上进一步升级,融合了更强的编码能力、更深的推理水平以及更专业的领域知识。据OpenAI介绍,该模型整体运行速度提升约25%,这一改进对于涉及研究、工具调用和多次迭代执行的长时间任务尤为关键。

核心变化在于,GPT-5.3 Codex已将Codex从单纯的“代码编写助手”转变为真正的“通用计算机使用智能体”。用户可以在它工作过程中随时介入、提问、中途调整方向,而不会丢失上下文。OpenAI还透露,模型的早期版本就已帮助团队调试自身的训练和部署流程,以意想不到的方式大幅加速了内部研发效率。

基准测试成绩

GPT-5.3 Codex在多项衡量真实编码能力和智能体表现的关键评测中均创下新高。

  • SWE-Bench Pro(公开版):56.8%准确率
    该基准涵盖四种编程语言,聚焦真实软件工程任务。GPT-5.3 Codex在领先前代模型的同时,输出的token消耗更少。
  • Terminal-Bench 2.0:77.3%准确率
    用于评估智能体命令行操作能力。与GPT-5.2 Codex相比提升显著,展现出更强的实战开发能力。
  • OSWorld-Verified:64.7%准确率
    该测试考察模型完成可视化桌面操作的能力。人类水平约为72%,GPT-5.3 Codex已非常接近人类在计算机上的表现。
  • GDPval:70.9%胜出或持平
    覆盖44种职业知识工作场景(PPT、表格、报告等),GPT-5.3 Codex达到此前最强模型的同等水准。
  • 网络安全CTF挑战:77.6%
    漏洞发现能力显著提升,OpenAI因此将该模型正式归类为网络安全高能力模型。

除了基准数据,GPT-5.3 Codex在真实场景中的进步同样明显。它能连续多日构建和迭代完整Web应用与游戏,覆盖调试、部署、监控,甚至还能完成文档编写、数据分析等非编码任务。OpenAI同时为这些强大能力搭配了更严格的网络安全防护和访问限制措施。

GPT-5.3 Codex现已面向付费ChatGPT用户开放,可在Codex应用、命令行工具、IDE插件及网页端使用,API接入预计很快推出。

OpenAI强调,GPT-5.3 Codex不仅仅是基准分数的提升,更代表了Codex在长时间、复杂任务中的行为范式转变——尤其是在需要自主规划、工具使用、持续推进而无需时刻监督的场景中。

Codex内部交互式工作方式

GPT-5.3 Codex在运行过程中会更频繁地提供进度汇报,让用户能清晰追踪关键决策节点,并更早介入干预。用户无需等到最终结果即可在执行中实时互动、提问、讨论取舍、调整方向,且全程保持上下文连贯。

  • 转向控制设置:在应用中进入“设置 > 通用 > 后续行为”即可开启运行中转向功能。

默认Web输出能力大幅增强

面对日常Web开发任务,GPT-5.3 Codex在面对简单或描述模糊的提示时,也能产出更完整、更高质量的结果。它倾向于生成合理的页面布局、更清晰的定价逻辑以及更接近成品的组件,为开发者提供更强的起手基础,而非最简脚手架。

一款参与自我构建的模型

OpenAI称GPT-5.3 Codex是首个实质性参与自身开发的模型。早期版本就被用于调试训练流程、管理部署任务、诊断评估结果异常。

工程师还利用Codex发现上下文渲染bug、排查低缓存命中率问题,并在流量高峰期动态扩缩GPU集群,以维持延迟稳定。

网络安全能力全面升级

GPT-5.3 Codex成为OpenAI首个被归类为网络安全高能力模型的产物。它接受了针对软件漏洞识别的直接训练,因此同步推出了更严格的防护和监控机制。

  • Trusted Access for Cyber —— 面向防御性研究的试点计划
  • Aardvark(OpenAI安全研究智能体)扩大私人测试规模
  • 为主要开源项目提供免费漏洞扫描服务
  • 投入1000万美元API额度专门支持网络安全防御工作

可用性与基础设施

GPT-5.3 Codex现已登陆所有付费ChatGPT计划,支持Codex的各个运行环境:应用、CLI、IDE插件、网页端。API接入尚未开放,但OpenAI确认即将推出。

25%的速度提升来自于基础设施和推理栈的全面优化。OpenAI同时确认,该模型的训练和推理全部基于NVIDIA GB200 NVL72系统。

文中提及的所有GPT-5.3 Codex基准测试,均采用xhigh推理强度执行,这一点在跨模型对比时尤为重要。

全部评论0

没有了

到底了

查看更多

发表评论

评分:
显示验证码 验证码