OpenAI 今天发布了 GPT-5.3-Codex-Spark 的研究预览版——这是一款专为实时编程设计的小型模型,也是 OpenAI 与 Cerebras 合作的首个里程碑成果。Codex-Spark 在 Cerebras 的晶圆级引擎上运行,推理速度超过每秒 1000 个 token,几乎可以做到即时响应。
目前,Codex-Spark 以研究预览的形式向 ChatGPT Pro 用户开放,支持 Codex 应用、CLI 和 VS Code 扩展。
速度与智能的平衡
Codex-Spark 针对交互式编程场景进行了优化,在这类场景中,延迟与智能同样重要。开发者可以与模型实时协作——随时打断或重新引导它的工作方向,并通过近乎即时的响应快速迭代。
由于专注于速度,Codex-Spark 默认采用轻量级工作方式:它只进行最小化的、有针对性的代码编辑,除非你主动要求,否则不会自动运行测试。
编程能力表现
尽管是一个小型模型,Codex-Spark 在编程能力上依然表现出色。在 SWE-Bench Pro 和 Terminal-Bench 2.0 这两个评估智能体软件工程能力的基准测试中,GPT-5.3-Codex-Spark 展现了强劲的性能,同时完成任务所需的时间仅为 GPT-5.3-Codex 的一小部分。
这意味着开发者可以在保持高质量代码输出的同时,获得显著更快的响应速度。
全面的延迟优化
在训练 Codex-Spark 的过程中,OpenAI 发现模型速度只是实时协作的一部分——还需要降低整个请求-响应管道的延迟。为此,团队实施了端到端的延迟优化:
- 重新设计了响应从客户端到服务器再返回的流式传输方式
- 重写了推理栈的关键部分
- 优化了会话初始化流程,使第一个可见 token 更快出现
- 引入持久化 WebSocket 连接,将每次客户端/服务器往返开销降低了 80%
- 每个 token 的开销降低了 30%
- 首个 token 的响应时间缩短了 50%
WebSocket 路径已在 Codex-Spark 中默认启用,未来将成为所有模型的默认配置。
Cerebras 晶圆级引擎加持
Codex-Spark 运行在 Cerebras 的第三代晶圆级引擎(Wafer Scale Engine 3)上——这是一款专为高速推理打造的 AI 加速器,为 Codex 提供了延迟优先的服务层。
Cerebras 联合创始人兼 CTO Sean Lie 表示:"最让我们兴奋的是与 OpenAI 和开发者社区合作,探索快速推理带来的可能性——新的交互模式、新的使用场景,以及从根本上不同的模型体验。这次预览只是一个开始。"
值得注意的是,GPU 仍然是 OpenAI 训练和推理管道的基础,在广泛使用场景中提供最具成本效益的 token。Cerebras 则在需要极低延迟的工作流中发挥补充作用,两者可以组合使用以达到最佳性能。
可用性与未来展望
Codex-Spark 目前支持 128K 上下文窗口,仅支持文本输入。作为研究预览,它有独立的速率限制,不计入标准速率限制。OpenAI 还向少量设计合作伙伴开放了 API 访问,以了解开发者如何将 Codex-Spark 集成到他们的产品中。
展望未来,Codex-Spark 是迈向双模式 Codex 的第一步:
- **长期推理模式**:适合需要长时间自主运行的复杂任务
- **实时协作模式**:适合快速迭代的交互式编程
随着时间推移,这两种模式将融合——Codex 可以在保持紧密交互循环的同时,将长时间运行的工作委托给后台子智能体,或将任务分发给多个模型并行处理。
当模型变得越来越强大时,交互速度就成为了明显的瓶颈。超快推理收紧了这个循环,让 Codex 用起来更自然,也为每一个将想法变成可运行软件的人拓展了更多可能性。
ChatGPT Pro 俱乐部