OpenAI 发布 GPT-5.3-Codex-Spark：与 Cerebras 合作打造超快实时编程模型

OpenAI 今天发布了 GPT-5.3-Codex-Spark 的研究预览版——这是一款专为实时编程设计的小型模型，也是 OpenAI 与 Cerebras 合作的首个里程碑成果。Codex-Spark 在 Cerebras 的晶圆级引擎上运行，推理速度超过每秒 1000 个 token，几乎可以做到即时响应。

目前，Codex-Spark 以研究预览的形式向 ChatGPT Pro 用户开放，支持 Codex 应用、CLI 和 VS Code 扩展。

速度与智能的平衡

Codex-Spark 针对交互式编程场景进行了优化，在这类场景中，延迟与智能同样重要。开发者可以与模型实时协作——随时打断或重新引导它的工作方向，并通过近乎即时的响应快速迭代。

由于专注于速度，Codex-Spark 默认采用轻量级工作方式：它只进行最小化的、有针对性的代码编辑，除非你主动要求，否则不会自动运行测试。

编程能力表现

尽管是一个小型模型，Codex-Spark 在编程能力上依然表现出色。在 SWE-Bench Pro 和 Terminal-Bench 2.0 这两个评估智能体软件工程能力的基准测试中，GPT-5.3-Codex-Spark 展现了强劲的性能，同时完成任务所需的时间仅为 GPT-5.3-Codex 的一小部分。

这意味着开发者可以在保持高质量代码输出的同时，获得显著更快的响应速度。

全面的延迟优化

在训练 Codex-Spark 的过程中，OpenAI 发现模型速度只是实时协作的一部分——还需要降低整个请求-响应管道的延迟。为此，团队实施了端到端的延迟优化：

重新设计了响应从客户端到服务器再返回的流式传输方式
重写了推理栈的关键部分
优化了会话初始化流程，使第一个可见 token 更快出现
引入持久化 WebSocket 连接，将每次客户端/服务器往返开销降低了 80%
每个 token 的开销降低了 30%
首个 token 的响应时间缩短了 50%

WebSocket 路径已在 Codex-Spark 中默认启用，未来将成为所有模型的默认配置。

Cerebras 晶圆级引擎加持

Codex-Spark 运行在 Cerebras 的第三代晶圆级引擎（Wafer Scale Engine 3）上——这是一款专为高速推理打造的 AI 加速器，为 Codex 提供了延迟优先的服务层。

Cerebras 联合创始人兼 CTO Sean Lie 表示："最让我们兴奋的是与 OpenAI 和开发者社区合作，探索快速推理带来的可能性——新的交互模式、新的使用场景，以及从根本上不同的模型体验。这次预览只是一个开始。"

值得注意的是，GPU 仍然是 OpenAI 训练和推理管道的基础，在广泛使用场景中提供最具成本效益的 token。Cerebras 则在需要极低延迟的工作流中发挥补充作用，两者可以组合使用以达到最佳性能。

可用性与未来展望

Codex-Spark 目前支持 128K 上下文窗口，仅支持文本输入。作为研究预览，它有独立的速率限制，不计入标准速率限制。OpenAI 还向少量设计合作伙伴开放了 API 访问，以了解开发者如何将 Codex-Spark 集成到他们的产品中。

展望未来，Codex-Spark 是迈向双模式 Codex 的第一步：

**长期推理模式**：适合需要长时间自主运行的复杂任务
**实时协作模式**：适合快速迭代的交互式编程

随着时间推移，这两种模式将融合——Codex 可以在保持紧密交互循环的同时，将长时间运行的工作委托给后台子智能体，或将任务分发给多个模型并行处理。

当模型变得越来越强大时，交互速度就成为了明显的瓶颈。超快推理收紧了这个循环，让 Codex 用起来更自然，也为每一个将想法变成可运行软件的人拓展了更多可能性。

ChatGPT Pro 俱乐部

OpenAI 发布 GPT-5.3-Codex-Spark：与 Cerebras 合作打造超快实时编程模型

速度与智能的平衡

编程能力表现

全面的延迟优化

Cerebras 晶圆级引擎加持

可用性与未来展望

相关文章

发布评论取消回复

OpenAI 发布 GPT-5.3-Codex-Spark：与 Cerebras 合作打造超快实时编程模型

速度与智能的平衡

编程能力表现

全面的延迟优化

Cerebras 晶圆级引擎加持

可用性与未来展望

相关文章

发布评论 取消回复

发布评论取消回复