
昨天 Hacker News 上最热的贴,是 OpenAI 的离职员工回顾他的工作时光,作者文章里提到离职前参与了 OpenAI 的代码产品 Codex 的发布。正好自己手头也有 ChatGPT Plus 订阅,于是就拿来一试。

入口就在 ChatGPT 侧别拦的第一个,体现了重视程度。打开入口,需要做一个 GitHub 仓库的授权,然后跳转到对话框界面,下面会弹出快速任务引导。
给新人解释代码仓库 定位及修复重要 bug 修复笔误
我都点上了,然后就自动跳到了任务界面,下面这个是解释代码的

而这个是修复笔误的

修复笔误的会进一步拆分任务,可以单独启动每一个任务,然后点进去看详情。

展示建议的修复,右上角可以直接提 PR。

代码合并后,在 Codex 主界面状态会更新

总结分割线
先说准确率,是 100%,所有的修改都是合理的,把代码往好的方向发展。比如这个代码片段是调整了验证的顺序,使得能更快返回错误。

而这个改动则确实是修复了一个 bug。加上了 schema 的标记,避免生成有歧义的语句,导致删库跑路。

从操作体验上,也更加方便,因为整个操作都在浏览器里,不需要在本地打开 IDE,配置环境。真的是在浏览器里点几下,敲几句话就让 Codex 把代码写完了。而且 Codex 还能自动规划出几个主任务,主任务下再拆分成子任务。等人把每一个修改代码的子任务审核完后,直接创建 PR,自动生成 PR 描述,审核,合并,一气呵成。
当然产品还需要打磨,虽然发布了有 2 个月。一些明显的细节还是没有做好。比如没有 GitHub App,所以还是用我自己的账号创建 PR。这点不像 Claude Code 有一个单独 App。

代码修改上也有些小问题,比如这里少了个空行。

这次的测试对象是一个纯用 Go 写的仓库,接近 30000 行代码。其中 99% 都是 Claude Code 写的,我负责设计和审核。这是我第一次和 Claude Code 从头开始深度合作一个项目,所以也让 Codex 给我们这个队伍打个分,结果是 9/10。

既然还是被扣了 1 分,那就继续问 Codex 有什么可以改进的地方。

事实上,Codex 也确实灵敏地嗅到了一坨💩,涉及命令行参数和环境变量的处理。但是改动的方法也谈不上好,终究还是💩上雕花了。
我最近一直在用 Claude Code 写代码。半年刚过,提交数已经超过了去年全年。


如果满分 10 分的话, 我能给 Claude Code 打 9 分,而 Codex 大概在 8 分。但长期来看只有 Codex 才可能达到 10 分,这是产品形态决定的,就像 Figma 之于 Sketch,云端研发比本地研发难做,但上限更高。在 Codex 上,我能够随时随地让它做任务,也可以随时随地审核它的任务,目前非 Cloud 版本的 Claude Code 则是做不到这点的。
前两天看到有人把 Talk is cheap, show me the code 倒反天罡,说成了 Code is cheap,show me the talk。但原先的那句话,也还能接着用,正好留给这些编程 Agent 了。








