再简单对比下 Opus 4.6 和 GPT 5.3 Codex
我只根据官方的发布文档进行比较,由于双方的基准测试版本不同,所以没法完全对比,其中只有一个指标是同一个版本的:
1. Terminal-Bench 2.0
-
Opus 4.6: 65.4%
-
GPT 5.3: 77.3%
GPT 5.3 Codex 在终端命令行的交互上更好,效率更高
其余的编程指标:
2. SWE-Bench(代码库级工程能力)
-
Opus 4.6: 80.8%(Verified 版本,只测 Python)
-
GPT 5.3: 56.8%(Pro 版本,4 种语言,防污染更严格)
这俩不是同一个测试集。Verified 是 Anthropic 常用的 Python 专项测试;Pro 是 OpenAI 新推的多语言版本,难度和评估标准都不同。不过可以确认的是,两家在各自的测试上都刷新了 SOTA
3. OSWorld(计算机操作/Agent 能力)
-
Opus 4.6: 72.7%(原版 OSWorld)
-
GPT 5.3: 64.7%(OSWorld-Verified)
看起来 Opus 高,但 Verified 版本修复了原版很多问题,评测更严格可信。人类基线约 72%,所以 GPT 5.3 的 64.7% 实际上更可信,更接近人类水平的表现
总结
复杂问题 / Debug / 做计划 / 超长上下文 / 重构 / Python ===> Opus 4.6
OpenClaw / 个人助理 / 依赖终端交互 / 多语言编程 ===> GPT 5.3
Comments (1)