| Versun

2026-02-06 | |

Versun

简单分析下凌晨刚发布的 Opus 4.6 在编码方面的能力：1. Agentic terminal coding 是终端交互能力，提升明显，编写脚本、操作文件更顺畅2. Agentic coding 是核心编程能力，降低了0.1，也就是说代码能力和 Opus 4.5 基本一致3. Scaled tool use 是工具调用能力，降低了2.8，不会更积极的调用 MCP… pic.twitter.com/6XNrewGx88
Original

再简单对比下 Opus 4.6 和 GPT 5.3 Codex
我只根据官方的发布文档进行比较，由于双方的基准测试版本不同，所以没法完全对比，其中只有一个指标是同一个版本的：

1. Terminal-Bench 2.0

Opus 4.6: 65.4%
GPT 5.3: 77.3%

GPT 5.3 Codex 在终端命令行的交互上更好，效率更高

其余的编程指标：

2. SWE-Bench（代码库级工程能力）

Opus 4.6: 80.8%（Verified 版本，只测 Python）
GPT 5.3: 56.8%（Pro 版本，4 种语言，防污染更严格）

这俩不是同一个测试集。Verified 是 Anthropic 常用的 Python 专项测试；Pro 是 OpenAI 新推的多语言版本，难度和评估标准都不同。不过可以确认的是，两家在各自的测试上都刷新了 SOTA

3. OSWorld（计算机操作/Agent 能力）

Opus 4.6: 72.7%（原版 OSWorld）
GPT 5.3: 64.7%（OSWorld-Verified）

看起来 Opus 高，但 Verified 版本修复了原版很多问题，评测更严格可信。人类基线约 72%，所以 GPT 5.3 的 64.7% 实际上更可信，更接近人类水平的表现

总结

复杂问题 / Debug / 做计划 / 超长上下文 / 重构 / Python ===> Opus 4.6

OpenClaw / 个人助理 / 依赖终端交互 / 多语言编程 ===> GPT 5.3

Comments (1)

V

Versun 5 months ago

我靠！Opus 4.6 限时免费用，这羊毛得薅🤪 贴个邀请链接(首冲75折)：https://zenmux.ai/invite/6EP3MY