Versun
简单分析下凌晨刚发布的 Opus 4.6 在编码方面的能力:1. Agentic terminal coding 是终端交互能力,提升明显,编写脚本、操作文件更顺畅2. Agentic coding 是核心编程能力,降低了0.1,也就是说代码能力和 Opus 4.5 基本一致3. Scaled tool use 是工具调用能力,降低了2.8,不会更积极的调用 MCP… pic.twitter.com/6XNrewGx88

再简单对比下 Opus 4.6 和 GPT 5.3 Codex
我只根据官方的发布文档进行比较,由于双方的基准测试版本不同,所以没法完全对比,其中只有一个指标是同一个版本的:

1. Terminal-Bench 2.0

  • Opus 4.6: 65.4%
  • GPT 5.3: 77.3%

GPT 5.3 Codex 在终端命令行的交互上更好,效率更高

其余的编程指标:

 

2. SWE-Bench(代码库级工程能力)

  • Opus 4.6: 80.8%(Verified 版本,只测 Python)
  • GPT 5.3: 56.8%(Pro 版本,4 种语言,防污染更严格)
这俩不是同一个测试集。Verified 是 Anthropic 常用的 Python 专项测试;Pro 是 OpenAI 新推的多语言版本,难度和评估标准都不同。不过可以确认的是,两家在各自的测试上都刷新了 SOTA

 

3. OSWorld(计算机操作/Agent 能力)

  • Opus 4.6: 72.7%(原版 OSWorld)
  • GPT 5.3: 64.7%(OSWorld-Verified)
看起来 Opus 高,但 Verified 版本修复了原版很多问题,评测更严格可信。人类基线约 72%,所以 GPT 5.3 的 64.7% 实际上更可信,更接近人类水平的表现
 

总结

复杂问题 / Debug / 做计划 / 超长上下文 / 重构 / Python ===> Opus 4.6

OpenClaw / 个人助理 / 依赖终端交互 / 多语言编程 ===> GPT 5.3

Comments (1)

V
Versun 5 months ago
我靠!Opus 4.6 限时免费用,这羊毛得薅🤪 贴个邀请链接(首冲75折):https://zenmux.ai/invite/6EP3MY