Versun
订阅要到期了,额度用不完,准备搞个模型PK赛参赛选手:GLM-5, MiniMax-2.5, Kimi-2.5, GPT-5.3-Codex, Claude-Opus-4.6让它们写啥程序能测出真实水平?除了贪吃蛇。。。

分享下这次的测试结果,结果有点魔幻,估计评论区又要锤我是水军了……

测试汇总:coding-model-comparison.versun.me

任务: 单页面力导向图,随机 100 个数据点,带基础交互功能。

完整复现包(提示词、生成结果、编码录屏)都扔 GitHub 了
TLDR:
完成度最高:GLM 5
速度最高:Opus 4.6
综合排名:GLM 5 > Opus 4.6 = GPT 5.3 Codex = Kimi 2.5 > MiniMax 2.5

两个最意外的:

GLM 5 和 MiniMax 2.5,glm 5 一贯是宣传的非常牛批,实际使用非常拉胯,想不到这次测试竟然表现最好,然后我最看好的 MiniMax 2.5 竟然表现最拉胯。。。。我甚至去调取了请求日志,确实是 minimax 2.5。。。

⚠️ 防杠补丁:本次测试纯属娱乐,仅针对当前提示词和模型版本有效。博主无任何厂商立场,也没收 GLM 一分钱