分享下这次的测试结果,结果有点魔幻,估计评论区又要锤我是水军了……
测试汇总:coding-model-comparison.versun.me
任务: 单页面力导向图,随机 100 个数据点,带基础交互功能。
完整复现包(提示词、生成结果、编码录屏)都扔 GitHub 了
TLDR:
完成度最高:GLM 5
速度最高:Opus 4.6
综合排名:GLM 5 > Opus 4.6 = GPT 5.3 Codex = Kimi 2.5 > MiniMax 2.5

两个最意外的:
GLM 5 和 MiniMax 2.5,glm 5 一贯是宣传的非常牛批,实际使用非常拉胯,想不到这次测试竟然表现最好,然后我最看好的 MiniMax 2.5 竟然表现最拉胯。。。。我甚至去调取了请求日志,确实是 minimax 2.5。。。
⚠️ 防杠补丁:本次测试纯属娱乐,仅针对当前提示词和模型版本有效。博主无任何厂商立场,也没收 GLM 一分钱