被说Kimi水军后,我重新进行了测试并开源

上次夸 Kimi 2.5 超过 opus-4.5 和 gpt-5.2 的文章一发(推特和小红书),我评论区直接炸了。
"推广软文"、"Kimi给你多少钱"、"国产模型怎么可能比 Opus 强"……一排评论看下来,给我整不会了,说实话,被这么质疑挺憋屈的,毕竟 Kimi 也没给我钱呐,我莫名其妙的就成了水军了?

行吧,空口无凭吗,这几天我干脆做了个对照实验,非得验证下到底是我真傻,还是某些兄弟眼睛自带滤镜。

这次任务比上次还复杂,把我的 Rails 博客彻底重构为纯 Rails CMS,还要加上 Jekyll 静态文件生成功能。这意味着既要保留 CMS 的灵活性,又要搞定静态站点的速度、主题定制那些事儿,数据库迁移、文件系统操作、模板引擎全得动,算是个中度复杂的活。
--------------
TLDR:
完成度:GPT-5.2-high > Kimi 2.5 > Opus 4.5
速度:Kimi 2.5  > Opus 4.5 > GPT-5.2-high
代码质量: Kimi 2.5 = GPT-5.2-high > Opus 4.5
指令遵循度:Kimi 2.5  > GPT-5.2-high > Opus 4.5
性价比:Kimi 2.5  > GPT-5.2-high > Opus 4.5
综合体验:Kimi 2.5  > GPT-5.2-high > Opus 4.5

相关代码:
Github 仓库: github.com/versun/Rables
重构计划书:Rables/docs/plans/drifting-crafting-pillow.md
GPT-5.2-high 代码:github.com/versun/Rables/tree/codex-jeklly
Opus-4.5 代码:github.com/versun/Rables/tree/claude-jeklly
Kimi-2.5 代码:github.com/versun/Rables/tree/kimi-jeklly
--------------

计划详情

首先,我用 Opus 4.5 开 Thinkin 和 Plan 模式,写了一份详细的实施计划书,然后让 GPT-5.2-high 和 Kimi 2.5 分别审了一遍,查漏补缺,最后三家都用同一份计划书,提示词就一句话:"根据文档内容,开始实施",看谁执行得最到位。

最让我意外的Opus 4.5

刚开始还挺正常,完成阶段一后,问我是否继续,我说"继续,全部实施所有阶段,别问我了"。结果五分钟后它又停下了:"阶段二已完成,是否添加测试用例",之后无论我怎么确定,它都会继续询问确认,这跟之前那个骄傲自信、一次性干到底的 Opus 差太多了吧?

在最后提醒我全部完成后,我手动测试发现,很多小功能没有实现,而且最重要的同步功能报错无法使用,其它的功能比如迁移和交叉发布的设置页面有问题,简单说,是失败的一次重构。

老态龙钟的 GPT-5.2

值得一提的是,完成度达到了95%, but……太慢了。
我坐在那儿看它一行行磨,整整花了快三个小时才完成,而且做到后半段,它突然开始用英文回复我,然后开始实施不在计划内的功能,很明显是上下文压缩后失忆了,忘了之前的计划和自己的身份,得我手动提醒"请重新查看计划书",它才想起来该干嘛,像是喝断片了,这应该是 codex cli 的锅。

最后说 Kimi 2.5

Claude Code + Kimi 2.5,半小时内搞定了,完成度和GPT差不多,都在90%以上,而且省心,中间只询问了一次是否继续,在得到肯定回答后,一直执行到全部功能完成,中间上下文也压缩了好几次,重要的同步逻辑、数据库结构都没有出错,且始终用中文回复,整个思考过程看着很舒服。

感想

说实话,我比谁都希望 GPT / Opus 赢,毕竟我的订阅2月15号才过期呢,为了省点 Kimi 的额度,现在只用他们来 review 代码或者写些不重要的代码,有点心疼,毕竟价格比 Kimi 贵好多!!

当然,我不敢说这就能证明 Kimi 全面超越谁,可能你的 Python 脚本 Opus 写得更好,或者你的 React 项目GPT 更稳,但至少在这个 Rails 后端重构的特定场景下,Kimi 2.5 的表现是最佳的。

代码在那儿,数据在那儿,信不过的话欢迎去下载下来跑一遍过来打脸。
最后希望国内的模型都卷起来,最后受益的还是我们这些烧着额度干活的程序员!
有啥实测结果的兄弟,欢迎交流,咱们就聊技术,别扣帽子哈

Comments (4)

E
edvin 5 months ago
你可以再加一个价格的数字对比,我用下来感觉OPUS一天干不了几件事就花5美金,然而5美金的kimi我用了一周了
V
Versun 5 months ago
有的哈,在TLDR章节有个性价比,kimi性价比最高了
H
hugo 5 months ago
这个计划书是怎么来的啊?是LLM生成的么?这也太长了...
V
Versun 5 months ago
哈哈,对的,用 Opus 4.5 开 Thinkin 和 Plan 模式,写了一份详细的实施计划书,然后让 GPT-5.2-high 和 Kimi 2.5 分别审了一遍,查漏补缺