被说Kimi水军后，我重新进行了测试并开源

上次夸 Kimi 2.5 超过 opus-4.5 和 gpt-5.2 的文章一发(推特和小红书)，我评论区直接炸了。
"推广软文"、"Kimi给你多少钱"、"国产模型怎么可能比 Opus 强"……一排评论看下来，给我整不会了，说实话，被这么质疑挺憋屈的，毕竟 Kimi 也没给我钱呐，我莫名其妙的就成了水军了？

行吧，空口无凭吗，这几天我干脆做了个对照实验，非得验证下到底是我真傻，还是某些兄弟眼睛自带滤镜。

这次任务比上次还复杂，把我的 Rails 博客彻底重构为纯 Rails CMS，还要加上 Jekyll 静态文件生成功能。这意味着既要保留 CMS 的灵活性，又要搞定静态站点的速度、主题定制那些事儿，数据库迁移、文件系统操作、模板引擎全得动，算是个中度复杂的活。
--------------
TLDR：
完成度：GPT-5.2-high > Kimi 2.5 > Opus 4.5
速度：Kimi 2.5 > Opus 4.5 > GPT-5.2-high
代码质量： Kimi 2.5 = GPT-5.2-high > Opus 4.5
指令遵循度：Kimi 2.5 > GPT-5.2-high > Opus 4.5
性价比：Kimi 2.5 > GPT-5.2-high > Opus 4.5
综合体验：Kimi 2.5 > GPT-5.2-high > Opus 4.5

相关代码：
Github 仓库: github.com/versun/Rables
重构计划书：Rables/docs/plans/drifting-crafting-pillow.md
GPT-5.2-high 代码：github.com/versun/Rables/tree/codex-jeklly
Opus-4.5 代码：github.com/versun/Rables/tree/claude-jeklly
Kimi-2.5 代码：github.com/versun/Rables/tree/kimi-jeklly
--------------

计划详情

首先，我用 Opus 4.5 开 Thinkin 和 Plan 模式，写了一份详细的实施计划书，然后让 GPT-5.2-high 和 Kimi 2.5 分别审了一遍，查漏补缺，最后三家都用同一份计划书，提示词就一句话："根据文档内容，开始实施"，看谁执行得最到位。

最让我意外的Opus 4.5

刚开始还挺正常，完成阶段一后，问我是否继续，我说"继续，全部实施所有阶段，别问我了"。结果五分钟后它又停下了："阶段二已完成，是否添加测试用例"，之后无论我怎么确定，它都会继续询问确认，这跟之前那个骄傲自信、一次性干到底的 Opus 差太多了吧？

在最后提醒我全部完成后，我手动测试发现，很多小功能没有实现，而且最重要的同步功能报错无法使用，其它的功能比如迁移和交叉发布的设置页面有问题，简单说，是失败的一次重构。

老态龙钟的 GPT-5.2

值得一提的是，完成度达到了95%， but……太慢了。
我坐在那儿看它一行行磨，整整花了快三个小时才完成，而且做到后半段，它突然开始用英文回复我，然后开始实施不在计划内的功能，很明显是上下文压缩后失忆了，忘了之前的计划和自己的身份，得我手动提醒"请重新查看计划书"，它才想起来该干嘛，像是喝断片了，这应该是 codex cli 的锅。

最后说 Kimi 2.5

Claude Code + Kimi 2.5，半小时内搞定了，完成度和GPT差不多，都在90%以上，而且省心，中间只询问了一次是否继续，在得到肯定回答后，一直执行到全部功能完成，中间上下文也压缩了好几次，重要的同步逻辑、数据库结构都没有出错，且始终用中文回复，整个思考过程看着很舒服。

感想

说实话，我比谁都希望 GPT / Opus 赢，毕竟我的订阅2月15号才过期呢，为了省点 Kimi 的额度，现在只用他们来 review 代码或者写些不重要的代码，有点心疼，毕竟价格比 Kimi 贵好多！！

当然，我不敢说这就能证明 Kimi 全面超越谁，可能你的 Python 脚本 Opus 写得更好，或者你的 React 项目GPT 更稳，但至少在这个 Rails 后端重构的特定场景下，Kimi 2.5 的表现是最佳的。

代码在那儿，数据在那儿，信不过的话欢迎去下载下来跑一遍过来打脸。
最后希望国内的模型都卷起来，最后受益的还是我们这些烧着额度干活的程序员！
有啥实测结果的兄弟，欢迎交流，咱们就聊技术，别扣帽子哈