LinuxDo 新帖推送

标题: 记一次对 Kimi K2.6 的真实项目需求的横向评测（首个 T1 榜国产模型）
作者: #SmallMain
板块: #开发调优
编号: 2019847
帖子: https://linux.do/t/topic/2019847
时间: 2026-04-21 15:17:16
摘要:
项目
这是一个 Unity C# 项目，我进行测试的是一份皮肤系统需求案，我已经做了好预制体，而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致：

第一轮
…
第十轮

模型来源

Kimi K2.6: 官方 API

速度




排名
模型
时间（分钟）
备注




1
Grok 4.20 0309 Reasoning
3



2
Minimax M2.1
5



3
Minimax M2.5
6



4
Step-3.5-Flash
6



5
Mimo V2 Omni
7



6
Doubao-Seed-2.0-Lite
7



7
GPT-5.4(low)
8



8
Doubao-Seed-2.0-Pro
9



9
Doubao-Seed-2.0-Code
9



10
Qwen3-Coder-Next
9



11
Claude Sonnet 4.6(high)
9



12
Qwen3.5-Plus
9



13
GLM-5 Turbo
10



14
Minimax M2.7
10
Highspeed 版本


15
Qwen3.5-Flash
10



16
GPT-5.3-Codex(medium)
10



17
Gemini 3 Pro
11



18
Kimi K2.5
11



19
GLM 4.7
12



20
GPT-5.4(high)
14



21
Mimo V2 Pro
15



22
Claude Opus 4.5
15



23
Claude Sonnet 4.5
16



24
GPT-5.3-Codex(high)
16
触发了一次上下文压缩


25
GPT-5.3-Codex(xhigh)
16



26
GPT-5.4(medium)
17



27
GPT-5.4(xhigh)
18



28
Claude-Opus-4.7(Max)
20



29
GLM-5
20



30
DeppSeek V3.2
22



31
Gemini 3 Flash
22



32
KAT-Coder-Pro V2
24



33
GPT 5.2(xhigh)
25



34
Claude-Opus-4.6(Max)
26



35
Gemini 3.1 Pro(high)
29
受 429 请求频率限制影响


36
Kimi K2.6
33



37
Qwen3.5 9B GGUF Q4_K_XL
35
MBP M4 Pro 48GB 本地部署


38
Qwen3.5 35B A3B GGUF Q4_K_XL
36
MBP M4 Pro 48GB 本地部署



令牌数

Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

Kimi K2.6: +1422, -13

完成度
Kimi K2.6
审查结论:

详细 (click for more details)
代码质量
最终总结




排名
模型/层级
说明





Tier 0
该等级的模型实现与线上基线高度一致。


1
GPT 5.4(xhigh)



2
GPT 5.2(xhigh)



3
GPT-5.3-Codex(xhigh)




Tier 1
该等级的模型的代码正确完整且可编译，仅少量边界问题或轻微不一致。


4
GPT 5.4(high)



5
GPT 5.4(medium)



16
Kimi K2.6



6
GPT-5.3-Codex(high)



7
GPT-5.3-Codex(medium)



8
Claude Opus 4.6(Max)



9
GPT 5.2(medium)



10
GPT 5.4(low)



11
GPT 5.2 Codex(xhigh)



12
Claude Opus 4.5



13
Claude Sonnet 4.5




Tier 2
该等级的模型的代码至少可编译或仅极少量的语法错误，但是存在明显功能错误、遗漏或与需求/线上不一致。


14
GLM 5.1



15
GLM 5



16
Kimi K2.5



17
Claude Sonnet 4.6(high)



18
Qwen3.5-Plus



19
KAT-Coder-Pro V2




Tier 3
该等级的模型的问题很多且无法编译，或者存在不少幻觉。


20
Claude Opus 4.7(Max)



21
GLM 5 Turbo



22
GLM 4.7



23
Gemini 3.1 Pro(high)



24
Mimo V2 Pro



25
Mimo V2 Omni



26
Minimax M2.7



27
Minimax M2.5



28
Step-3.5-Flash



29
Qwen3-Coder-Next



30
Gemini 3 Pro



31
Gemini 3 Flash



32
Doubao-Seed-2.0-Code



33
Doubao-Seed-2.0-Pro



34
Doubao-Seed-2.0-Lite



35
Qwen3.5-Flash



36
Qwen3.5 35B A3B GGUF Q4_K_XL



37
Qwen3.5 9B GGUF Q4_K_XL



38
Grok 4.20 0309 Reasoning



39
DeepSeek V3.2



40
Minimax M2.1



41
GPT 5.1 Codex mini(medium)





体外话：很多人想知道 Qwen 3.6 全系列的评测，其实全系列都已测试过，但均未有很好的成绩，几乎都有一点编译错误，所以就不额外发帖了。如果你玩端侧的话，推荐 Qwen3.6 35B A3B 这个模型，质量确实非常不错。


Kimi K2.6 花费的时间是 33 分钟，这个速度可以说很慢了，对比 GPT-5.4(medium) 的话慢了一倍，但对比 Opus 4.6(Max) 只慢了 20% 左右。
总花费接近一千万 Token，使用 API 的成本为 8.63 人民币，这个花费不算非常高也谈不上便宜，但比 GLM 5.1 的价格要便宜一点。
缓存命中效果不错，大约 90% 的输入都命中了缓存。
Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写，别看这两个改动都只需要一句代码，但是 GPT 与 Claude 的差距几乎总在这里，因为需求案是没有主动提到这两点的，属于是项目框架和已有功能的改进，如果模型不深入阅读代码库，则不会知道要写这两行代码。
另一个模型常犯的协议类型映射问题，Kimi K2.6 也做对了。
而以上两点 Opus 4.6 均未正确实现，当然 Opus 4.6 还有其它一些小问题，Kimi K2.6 也犯了几个小问题，但是以上两点决定了这个需求是否基本正确，是更重要的。
GPT 5.3 Codex High 与 Medium 这两个思考程度的模型，有一个未写对协议类型映射，有一个犯了一两个小问题，其实将 Kimi K2.6 排在它们前面或者后面都说得过去，我认为水平接近。
综合以上几点，并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列，所以虽然水平相当，但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面！
不敢相信，以为这一刻会来的更晚，但它确实来了！
所有模型均采用一次过的方式完成测评，所以可能存在偶然性，大家可以积极试一试 Kimi K2.6，看看它的表现是否能达到评测的水平，期待你的反馈！

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
2 views07:17