LinuxDo 新帖推送
189 subscribers
254K photos
317K links
Download Telegram
标题: 记一次对 Kimi K2.6 的真实项目需求的横向评测(首个 T1 榜国产模型)
作者: #SmallMain
板块: #开发调优
编号: 2019847
帖子: https://linux.do/t/topic/2019847
时间: 2026-04-21 15:17:16
摘要:
项目
这是一个 Unity C# 项目,我进行测试的是一份皮肤系统需求案,我已经做了好预制体,而模型需要编写代码。
本轮与上两轮评测的项目和环境都完全一致:

第一轮

第十轮

模型来源

Kimi K2.6: 官方 API

速度




排名
模型
时间(分钟)
备注




1
Grok 4.20 0309 Reasoning
3



2
Minimax M2.1
5



3
Minimax M2.5
6



4
Step-3.5-Flash
6



5
Mimo V2 Omni
7



6
Doubao-Seed-2.0-Lite
7



7
GPT-5.4(low)
8



8
Doubao-Seed-2.0-Pro
9



9
Doubao-Seed-2.0-Code
9



10
Qwen3-Coder-Next
9



11
Claude Sonnet 4.6(high)
9



12
Qwen3.5-Plus
9



13
GLM-5 Turbo
10



14
Minimax M2.7
10
Highspeed 版本


15
Qwen3.5-Flash
10



16
GPT-5.3-Codex(medium)
10



17
Gemini 3 Pro
11



18
Kimi K2.5
11



19
GLM 4.7
12



20
GPT-5.4(high)
14



21
Mimo V2 Pro
15



22
Claude Opus 4.5
15



23
Claude Sonnet 4.5
16



24
GPT-5.3-Codex(high)
16
触发了一次上下文压缩


25
GPT-5.3-Codex(xhigh)
16



26
GPT-5.4(medium)
17



27
GPT-5.4(xhigh)
18



28
Claude-Opus-4.7(Max)
20



29
GLM-5
20



30
DeppSeek V3.2
22



31
Gemini 3 Flash
22



32
KAT-Coder-Pro V2
24



33
GPT 5.2(xhigh)
25



34
Claude-Opus-4.6(Max)
26



35
Gemini 3.1 Pro(high)
29
受 429 请求频率限制影响


36
Kimi K2.6
33



37
Qwen3.5 9B GGUF Q4_K_XL
35
MBP M4 Pro 48GB 本地部署


38
Qwen3.5 35B A3B GGUF Q4_K_XL
36
MBP M4 Pro 48GB 本地部署



令牌数

Kimi K2.6: 9.9M(¥8.63, 输出 ¥2.07 + 缓存输入 ¥5.346 + 无缓存输入 ¥1.22)

代码行数

Kimi K2.6: +1422, -13

完成度
Kimi K2.6
审查结论:

详细 (click for more details)
代码质量
最终总结




排名
模型/层级
说明





Tier 0
该等级的模型实现与线上基线高度一致。


1
GPT 5.4(xhigh)



2
GPT 5.2(xhigh)



3
GPT-5.3-Codex(xhigh)




Tier 1
该等级的模型的代码正确完整且可编译,仅少量边界问题或轻微不一致。


4
GPT 5.4(high)



5
GPT 5.4(medium)



16
Kimi K2.6



6
GPT-5.3-Codex(high)



7
GPT-5.3-Codex(medium)



8
Claude Opus 4.6(Max)



9
GPT 5.2(medium)



10
GPT 5.4(low)



11
GPT 5.2 Codex(xhigh)



12
Claude Opus 4.5



13
Claude Sonnet 4.5




Tier 2
该等级的模型的代码至少可编译或仅极少量的语法错误,但是存在明显功能错误、遗漏或与需求/线上不一致。


14
GLM 5.1



15
GLM 5



16
Kimi K2.5



17
Claude Sonnet 4.6(high)



18
Qwen3.5-Plus



19
KAT-Coder-Pro V2




Tier 3
该等级的模型的问题很多且无法编译,或者存在不少幻觉。


20
Claude Opus 4.7(Max)



21
GLM 5 Turbo



22
GLM 4.7



23
Gemini 3.1 Pro(high)



24
Mimo V2 Pro



25
Mimo V2 Omni



26
Minimax M2.7



27
Minimax M2.5



28
Step-3.5-Flash



29
Qwen3-Coder-Next



30
Gemini 3 Pro



31
Gemini 3 Flash



32
Doubao-Seed-2.0-Code



33
Doubao-Seed-2.0-Pro



34
Doubao-Seed-2.0-Lite



35
Qwen3.5-Flash



36
Qwen3.5 35B A3B GGUF Q4_K_XL



37
Qwen3.5 9B GGUF Q4_K_XL



38
Grok 4.20 0309 Reasoning



39
DeepSeek V3.2



40
Minimax M2.1



41
GPT 5.1 Codex mini(medium)





体外话:很多人想知道 Qwen 3.6 全系列的评测,其实全系列都已测试过,但均未有很好的成绩,几乎都有一点编译错误,所以就不额外发帖了。如果你玩端侧的话,推荐 Qwen3.6 35B A3B 这个模型,质量确实非常不错。


Kimi K2.6 花费的时间是 33 分钟,这个速度可以说很慢了,对比 GPT-5.4(medium) 的话慢了一倍,但对比 Opus 4.6(Max) 只慢了 20% 左右。
总花费接近一千万 Token,使用 API 的成本为 8.63 人民币,这个花费不算非常高也谈不上便宜,但比 GLM 5.1 的价格要便宜一点。
缓存命中效果不错,大约 90% 的输入都命中了缓存。
Kimi K2.6 做对了绝大部分模型都未做对的系统注册和入口函数的改写,别看这两个改动都只需要一句代码,但是 GPT 与 Claude 的差距几乎总在这里,因为需求案是没有主动提到这两点的,属于是项目框架和已有功能的改进,如果模型不深入阅读代码库,则不会知道要写这两行代码。
另一个模型常犯的协议类型映射问题,Kimi K2.6 也做对了。
而以上两点 Opus 4.6 均未正确实现,当然 Opus 4.6 还有其它一些小问题,Kimi K2.6 也犯了几个小问题,但是以上两点决定了这个需求是否基本正确,是更重要的。
GPT 5.3 Codex High 与 Medium 这两个思考程度的模型,有一个未写对协议类型映射,有一个犯了一两个小问题,其实将 Kimi K2.6 排在它们前面或者后面都说得过去,我认为水平接近。
综合以上几点,并再综合我非常高兴终于有一个国产模型可以踏入 T1 行列,所以虽然水平相当,但我还是把 Kimi K2.6 排在 GPT 5.3 Codex 的前面!
不敢相信,以为这一刻会来的更晚,但它确实来了!
所有模型均采用一次过的方式完成测评,所以可能存在偶然性,大家可以积极试一试 Kimi K2.6,看看它的表现是否能达到评测的水平,期待你的反馈!

本次继续使用自己开发的开源 VS Code 插件 Unify Chat Provider 以实现在 Copilot 中使用以上模型。
标题: 如何在chatgpt.com 页面手动下载可以导入CPA 的认证文件
作者: #dalang
板块: #搞七捻三
编号: 2019848
帖子: https://linux.do/t/topic/2019848
时间: 2026-04-21 15:17:22
摘要:
标题: claudecode如何使用让opus指挥glm5干活
作者: #blueblueliu
板块: #开发调优
编号: 2019883
帖子: https://linux.do/t/topic/2019883
时间: 2026-04-21 15:20:11
摘要:
自己是claudepro会员,让它写代码的话实在是不够用,又弄了个glm,怎么让opus指挥glm写代码呢,都用claudecode的话,有没有啥好的工具,目前在用cc-switch,但好像实现不了这种场景
标题: 关于iot平台
作者: #Gettler
板块: #开发调优
编号: 2019906
帖子: https://linux.do/t/topic/2019906
时间: 2026-04-21 15:22:28
摘要:
边缘侧想用Node-Red做数采,想要找一个平台。需求是可以检测每个Node-Red网关的状态,统一管理网关,然后最好还要有组态做可视化图表的功能。
佬友们接触过类似的开源吗?我看着好像就thingsboard还行,但是说实在的用起来还是不大习惯
标题: 真的很无语 antigravity又来了一波骚操作
作者: #无敌熊猫
板块: #开发调优
编号: 2019909
帖子: https://linux.do/t/topic/2019909
时间: 2026-04-21 15:22:58
摘要:
在更新了最新版本之后 发现反应速度慢了好多啊 执行了一个命令会等好久才会执行下一个命令 这反人类的骚操作是一个有一个啊 这是真的无敌的产品啊 不想要这个产品就直接关闭退款 这样搞人心态 无语了 说明一下我是ultra主付费号 而且由于个人原因2天没有使用了  刚刚使用了后发现慢的要死 网络应该也没有问题
标题: 限制我工作效率的不是我的精力,而是 Claude Code 的限额
作者: #lsf
板块: #搞七捻三
编号: 2019912
帖子: https://linux.do/t/topic/2019912
时间: 2026-04-21 15:23:03
摘要:
又要逼我去休息了
标题: 关于装修各位佬有什么安利的或者避雷的经验吗
作者: #shiyi13
板块: #搞七捻三
编号: 2019914
帖子: https://linux.do/t/topic/2019914
时间: 2026-04-21 15:23:23
摘要:
最近房子需要装修,各位佬有什么安利或者避雷的吗?比如洗碗机,蒸烤箱需不需,全屋智能装了的佬使用感受如何。
标题: vibe coding如何测试
作者: #雁门看雪
板块: #开发调优
编号: 2019919
帖子: https://linux.do/t/topic/2019919
时间: 2026-04-21 15:23:38
摘要:
想问下佬友在vibe coding的时候是怎么进行测试的呢,我看有apifox的MCP,但是好像没什么用,但是说现在都是curl去测试吗
标题: 年纪大了,再不想重装系统,如何备份
作者: #kingstacker
板块: #搞七捻三
编号: 2019942
帖子: https://linux.do/t/topic/2019942
时间: 2026-04-21 15:26:07
摘要:
前日win11自动更新(可恶),导致DNF连发失效,PK被狠狠地锤了。
重装了系统,麻烦。还是抓紧备份才是王道。
C盘系统备份都用啥现在?
记忆留在了PE、ghost。
附王小波《黄金时代》摘选:
“那一天我二十一岁,在我一生的黄金时代。
我有好多奢望。我想爱,想吃,还想在一瞬间变成天上半明半暗的云。
后来我才知道,生活就是个缓慢受锤的过程,人一天天老下去,奢望也一天天消失,最后变得像挨了锤的牛一样。
可是我过二十一岁生日时没有预见到这一点。
我觉得自己会永远生猛下去,什么也锤不了我。”
标题: 真实风浪越大鱼越贵啊
作者: #SuperPPoko
板块: #搞七捻三
编号: 2019943
帖子: https://linux.do/t/topic/2019943
时间: 2026-04-21 15:26:24
摘要:
看了一眼之前买过的plus,基本全部缺货状态,要不大幅涨价.
标题: 分享一个节点 5.12到期 临时应急用的 自己用不完
作者: #布布大王
板块: #福利羊毛
编号: 2019948
帖子: https://linux.do/t/topic/2019948
时间: 2026-04-21 15:26:38
摘要:
佬友们自取~~
https://rutnzgnkphxs.sealosgzg.site/api/v1/ss/4861127019edceb8fc014edb33116ab3
标题: 国产模型到底哪个值得订阅?
作者: #linlang781
板块: #国产替代
编号: 2019969
帖子: https://linux.do/t/topic/2019969
时间: 2026-04-21 15:28:18
摘要:
kimi和glm和阿里的套餐哪个好用?gpt凉了考虑国模
标题: 苹果真就是时间管理大师啊
作者: #NAZA
板块: #搞七捻三
编号: 2019973
帖子: https://linux.do/t/topic/2019973
时间: 2026-04-21 15:28:40
摘要:
一个月前的订单,那时候小龙虾正火,Mac mini一机难求。
预计送达日期4/23-4/30,是一点也不给提前啊。
佬友有遇到这样的情况的吗?
标题: 佬 阿里视觉大模型怎么样
作者: #ytomt
板块: #开发调优
编号: 2019981
帖子: https://linux.do/t/topic/2019981
时间: 2026-04-21 15:29:43
摘要:
各位佬 Qwen3-VL-Plus、与Qwen3.6-Plus哪个目标检测效果好
标题: 问一下关于gpt的购买
作者: #黑大帅
板块: #开发调优
编号: 2020026
帖子: https://linux.do/t/topic/2020026
时间: 2026-04-21 15:33:45
摘要:
白嫖的公益站都倒了,现在不得不付费上班了…
现在应该怎么购买,刚刚才申请visa卡
或者是海鲜市场去买吗
还有什么号池什么的,都是一知半解的
预算50左右能行吗…
标题: 【ClawCloud+CPA】求教
作者: #大陈大
板块: #开发调优
编号: 2020032
帖子: https://linux.do/t/topic/2020032
时间: 2026-04-21 15:34:12
摘要:
在ClawCloud部署的CPA,今天链接访问提示:
no healthy upstream

有佬友遇到过吗?求指教
标题: GPT 的 plus 额度消耗的变快了
作者: #hezf
板块: #搞七捻三
编号: 2020050
帖子: https://linux.do/t/topic/2020050
时间: 2026-04-21 15:35:39
摘要:
以前都用不完的,这才改了一点代码 5 小时额度就只剩 30%了,周额度也掉了很多。。。
标题: 忆当年 收到了来自b站的律师函
作者: #helloergou
板块: #搞七捻三
编号: 2020052
帖子: https://linux.do/t/topic/2020052
时间: 2026-04-21 15:35:42
摘要:
各位开发软件还是要遵守纪律啊
当年直播间还有辣条可抢的时候
类似的业务还是挺火的 代挂
后面被阿b发现了 发来了律师函 被迫下了