linux.do – Telegram

linux.do

21.4K subscribers

123K photos

199 videos

121 files

259K links

linux.do最新话题和热议话题

Download Telegram

About

Blog

Apps

Platform

21.4K subscribers

GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？

Kimi-K2.6技术报告截图如下：

DeepSeek-v4技术报告截图如下：

3 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Y.Ma)

32 views04:19

都在看V4，有人用了GPT5.5吗？

RT,今早起床看到凌晨四点发了5.5，等到办公室已经是V4的消息满天飞了；我自己用了一下感觉好像和5.4区别不是很大……

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: dasfa123)

33 views04:19

这个论坛没广子，问下大伙都用啥显示器

干活，打游戏都用，最好是4k的帧率不要太低，我之前用的4k144，看的舒服重要

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: paluncz)

40 views04:19

西山居发声明否认解散及出售传闻将追究造谣者法律责任

看到别处发的了，查了下站里还没有人发过。ishare.ifeng.com

西山居发声明否认解散及出售传闻将追究造谣者法律责任

西山居发声明否认解散及出售传闻将追究造谣者法律责任

看来昨天传的那人跑去自首估计也可能是真的了。这算是第一个用image-2整出事的吗？

重要的倒不是这件事本身，而是引发的思考。

以前像这种P个图造谣，还是有一定成本在里面的，有一些技术门槛，比如会PS啥的。现在image-2（以及之后更强的模型）出来，这种门槛几乎被踩没了，随便谁会打字，说句话，就能造假/造谣。多少之前有想法，但没技术的普通网民，都变身为一个造假好手。

更严重的是，很多时候，可能造谣者还并非出自恶意，只是觉得好玩（该例中感觉就是，当然违法还是违法）。

这就引出一个很严重问题：

当造谣/造假成本远低于辟谣和执法成本时，真相还存在吗？

当所有人动动手指，就能伪造一个大多数人难以辨别真假的截图/新闻/转账单/行情资讯/合同协议/…，而我们为了求证要付出10倍的时间和精力，公安为了辟谣要消耗10倍的行政资源时，这种求证和辟谣的模式就已经不可持续。我们的精力会很快被耗尽，政府的行政资源很快会捉襟见肘。

另一方面，虽然有人会声称还是"很好鉴别"，并确实指出一些图片中的漏洞，但我觉得，谣言这东西，并不需要骗到所有人，只要大多数人相信，就足以构成谣言传播的土壤了。比如之前有人声称站里的老照片太假，是因为他"用过那个年代的相机，完全拍不出来那种质感"，但是，还有很多人没用过呢？有很多年轻人没有经历过那个时代。不说别的，我感觉我家里的老人们，七大姑八大姨，对这类谣言就根本没有辨别的认知，要知道，很多人连豆包生图都是会信以为真的啊！

估计这几天绝大多数佬友都有这样的感觉，身边看到的几乎所有截图/照片/图片，第一反应都是"这估计是aigc吧"。当谣言遍地是，不到一分钱，几秒钟时间，就能由一个什么也不懂不会的吃瓜网民产出的时候，当我们对海量的虚假消息失去鉴别能力（一方面可能是由于造假技术的进步，一方面可能是我们的精力耗尽）的时候，

当我们对周围的所有资讯不得不采取彻底的怀疑论的时候，我们还能相信什么？

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Swiftlance)

52 views04:19

DeepseekV4上线，模型在下了，昇腾的部署文档快端上来吧，已经饥渴难耐了

还记得上次部署deepseek还是在上次 🤔
4 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: shamiko)

41 views04:37

Deepseek价格恐怖如斯好贵啊

一个hi+一个分析系统的命令
花了11m41s
消耗4.13rmb

10 个帖子 - 10 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: slayer3320)

38 views04:37

佬们，有没有本地大模型替代的

我电脑是m2 max 96G的，最近羊毛不好弄了，想本地部署一个大模型，求推荐适合代码的本地大模型，能偶尔用用的

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: xbc)

28 views04:37

无人在意的角落，gpt5.5上主页了

We’re releasing GPT‑5.5, our smartest and most intuitive to use model yet, and the next step toward a new way of getting work done on a computer.

https://openai.com/index/introducing-gpt-5-5/

6 个帖子 - 6 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Viber)

24 views04:37

deepseek v4pro解 base64加密

刚刚站里有开公益站的佬新上线了ds v4。并发布了cdk，但是加密的所以我就丢到官方渠道的ds v4pro上，思考了足足900秒才给出结果。。。。是因为用的人太多导致的吗？

gpt-5.4倒是很快

grok-4.3 beta 思考了22s

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Suhuanzhen)

24 views04:37

【CHY API公益站】终于2级了，抽500个1w额度兑换码

来社区好久了，终于2级啦！为了表达喜悦，也是搞了个抽奖好吧（这次绝对不会发不了奖品）
抽奖地址
兑奖地址

PS:求求不要再举报了，我不想被踢2级啊嘤嘤嘤嘤嘤

对了，注册也打开了

21 个帖子 - 21 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: CHY)

21 views04:37

电子斗蛐蛐：小米mimo vs 智谱glm vs GPT

从该评论继续讨论：小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗？

昨天使用了社区佬友分享的 mimo-v2.5-pro，当时解决了我一个困扰已久的问题，此问题 gpt-5.4/glm-5.1 都没有解决，今天又遇到一个类似的问题，我决定试一试 初始提示词相同 情况下（由于后期模型修复后的错误不一致，我尽量保持 prompt 的格式、风格一致），各个模型需要额外几次提示词能修复。

小米mimo、智谱glm 在 claude code 中运行，gpt 在 codex 中运行，插件、skill配置相似，统计数据来源：Claude Code History Viewer

战况如下：

mimo-v2.5-pro：
额外 prompt 2次，合计消息98条，用时20分钟，token数 4.8M，文件修改数 1

glm-5v-turbo：
额外 prompt 8次，编译错误1次，合计消息183条，用时25分钟，token数 4.3M，文件修改数 1

glm-5.1：
额外 prompt 3次，合计消息69条（主agent 52条，subagent 17条），用时38分钟，token数 2.5M，文件修改数 2

gpt-5.4-xhigh：
额外 prompt 3次，合计消息491条，用时59分钟，token数 25.6M，文件修改数 4

----------------------

主观体验：

mimo-v2.5-pro 输出很快（60~90 t/s），非常喜欢调用工具，有点gpt的味道。

glm-5v-turbo 输出很快（40~60 t/s），但是代码检查不到位，会出现编译错误，体验一般。

glm-5.1 似乎是用量太大的原因？我的lite订阅输出非常慢（6-20 t/s），输出质量不错，跟 mimo-v2.5-pro 伯仲之间，而且他的总消息数小于mimo，用了更少的工具，得到了正确答案，还充分利用了subagent 能力，但是由于吞吐速度慢，整体耗时很长，体验有点差。

gpt-5.4-xhigh 吞吐速度一般（30~60 t/s），由于我没有官方订阅，使用的是社区佬友的公益，速度仅作参考。体验大家也知道的，gpt不爱说人话，喜欢先调用一大堆工具，然后输出。面对这个问题使用了 3 次额外提示，修改了4个文件，没有想象中的那么精准。

----------------------

本场斗蛐蛐的胜者是：mimo-v2.5-pro / glm-5.1

mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复，展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为夯。

glm-5v-turbo 在本场中评为 拉完了，出现编译错误非常扣分。

gpt-5.4-xhigh 本场评为 拉完了，没有符合大家对它较高的期待，并且大量的token消耗，和最长的用时，但是鉴于平时可靠的长任务运行，提升到 NPC。

本次测评评价仅供娱乐，测评场景单一，不符合任何科学测试原则，不作为任何 XXX plan 购入参考，不包含对任何公司的客观评价依据。

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Junerver)

19 views04:37

我觉得我这周是，做完你的（gptimage2），做你的（kimi2.6），做完他的(gpt5.5)，做他的(deepseekv4)

大家都用上没
刚用上5.5，
不知道消耗是5.4的多少倍。。。。。

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 三卷儿)

21 views04:37

太强了佬，下次不敢了！

● 邮箱提前一个小时给我干欠费了，充值估计也是秒欠费，只能临时关掉邮箱验证码。
● Redis数据库干爆了，上次mysql没扛住，这次换Redis一样炸。

但是有一个好消息，注册成功的有很多是随机字符的@gmail.com结尾的邮箱，我尝试发送邮件，收到退信，原因用户不存在，等几天我就来清理一下这批账号，重新回流。

10 个帖子 - 10 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: picpi)

22 views04:37

恭喜deepseek v4终于出来了，国模集体抬头

deepseek v4终于出来了，国内大模型以deepseek为首再次集体抬头，直逼三巨头

5 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: zo1223)

23 views04:37

飞升2级成功，3级且听龙吟

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 雪山飞狐)

24 views04:37

貌似gpt5.5在windows中会默认使用powershell5

前端时间为了避免codex的powershell老报错，我把powershell5换成了powershell7
但是今天gpt5.5出来之后，我使用中又发现了powershell报错，于是排查了一下发现好像gpt5.5会默认使用powershell5？

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Immey)

27 views04:38

有实力的来跟你们的老婆们视频通话吧

一张照片。一个活生生的数字人类。

你是否曾梦想拥有属于自己的J.A.R.V.I.S.——一个真正看见你、听到你并实时回应的人工智能？

想再次见到失去的人，听他们的声音，看他们对你微笑吗？

或者你一直希望能赋予一个角色生命？

就一张照片。赛博宇宙让他们活了起来。

CyberVerse 是一个开源的数字真人代理平台，支持实时视频通话。创建一个你可以面对面看到和交流的 AI 代理，就像视频通话一样。

实时视频通话

非预录。非回合制。与数字真人进行无限时长、实时、低延迟的视频通话——首帧约1.5秒。基于WebRTC，支持P2P流式传输和嵌入式TURN/NAT穿越。

开源地址： GitHub - dsd2077/CyberVerse: CyberVerse is an open-source digital human agent platform with real-time video calling. Create an AI agent you can see and talk to, face to face, just like a video call. · GitHub

效果视频：数字人实时视频通话演示——小龙女

3 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 弥夏)

26 views04:38