linux.do
21.4K subscribers
123K photos
199 videos
121 files
259K links
linux.do最新话题和热议话题
Download Telegram
GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

Kimi-K2.6技术报告中和DeepSeek-v4技术报告中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗?

Kimi-K2.6技术报告截图如下:

DeepSeek-v4技术报告截图如下:

3 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Y.Ma)
都在看V4,有人用了GPT5.5吗?

RT,今早起床看到凌晨四点发了5.5,等到办公室已经是V4的消息满天飞了;我自己用了一下感觉好像和5.4区别不是很大……

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: dasfa123)
这个论坛没广子,问下大伙都用啥显示器

干活,打游戏都用,最好是4k的帧率不要太低,我之前用的4k144,看的舒服重要

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: paluncz)
西山居发声明否认解散及出售传闻 将追究造谣者法律责任

看到别处发的了,查了下站里还没有人发过。ishare.ifeng.com

西山居发声明否认解散及出售传闻 将追究造谣者法律责任

西山居发声明否认解散及出售传闻 将追究造谣者法律责任

看来昨天传的那人跑去自首估计也可能是真的了。这算是第一个用image-2整出事的吗?

重要的倒不是这件事本身,而是引发的思考。

以前像这种P个图造谣,还是有一定成本在里面的,有一些技术门槛,比如会PS啥的。现在image-2(以及之后更强的模型)出来,这种门槛几乎被踩没了,随便谁会打字,说句话,就能造假/造谣。多少之前有想法,但没技术的普通网民,都变身为一个造假好手。

更严重的是,很多时候,可能造谣者还并非出自恶意,只是觉得好玩(该例中感觉就是,当然违法还是违法)。

这就引出一个很严重问题:

当造谣/造假成本远低于辟谣和执法成本时,真相还存在吗?

当所有人动动手指,就能伪造一个大多数人难以辨别真假的截图/新闻/转账单/行情资讯/合同协议/…,而我们为了求证要付出10倍的时间和精力,公安为了辟谣要消耗10倍的行政资源时,这种求证和辟谣的模式就已经不可持续。我们的精力会很快被耗尽,政府的行政资源很快会捉襟见肘。

另一方面,虽然有人会声称还是"很好鉴别",并确实指出一些图片中的漏洞,但我觉得,谣言这东西,并不需要骗到所有人,只要大多数人相信,就足以构成谣言传播的土壤了。比如之前有人声称站里的老照片太假,是因为他"用过那个年代的相机,完全拍不出来那种质感",但是,还有很多人没用过呢?有很多年轻人没有经历过那个时代。不说别的,我感觉我家里的老人们,七大姑八大姨,对这类谣言就根本没有辨别的认知,要知道,很多人连豆包生图都是会信以为真的啊!

估计这几天绝大多数佬友都有这样的感觉,身边看到的几乎所有截图/照片/图片,第一反应都是"这估计是aigc吧"。当谣言遍地是,不到一分钱,几秒钟时间,就能由一个什么也不懂不会的吃瓜网民产出的时候,当我们对海量的虚假消息失去鉴别能力(一方面可能是由于造假技术的进步,一方面可能是我们的精力耗尽)的时候,

当我们对周围的所有资讯不得不采取彻底的怀疑论的时候,我们还能相信什么?

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Swiftlance)
DeepseekV4上线,模型在下了,昇腾的部署文档快端上来吧,已经饥渴难耐了

还记得上次部署deepseek还是在上次 🤔
4 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: shamiko)
Deepseek价格恐怖如斯 好贵啊

一个hi+一个分析系统的命令
花了11m41s
消耗4.13rmb

10 个帖子 - 10 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: slayer3320)
佬们,有没有本地大模型替代的

我电脑是m2 max 96G的,最近羊毛不好弄了,想本地部署一个大模型,求推荐适合代码的本地大模型,能偶尔用用的

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: xbc)
无人在意的角落,gpt5.5上主页了

We’re releasing GPT‑5.5, our smartest and most intuitive to use model yet, and the next step toward a new way of getting work done on a computer.

https://openai.com/index/introducing-gpt-5-5/

6 个帖子 - 6 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Viber)
deepseek v4pro解 base64加密

刚刚站里有开公益站的佬新上线了ds v4。并发布了cdk,但是加密的所以我就丢到官方渠道的ds v4pro上,思考了足足900秒才给出结果。。。。 是因为用的人太多导致的吗?

gpt-5.4倒是很快

grok-4.3 beta 思考了22s

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Suhuanzhen)
【CHY API公益站】终于2级了,抽500个1w额度兑换码

来社区好久了,终于2级啦!为了表达喜悦,也是搞了个抽奖好吧(这次绝对不会发不了奖品)
抽奖地址
兑奖地址
PS:求求不要再举报了,我不想被踢2级啊嘤嘤嘤嘤嘤
对了,注册也打开了

21 个帖子 - 21 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: CHY)
电子斗蛐蛐:小米mimo vs 智谱glm vs GPT

从该评论继续讨论:小米发布了MiMo-V2.5-Pro模型,有用过的感觉效果怎么样吗?

昨天使用了社区佬友分享的 mimo-v2.5-pro,当时解决了我一个困扰已久的问题,此问题 gpt-5.4/glm-5.1 都没有解决,今天又遇到一个类似的问题,我决定试一试 初始提示词相同 情况下(由于后期模型修复后的错误不一致,我尽量保持 prompt 的格式、风格一致),各个模型需要 额外 几次提示词能修复。

小米mimo、智谱glm 在 claude code 中运行,gpt 在 codex 中运行,插件、skill配置相似,统计数据来源:Claude Code History Viewer

战况如下:

mimo-v2.5-pro
额外 prompt 2次,合计消息98条,用时20分钟,token数 4.8M,文件修改数 1

glm-5v-turbo
额外 prompt 8次,编译错误1次,合计消息183条,用时25分钟,token数 4.3M,文件修改数 1

glm-5.1
额外 prompt 3次,合计消息69条(主agent 52条,subagent 17条),用时38分钟,token数 2.5M,文件修改数 2

gpt-5.4-xhigh
额外 prompt 3次,合计消息491条,用时59分钟,token数 25.6M,文件修改数 4

----------------------

主观体验:

mimo-v2.5-pro 输出很快(60~90 t/s),非常喜欢调用工具,有点gpt的味道。

glm-5v-turbo 输出很快(40~60 t/s),但是代码检查不到位,会出现编译错误,体验一般。

glm-5.1 似乎是用量太大的原因?我的lite订阅输出非常慢(6-20 t/s),输出质量不错,跟 mimo-v2.5-pro 伯仲之间,而且他的总消息数小于mimo,用了更少的工具,得到了正确答案,还充分利用了subagent 能力,但是由于吞吐速度慢,整体耗时很长,体验有点差。

gpt-5.4-xhigh 吞吐速度一般(30~60 t/s),由于我没有官方订阅,使用的是社区佬友的公益,速度仅作参考。体验大家也知道的,gpt不爱说人话,喜欢先调用一大堆工具,然后输出。面对这个问题使用了 3 次额外提示,修改了4个文件,没有想象中的那么精准。

----------------------

本场斗蛐蛐的胜者是:mimo-v2.5-pro / glm-5.1

mimo-v2.5-pro 用较少的prompt尽快的定位了问题并修复,展示了自己作为挑战者的底气。glm-5.1 则以较少的工具调用次数、较少的token消耗证明了自己国模一哥的地位。评价为

glm-5v-turbo 在本场中评为 拉完了,出现编译错误非常扣分。

gpt-5.4-xhigh 本场评为 拉完了,没有符合大家对它较高的期待,并且大量的token消耗,和最长的用时,但是鉴于平时可靠的长任务运行,提升到 NPC

本次测评评价仅供娱乐,测评场景单一,不符合任何科学测试原则,不作为任何 XXX plan 购入参考,不包含对任何公司的客观评价依据。

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Junerver)
我觉得我这周是, 做完你的(gptimage2),做你的(kimi2.6),做完他的(gpt5.5),做他的(deepseekv4)

大家都用上没
刚用上5.5,
不知道消耗是5.4的多少倍。。。。。

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 三卷儿)
太强了佬,下次不敢了!

邮箱提前一个小时给我干欠费了,充值估计也是秒欠费,只能临时关掉邮箱验证码。
Redis数据库干爆了,上次mysql没扛住,这次换Redis一样炸。

但是有一个好消息,注册成功的有很多是随机字符的@gmail.com结尾的邮箱,我尝试发送邮件,收到退信,原因用户不存在,等几天我就来清理一下这批账号,重新回流。

10 个帖子 - 10 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: picpi)
恭喜deepseek v4终于出来了,国模集体抬头

deepseek v4终于出来了,国内大模型以deepseek为首再次集体抬头,直逼三巨头

5 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: zo1223)
飞升2级成功,3级且听龙吟

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 雪山飞狐)
貌似gpt5.5在windows中会默认使用powershell5

前端时间为了避免codex的powershell老报错,我把powershell5换成了powershell7
但是今天gpt5.5出来之后,我使用中又发现了powershell报错,于是排查了一下发现好像gpt5.5会默认使用powershell5?

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Immey)
有实力的来跟你们的老婆们视频通话吧

一张照片。一个活生生的数字人类。
你是否曾梦想拥有属于自己的J.A.R.V.I.S.——一个真正看见你、听到你并实时回应的人工智能?
想再次见到失去的人,听他们的声音,看他们对你微笑吗?
或者你一直希望能赋予一个角色生命?
就一张照片。赛博宇宙让他们活了起来。

CyberVerse 是一个开源的数字真人代理平台,支持实时视频通话。创建一个你可以面对面看到和交流的 AI 代理,就像视频通话一样。

实时视频通话

非预录。非回合制。与数字真人进行无限时长、实时、低延迟的视频通话——首帧约1.5秒。基于WebRTC,支持P2P流式传输和嵌入式TURN/NAT穿越。

开源地址: GitHub - dsd2077/CyberVerse: CyberVerse is an open-source digital human agent platform with real-time video calling. Create an AI agent you can see and talk to, face to face, just like a video call. · GitHub

效果视频: 数字人实时视频通话演示——小龙女

3 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 弥夏)