linux.do
21.4K subscribers
123K photos
199 videos
121 files
258K links
linux.do最新话题和热议话题
Download Telegram
DeepSeek V4感觉比Opus 4.7好

色盲题85秒一次通过. Opus 4.7在CC上开max个人测试了3次以上,无法通过.
洗车题更是毫不费力.
9.9-9.11用的instant也是对的
这三题都是我在CC上测试Opus 4.7答不对的问题.

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: SErAphLi)
DeepSeek v4 在 Arena.ai 排名出来了

Text Arena

目前貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。

Code Arena

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Dave)
DeepSeek V4 发布,我眩晕瘫坐在椅子上,就像看到了核弹爆炸。

deepsleep deep awake

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: chataii)
昇腾框架兼容

deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型 😶

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: lucas)
诶,Claude重置额度了吗?

在大家都在讨论GPT与Deepseek的时候,Claude害怕了做人了?
Claude Design也重置了,真好。
顺嘴一提,这几天北京移动挂梯子特别难用,发现Cloudflare的WARP又继续好用了,好!

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Rick)
分享了一张图片

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 𝒦𝒦𝒮𝒦)
罗福莉预测:AGI两年内实现,称中美顶尖大模型代差仅两三个月!

小米大模型团队负责人罗福莉判断,目前国内已有包括 Kimi、MiMo 在内的多家公司具备 1T 参数以上的基座模型,中美在预训练阶段已经基本不存在代差。

罗福莉表示,由于国内团队在预训练结构上具备一定优势,只要对 Agent 范式反应足够快,国内模型与 Claude Opus 4.6 等国外顶尖模型的代差实际上只有两三个月。她认为,未来两三个月将是考验各家大模型团队整体研究水平、技术敏捷度以及拥抱新范式能力的关键窗口期。

在 AGI 进程方面,她预估当前进度已达 20%,今年有望推进至 60% 到 70%,并预计 AGI 将在两年内实现。由于开源 Agent 框架(如 OpenClaw)的爆发激活了群体智能,允许框架和模型实现双向迭代,这正大幅加速研发进程。

https://mp.weixin.qq.com/s/zqnJuv5OVsNGEefM7RguqQ

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 你这是违法行为)
最近工作遇到点迷惑

各位老哥们好,我是一个毕业工作 2 年的新人,最近领导在给我安排工作的时候我之前的工作喜欢和工作方式好像和他期待的不太一样。想发出来让大家分析下是我太学生思维了吗?

----------------------

事件一 机器人验证

最近公司买了个机器人,他安排我去研究下,然后跑一个案例,能让他动起来。当时的原话是“你去跑一下网上这个案例,然后了解下他是怎么驱动起来的”

然后我就正常的跑官方案例,中间遇到很多环境,沟通的问题。重点是我对他的了解 可能只在表面,就是他是个什么,有哪些重要技术实现,然后基础的操作逻辑是什么。

但是事后领导让我分享的时候,会问的非常非常细致,比如这个技术 ROS 现在市场上使用情况怎么样,有没有其他控制方式,机器人我们如果自己独立二开应该是什么流程。

我总结一下是,我收到的消息是干 A 然后我根据字面意思理解为要做的任务,加一些必要的基础了解作为任务去做。 如果完全懂是 100 分,我感觉根据我的理解和他给我干的天数我做这个任务是 30 分。

但是他的要求和提问的内容我觉得算是 80 分。

事件二 硬件加速卡

最近让我调用一个 CGRA 的基础技术卡, 然后我就去看了下但是我只看了具体型号的卡,他的核心创新是什么,里面很多专有名词,我只理解个大概没有很深入的理解。

后面他问的时候就问的非常深入和广,比如这个 CGRA 技术实现原理,和 gpu ,ASIC 对比有什么优缺点,现在市场上还有谁在用。等等。

----------------------

由此我有一个疑问,他交给我的任务可能是一句具体的话“跑下这个案例”“调研下 xxx 加速卡” 我理解的是字面意思+一些基础的必要知识信息。

但是他后续给我的资源(天数比较少)和要求给我的感觉是他需要一个很懂,或者是至少是 70 分的理解水平,不只是任务本身,他的生态,原理,对比起等…

所有我想问下大多数工作都是这样的吗?是我太学生思维了还是一般情况下都会明确的告诉你你要干到是什么程度…

期望各位工作久了的前辈解惑下

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: mumong)
国内信用卡求推荐

想办一张用于订阅外网服务的信用卡?
大家有推荐的选择吗?之前没办过信用卡好申请吗?

5 个帖子 - 5 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: luoxue03)
到底怎么才能降低Qwen3.5-35B-A3B的think啊

大佬们 最近用最新的gpustack2.1.2版本 搭配8个L40装了Qwen3.5-35B-A3B的vllm模型。
官方文档说可以靠thinking_budget参数来调节思考的长度,但是根本不好使啊..
system角色写提示词要求它精简思考过程也不行。。。。

没招了..

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: werous)
gpt修改图片内容

佬友们有知道为什么gpt没办法精准识别修改图片的指令呢呢?明明ai指令很明确了,但是改了很多次还是改不对,有点弱智,pro模型也是如此。

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: k ivring)
实测Openclaw中的DeepSeek_V4 Pro

切换模型前,是我和opus的对话,大概有80k左右,大概是我让opus帮我改个东西,然后看到deepseek上线就赶紧切了试试…

结果就是完全无视我当前指令,认准一个地方乱冲…
那就…下次见吧

7 个帖子 - 7 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 原来如此)
发现gpt账号登录可以用5.5,放到cpa就不行了,cpa已经是最新版了

7 个帖子 - 5 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: cherryluvpy)
DeepSeek 橘子问题,思考过程里砍人了

DeepSeek 专家模式

思考过程里面开始砍人 :distorted_face:

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 哎呀肚子疼)
GPT 5.5测评:高效的推理和搞笑的能力

先放私有bench

GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的

或多或少都存在一些缺陷,整体质量不如5.4。
据传参数量也变大了,是oai目前第二大参数量的模型,可能在知识库和其他方面有所提升,但是预期代码感觉会比5.4更蠢,而且不说人话的毛病虽然改了些,但似乎还是一股味。

总体来说,对不起这个价格

——————————
四月份似乎所有厂商都拉了啊
Claude Opus 4.7测评:拉完了,达里奥也有自己的G 3 Pro 开发调优
先放私有bench [image] 到4.17号早上,佬们的各种骂声已经淹没L站了,就不多描述他的其他拉了 rofl 放一些结果 [image] 单说这个宝塔我说不如很多国模 [image] 渲染问题在往届没有过 [image] 审美也是区区的 而且这一代的思考时间极其长,堪比GPT,给我断流好几次 甚至知识库都更弱了 [image] 你如果说这是sonnet,…


kimi2.6测出来也是小范围蠕动。OAI也要坚守image 2的护城河了么
那么谷歌在哪里发财啊 :tieba_022:

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: HCPTangHY)