linux.do
21.4K subscribers
122K photos
199 videos
121 files
258K links
linux.do最新话题和热议话题
Download Telegram
DeepSeek V4 Pro测评:抱歉没能让GLM大人尽兴

依旧先放私有bench

这个模型吧,他的思考效率极低,,经常思考个600-1000秒
但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了
写出来的很多东西只能说想法很好,但能力不足

在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多,不像某些没能尽兴的模型

不过在知识库上确实是Gemini之下差不多最强的了

当前价格是12/24,OR折算美元1.74/3.48,对比GLM 5.1还是贵了不少的
只能希望公告里所谓的下半年国产算力之后能有大幅降价吧

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: HCPTangHY)
Telegram必备的搜索引擎,极搜JISOU帮你精准找到,想要的群组、频道、视频、音乐

👉 t.me/jisou?start=a_7387292324
盖棺定论了dsv4p低于glm5.1甚至可能不如mimo2.5p

测了魔方
ds完全不如glm5.1甚至不如mimo2.5p
测了拉煤问题ds也拉完了
陨落了ds

7 个帖子 - 7 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Ningbainb)
DeepSeek V4首曝生产级Agent沙盒DSec:单集群调度数十万并发,统一四种异构底座

DeepSeek V4 技术报告首次公开了支撑 Agent 后训练与海量评测的核心基础设施,生产级弹性计算沙盒 DSec(DeepSeek Elastic Compute)。

当前大模型强化学习需要极其庞大的代码试错环境。报告披露,在实际生产中,单个 DSec 集群能同时调度数十万个并发沙盒。系统由 Rust 编写,底层对接自研 3FS 分布式文件系统,通过层级按需加载(on-demand loading)打破了海量沙盒冷启动的性能瓶颈。

在开发者体验上,DSec 用一套 Python SDK 统一了函数调用、容器、微型虚拟机和完整虚拟机四种执行底座,切换时仅需修改一个参数。针对算力集群常见的任务被抢占问题,DSec 引入了全局轨迹日志:当任务恢复时,系统会直接「快进」重放已缓存的命令执行结果,既实现了极速断点续训,又避免了因重复执行带来的非幂等错误。

huggingface.co

DeepSeek_V4.pdf

68.21 KB

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 你这是违法行为)
DeepSeekV4发布,终于不是我已急哭😭

官方宣传性能达到顶级闭源模型水平,佬友们去测测看,不多说了,我先试试

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 辛逝纪芙音战士)
明天就飞升了?

我倒要看看这三级仙界究竟有什么名堂,是不是遍地黄金,遍地仙丹 🧐

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: PixelFixer)
DeepSeek V4感觉比Opus 4.7好

色盲题85秒一次通过. Opus 4.7在CC上开max个人测试了3次以上,无法通过.
洗车题更是毫不费力.
9.9-9.11用的instant也是对的
这三题都是我在CC上测试Opus 4.7答不对的问题.

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: SErAphLi)
DeepSeek v4 在 Arena.ai 排名出来了

Text Arena

目前貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。

Code Arena

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Dave)
DeepSeek V4 发布,我眩晕瘫坐在椅子上,就像看到了核弹爆炸。

deepsleep deep awake

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: chataii)
昇腾框架兼容

deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型 😶

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: lucas)
诶,Claude重置额度了吗?

在大家都在讨论GPT与Deepseek的时候,Claude害怕了做人了?
Claude Design也重置了,真好。
顺嘴一提,这几天北京移动挂梯子特别难用,发现Cloudflare的WARP又继续好用了,好!

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Rick)
分享了一张图片

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 𝒦𝒦𝒮𝒦)
罗福莉预测:AGI两年内实现,称中美顶尖大模型代差仅两三个月!

小米大模型团队负责人罗福莉判断,目前国内已有包括 Kimi、MiMo 在内的多家公司具备 1T 参数以上的基座模型,中美在预训练阶段已经基本不存在代差。

罗福莉表示,由于国内团队在预训练结构上具备一定优势,只要对 Agent 范式反应足够快,国内模型与 Claude Opus 4.6 等国外顶尖模型的代差实际上只有两三个月。她认为,未来两三个月将是考验各家大模型团队整体研究水平、技术敏捷度以及拥抱新范式能力的关键窗口期。

在 AGI 进程方面,她预估当前进度已达 20%,今年有望推进至 60% 到 70%,并预计 AGI 将在两年内实现。由于开源 Agent 框架(如 OpenClaw)的爆发激活了群体智能,允许框架和模型实现双向迭代,这正大幅加速研发进程。

https://mp.weixin.qq.com/s/zqnJuv5OVsNGEefM7RguqQ

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 你这是违法行为)
最近工作遇到点迷惑

各位老哥们好,我是一个毕业工作 2 年的新人,最近领导在给我安排工作的时候我之前的工作喜欢和工作方式好像和他期待的不太一样。想发出来让大家分析下是我太学生思维了吗?

----------------------

事件一 机器人验证

最近公司买了个机器人,他安排我去研究下,然后跑一个案例,能让他动起来。当时的原话是“你去跑一下网上这个案例,然后了解下他是怎么驱动起来的”

然后我就正常的跑官方案例,中间遇到很多环境,沟通的问题。重点是我对他的了解 可能只在表面,就是他是个什么,有哪些重要技术实现,然后基础的操作逻辑是什么。

但是事后领导让我分享的时候,会问的非常非常细致,比如这个技术 ROS 现在市场上使用情况怎么样,有没有其他控制方式,机器人我们如果自己独立二开应该是什么流程。

我总结一下是,我收到的消息是干 A 然后我根据字面意思理解为要做的任务,加一些必要的基础了解作为任务去做。 如果完全懂是 100 分,我感觉根据我的理解和他给我干的天数我做这个任务是 30 分。

但是他的要求和提问的内容我觉得算是 80 分。

事件二 硬件加速卡

最近让我调用一个 CGRA 的基础技术卡, 然后我就去看了下但是我只看了具体型号的卡,他的核心创新是什么,里面很多专有名词,我只理解个大概没有很深入的理解。

后面他问的时候就问的非常深入和广,比如这个 CGRA 技术实现原理,和 gpu ,ASIC 对比有什么优缺点,现在市场上还有谁在用。等等。

----------------------

由此我有一个疑问,他交给我的任务可能是一句具体的话“跑下这个案例”“调研下 xxx 加速卡” 我理解的是字面意思+一些基础的必要知识信息。

但是他后续给我的资源(天数比较少)和要求给我的感觉是他需要一个很懂,或者是至少是 70 分的理解水平,不只是任务本身,他的生态,原理,对比起等…

所有我想问下大多数工作都是这样的吗?是我太学生思维了还是一般情况下都会明确的告诉你你要干到是什么程度…

期望各位工作久了的前辈解惑下

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: mumong)