LinuxDo 新帖推送
185 subscribers
253K photos
315K links
Download Telegram
标题: VLM判断物体朝向居然是一个有点困难的问题?
作者: #xy3
板块: #开发调优
编号: 2089553
帖子: https://linux.do/t/topic/2089553
时间: 2026-04-30 20:24:33
摘要:
有两个角度的图片
有一个答对概率高一点
这个答对概率比较高

这个答对概率很低

实测qwen的全家桶都全军覆没
谷歌的开源模型,3flash也无法解决
问题是:椅子是否朝向桌子
qwen和gemini的失败






gemini3.1pro也不行

chatgpt免费版也不行


出乎意料的是豆包做对了

gemini3flash有概率答对
标题: 关于GPT充值的支付,以及plus升级pro问题
作者: #LTZJHDL
板块: #开发调优
编号: 2089562
帖子: https://linux.do/t/topic/2089562
时间: 2026-04-30 20:26:22
摘要:
打算正价充值gpt pro会员,想了解一下有没有什么推荐的渠道/方法。
目前了解到这几种方式,并且有一些对应到问题,想请教佬友们:

银行卡:当前只有招行mastercard,似乎不支持国内卡。也不想折腾虚拟卡(除非有必要)
PayPal:只有国区PayPal,看其他帖子里说,只有欧洲地区才支持。但欧洲地区费用更高
Google play:在chatgpt app中充值,使用play进行支付,似乎限制很少。但是最开始只能充值go/plus,并且有一些细分的问题:

充值plus后,升级pro,费用是多少,是否会减去plus费用?亦或者充值pro费用不变,但会退回plus费用?(从其他帖子来看,似乎是前者)
充值plus后,如果使用一段时间,再升级pro,此时费用会如何计算?
是否可以使用礼品卡?这样会便宜一些,但不知道会不会有坑
play支付似乎会产生税,是否如此?是否可以通过设置免税区规避掉?


Google wallet:这应该是Google pay吧。这种方式推荐吗?
标题: 三大AI
作者: #𝓕-𝓓𝓻𝓸𝓲𝓭
板块: #搞七捻三
编号: 2089578
帖子: https://linux.do/t/topic/2089578
时间: 2026-04-30 20:28:49
摘要:
标题: 英文论文将AI率的的工具有推荐的吗?提示词、skill,mcp都可以。
作者: #wpf
板块: #开发调优
编号: 2089581
帖子: https://linux.do/t/topic/2089581
时间: 2026-04-30 20:29:25
摘要:
AI率100%,我之前看有的佬分享过中文的。还有的佬写论文 ,AI率挺低的,为什么我这个这么高。怎么降下来啊
标题: 关于抢票这件事
作者: #曦
板块: #搞七捻三
编号: 2089602
帖子: https://linux.do/t/topic/2089602
时间: 2026-04-30 20:33:02
摘要:
有没有佬友知道,怎么样能抢到演唱会门票,每次想抢喜欢的歌手门票都秒无,要怎么才能抢到,求指点,感谢
标题: (问题)龙虾更新后启动不了
作者: #xiaoss
板块: #开发调优
编号: 2089663
帖子: https://linux.do/t/topic/2089663
时间: 2026-04-30 20:49:52
摘要:
我发现我每一次更新完龙虾之后。就是不管是他自己更,还是说我给他手动更,还是我用命令给他更。都有一个问题,启动不了,导致我每次只能重装
我今天更新好了之后还是启动不了,然后我让AI帮我解决了一下,可以启动了
但是社交软件一直无法对接然后我又去网上找方法进行了这条命令openclaw doctor --fix还是,没办法启动
我就是想问一下,你们也是这样更新一次重装一次吗还是说有别的方法
标题: 一个即将成为码农的毕业生的未来规划
作者: #insorker
板块: #搞七捻三
编号: 2089664
帖子: https://linux.do/t/topic/2089664
时间: 2026-04-30 20:50:09
摘要:
盲审已过在家躺了一个月了,终于打算坐起来考虑一下未来,又感到很困惑,想问一下大家,作为一个刚工作的新手程序员如何规划一两年内的未来。
我的 bg 是南邮本西电硕,25岁,家在南京,秋招北京某大厂,家里没钱。我知道有 ai 和中年危机的问题,个人的解决方法有两种,一种是少走几十年弯路考公,折中一点就是去需要计算机技术的传统行业,过相对稳定的生活;另一种就是做好投资和副业,最好的就是躺着赚钱的业务,比如股票和卖课,其次就是用时间换钱的业务,当然这和打工也没太大区别,只是想保证哪天裁员了还能有稳定的现金流。
上面的是大方向,具体一些就是

我想早日离开北京,目前打算一年后找机会跳槽去江浙沪,然后在新公司尽量多干几年。
股票账户去年开了一直没动,5 月份打算去香港办港卡开美股账户。暂时还不知道有哪些渠道去深入学习炒股还在看书中。美股感觉入金容易出金难,不如 a 股亏钱也安心。
组里的业务是用户画像,是中台不知道是否核心。暑期实习过技术栈是后端的能接触到大数据,不清楚现在 ai 用了多少,只知道 +2 ai 关注度挺高的。还不清楚跳槽可以去什么业务。
副业这方面之前考虑过,感觉副业最需要的是流量,但我没有。
身体这块明显疫情后经常生病,之前我几年都不会感冒,现在隔几个月就会发烧一次,也在想办法把命保住。
最后虽然没谈过,但也得考虑成家,这么漂泊一生真能找到对象吗?说真的我挺想留在南京的,南京很好,但是体制外岗位是真少啊。

我是个很摆烂的人,想要自由也想要躺平,知道形式现在很差但还没对未来的完全绝望,于是打算做一下未来一两年内的规划(太长期的规划我认为不靠谱)。希望大家能帮我看看我的这些想法,能给意见就更好了。
标题: DeepSeek的新视觉模型基于新的视觉框架,基底模型是v4 flash
作者: #点点点…点娘!
板块: #前沿快讯
编号: 2089690
帖子: https://linux.do/t/topic/2089690
时间: 2026-04-30 20:54:57
摘要:
DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》,提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”,在推理过程中直接交织使用,使模型在"思考"的同时能够"指向"图像中的具体位置。

当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”(即让模型看得更清楚),但论文指出,一个更根本的瓶颈被忽视了——“引用差距”:自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。在密集计数、多步空间推演等任务中,模型的语言"思路"会丢失对视觉实体的追踪,导致推理逻辑崩塌并产生级联幻觉。

该模型基于DeepSeek-V4-Flash构建,总参数量284B,推理时激活参数13B。架构上采用了压缩稀疏注意力机制,对一张800×800的图像,KV缓存中仅保留约90个视觉条目,从原始像素到最终缓存实现了7,056倍的压缩比。这意味着该模型在视觉token用量远低于同级系统的前提下,仍能维持相当的推理深度。

训练流程分为五个阶段:预训练阶段通过大规模网络数据(经两轮语义与几何质量筛选后保留约3.17万个数据源、超4,000万高质量样本)赋予模型输出视觉原语的基础能力;随后进入后训练,依次经历专项监督微调、专项强化学习(使用GRPO算法配合格式/质量/准确度三类奖励模型)、统一拒绝采样微调,最终通过在策略蒸馏将两个专家模型(分别擅长边界框和坐标点)的能力合并为单一模型。

在7项公开基准和4项自建基准的评测中,该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。值得关注的是,在迷宫导航和路径追踪两项拓扑推理任务上,该模型分别取得66.9%和56.7%的准确率,而其余前沿模型均未超过51%,这表明现有多模态模型在拓扑推理方面仍有很大提升空间。

论文同时指出了当前的局限:受限于输入分辨率,模型在细粒度场景中的视觉原语输出偶有偏差;视觉原语思考能力目前依赖显式触发词激活,尚不能由模型自主判断何时启用;以坐标点解决复杂拓扑推理的跨场景泛化能力也有待增强。
标题: 关于从零了解一个开源项目的设计与实现,除了deepwiki外,还有什么好的方法吗?
作者: #hzqst
板块: #搞七捻三
编号: 2089694
帖子: https://linux.do/t/topic/2089694
时间: 2026-04-30 20:55:54
摘要:
最好是那种init了之后发现有遗漏的点可以随时自己补的,并且最好可以生成流程图方便人类查看的
标题: DeepSeek 要开视觉了吗
作者: #niu12503
板块: #开发调优
编号: 2089763
帖子: https://linux.do/t/topic/2089763
时间: 2026-04-30 21:07:19
摘要:
DeepSeek「Thinking with Visual Primitives」深度技术解构
关键区分:你说的「退出视觉」应是笔误/自动纠错,DeepSeek 是在「大举进军视觉」,且这次的手法与OpenAI、Google-Anthropic等主流范式截然不同,堪称一次范式级重构。

一、项目速览
发布日期
• 维度: 发布日期
• 详情: 2026年4月30日(与今天是同一天!)
项目代号
• 维度: 项目代号
• 详情: Janus
基础架构
• 维度: 基础架构
• 详情: DeepSeek-V4-Flash
代码许可证
• 维度: 代码许可证
• 详情: MIT
模型权重
• 维度: 模型权重
• 详情: 尚未发布(将集成到基金会模型中后发布)
论文
• 维度: 论文
• 详情: 已发布技术报告 PDF
对标模型
• 维度: 对标模型
• 详情: GPT‑5.4、Claude-Sonnet‑4.6、Gemini‑3‑Flash

二、核心突破:从「感知鸿沟」到「指代鸿沟」
现有的多模态 LLM(MLLMs)虽然通过高分辨率裁剪或用图像思考等手段缩小了「感知鸿沟」,但在复杂结构推理上集体翻车。
DeepSeek 发现的新问题:Reference Gap(指代鸿沟)
自然语言在描述稠密空间布局时存在致命的模糊性:
「左边第三个杯子后面的那个杯子的把手」
—这句自然语言描述的歧义在密集场景中是指数级的。
人类怎么做?→ 用手指着数:“这个、这个、这个……”
DeepSeek 团队指出,现有模型在思考过程中,这种模糊性会导致:

逻辑坍缩 — 推理链中某一步「指错了对象」,后续全错
空间幻觉 — 模型自信地描述一个不存在的空间关系


三、范式转移:「边推理边指」
不是「看得更清楚」,而是「在推理时指出具体位置」
核心创新:将空间标记(点和边界框)作为「最小思维单元」,直接穿插到推理轨迹中。
就像人类思考时的下意识动作:

用手指着屏幕数数
在纸上画圈标注重点区域
走迷宫时用指尖追踪路径

技术实现路径
传统 MLLM 推理链
标题: warp里面用自己订阅的claude 会被claude封号吗
作者: #可口可乐
板块: #开发调优
编号: 2089764
帖子: https://linux.do/t/topic/2089764
时间: 2026-04-30 21:07:21
摘要:
之前用warp习惯了,但是不知道claude会不会封号啊?
标题: 给我一个不用DS的理由
作者: #ObsidianOOO
板块: #开发调优
编号: 2089771
帖子: https://linux.do/t/topic/2089771
时间: 2026-04-30 21:08:52
摘要:
最近奥特曼大善人收菜了,team 20x炒到1500,claude code又顶不住了,刚好ds上新还有优惠,试用了一下,爽的一批,属于是指哪打哪,而且智商也在线,做些逆向之类的工作都没有道德,思考与推理都强的离谱。个人体验下来和opus4.6/4.7差不多(主观体验,勿喷,也并非无脑吹)。甚至价格都低的离谱(下面塞个账单总结),大善人ds直接2.5打骨折,最开始持续到5月5号,今天看了一下持续到31号,所以还有什么理由不用ds呢
标题: codex功能扩展询问
作者: #xinyann
板块: #开发调优
编号: 2089779
帖子: https://linux.do/t/topic/2089779
时间: 2026-04-30 21:10:09
摘要:
codex window版 gui,除了remote connection远端链接这种,需要在config里面激活,还有什么功能,或者有用的模块可以在config里面激活使用