LinuxDo 新帖推送

标题: VLM判断物体朝向居然是一个有点困难的问题？
作者: #xy3
板块: #开发调优
编号: 2089553
帖子: https://linux.do/t/topic/2089553
时间: 2026-04-30 20:24:33
摘要:

有两个角度的图片
有一个答对概率高一点
这个答对概率比较高

这个答对概率很低

实测qwen的全家桶都全军覆没
谷歌的开源模型，3flash也无法解决
问题是：椅子是否朝向桌子
qwen和gemini的失败






gemini3.1pro也不行

chatgpt免费版也不行


出乎意料的是豆包做对了

gemini3flash有概率答对

2 views12:34

LinuxDo 新帖推送

标题: 关于GPT充值的支付，以及plus升级pro问题
作者: #LTZJHDL
板块: #开发调优
编号: 2089562
帖子: https://linux.do/t/topic/2089562
时间: 2026-04-30 20:26:22
摘要:

打算正价充值gpt pro会员，想了解一下有没有什么推荐的渠道/方法。
目前了解到这几种方式，并且有一些对应到问题，想请教佬友们：

银行卡：当前只有招行mastercard，似乎不支持国内卡。也不想折腾虚拟卡（除非有必要）
PayPal：只有国区PayPal，看其他帖子里说，只有欧洲地区才支持。但欧洲地区费用更高
Google play：在chatgpt app中充值，使用play进行支付，似乎限制很少。但是最开始只能充值go/plus，并且有一些细分的问题：

充值plus后，升级pro，费用是多少，是否会减去plus费用？亦或者充值pro费用不变，但会退回plus费用？（从其他帖子来看，似乎是前者）
充值plus后，如果使用一段时间，再升级pro，此时费用会如何计算？
是否可以使用礼品卡？这样会便宜一些，但不知道会不会有坑
play支付似乎会产生税，是否如此？是否可以通过设置免税区规避掉？


Google wallet：这应该是Google pay吧。这种方式推荐吗？

2 views12:35

LinuxDo 新帖推送

标题: 三大AI➗图
作者: #𝓕-𝓓𝓻𝓸𝓲𝓭
板块: #搞七捻三
编号: 2089578
帖子: https://linux.do/t/topic/2089578
时间: 2026-04-30 20:28:49
摘要:

3 views12:38

LinuxDo 新帖推送

标题: 英文论文将AI率的的工具有推荐的吗？提示词、skill，mcp都可以。
作者: #wpf
板块: #开发调优
编号: 2089581
帖子: https://linux.do/t/topic/2089581
时间: 2026-04-30 20:29:25
摘要:

AI率100%，我之前看有的佬分享过中文的。还有的佬写论文 ，AI率挺低的，为什么我这个这么高。怎么降下来啊

4 views12:38

LinuxDo 新帖推送

标题: 关于抢票这件事
作者: #曦
板块: #搞七捻三
编号: 2089602
帖子: https://linux.do/t/topic/2089602
时间: 2026-04-30 20:33:02
摘要:

有没有佬友知道，怎么样能抢到演唱会门票，每次想抢喜欢的歌手门票都秒无，要怎么才能抢到，求指点，感谢

4 views12:38

LinuxDo 新帖推送

标题: (问题)龙虾更新后启动不了
作者: #xiaoss
板块: #开发调优
编号: 2089663
帖子: https://linux.do/t/topic/2089663
时间: 2026-04-30 20:49:52
摘要:

我发现我每一次更新完龙虾之后。就是不管是他自己更，还是说我给他手动更，还是我用命令给他更。都有一个问题，启动不了，导致我每次只能重装
我今天更新好了之后还是启动不了，然后我让AI帮我解决了一下，可以启动了
但是社交软件一直无法对接然后我又去网上找方法进行了这条命令openclaw doctor --fix还是，没办法启动
我就是想问一下，你们也是这样更新一次重装一次吗还是说有别的方法

2 views12:52

LinuxDo 新帖推送

标题: 一个即将成为码农的毕业生的未来规划
作者: #insorker
板块: #搞七捻三
编号: 2089664
帖子: https://linux.do/t/topic/2089664
时间: 2026-04-30 20:50:09
摘要:

盲审已过在家躺了一个月了，终于打算坐起来考虑一下未来，又感到很困惑，想问一下大家，作为一个刚工作的新手程序员如何规划一两年内的未来。
我的 bg 是南邮本西电硕，25岁，家在南京，秋招北京某大厂，家里没钱。我知道有 ai 和中年危机的问题，个人的解决方法有两种，一种是少走几十年弯路考公，折中一点就是去需要计算机技术的传统行业，过相对稳定的生活；另一种就是做好投资和副业，最好的就是躺着赚钱的业务，比如股票和卖课，其次就是用时间换钱的业务，当然这和打工也没太大区别，只是想保证哪天裁员了还能有稳定的现金流。
上面的是大方向，具体一些就是

我想早日离开北京，目前打算一年后找机会跳槽去江浙沪，然后在新公司尽量多干几年。
股票账户去年开了一直没动，5 月份打算去香港办港卡开美股账户。暂时还不知道有哪些渠道去深入学习炒股还在看书中。美股感觉入金容易出金难，不如 a 股亏钱也安心。
组里的业务是用户画像，是中台不知道是否核心。暑期实习过技术栈是后端的能接触到大数据，不清楚现在 ai 用了多少，只知道 +2 ai 关注度挺高的。还不清楚跳槽可以去什么业务。
副业这方面之前考虑过，感觉副业最需要的是流量，但我没有。
身体这块明显疫情后经常生病，之前我几年都不会感冒，现在隔几个月就会发烧一次，也在想办法把命保住。
最后虽然没谈过，但也得考虑成家，这么漂泊一生真能找到对象吗？说真的我挺想留在南京的，南京很好，但是体制外岗位是真少啊。

我是个很摆烂的人，想要自由也想要躺平，知道形式现在很差但还没对未来的完全绝望，于是打算做一下未来一两年内的规划（太长期的规划我认为不靠谱）。希望大家能帮我看看我的这些想法，能给意见就更好了。

2 views12:52

LinuxDo 新帖推送

标题: DeepSeek的新视觉模型基于新的视觉框架，基底模型是v4 flash
作者: #点点点…点娘！
板块: #前沿快讯
编号: 2089690
帖子: https://linux.do/t/topic/2089690
时间: 2026-04-30 20:54:57
摘要:

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》，提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”，在推理过程中直接交织使用，使模型在"思考"的同时能够"指向"图像中的具体位置。

当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”（即让模型看得更清楚），但论文指出，一个更根本的瓶颈被忽视了——“引用差距”：自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。在密集计数、多步空间推演等任务中，模型的语言"思路"会丢失对视觉实体的追踪，导致推理逻辑崩塌并产生级联幻觉。

该模型基于DeepSeek-V4-Flash构建，总参数量284B，推理时激活参数13B。架构上采用了压缩稀疏注意力机制，对一张800×800的图像，KV缓存中仅保留约90个视觉条目，从原始像素到最终缓存实现了7,056倍的压缩比。这意味着该模型在视觉token用量远低于同级系统的前提下，仍能维持相当的推理深度。

训练流程分为五个阶段：预训练阶段通过大规模网络数据（经两轮语义与几何质量筛选后保留约3.17万个数据源、超4,000万高质量样本）赋予模型输出视觉原语的基础能力；随后进入后训练，依次经历专项监督微调、专项强化学习（使用GRPO算法配合格式/质量/准确度三类奖励模型）、统一拒绝采样微调，最终通过在策略蒸馏将两个专家模型（分别擅长边界框和坐标点）的能力合并为单一模型。

在7项公开基准和4项自建基准的评测中，该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现，平均得分77.2%，为所有被测模型中最高。值得关注的是，在迷宫导航和路径追踪两项拓扑推理任务上，该模型分别取得66.9%和56.7%的准确率，而其余前沿模型均未超过51%，这表明现有多模态模型在拓扑推理方面仍有很大提升空间。

论文同时指出了当前的局限：受限于输入分辨率，模型在细粒度场景中的视觉原语输出偶有偏差；视觉原语思考能力目前依赖显式触发词激活，尚不能由模型自主判断何时启用；以坐标点解决复杂拓扑推理的跨场景泛化能力也有待增强。

1 view12:56

LinuxDo 新帖推送

标题: 关于从零了解一个开源项目的设计与实现，除了deepwiki外，还有什么好的方法吗？
作者: #hzqst
板块: #搞七捻三
编号: 2089694
帖子: https://linux.do/t/topic/2089694
时间: 2026-04-30 20:55:54
摘要:

最好是那种init了之后发现有遗漏的点可以随时自己补的，并且最好可以生成流程图方便人类查看的

1 view12:59

LinuxDo 新帖推送

标题: DeepSeek 要开视觉了吗
作者: #niu12503
板块: #开发调优
编号: 2089763
帖子: https://linux.do/t/topic/2089763
时间: 2026-04-30 21:07:19
摘要:

DeepSeek「Thinking with Visual Primitives」深度技术解构
 关键区分：你说的「退出视觉」应是笔误/自动纠错，DeepSeek 是在「大举进军视觉」，且这次的手法与OpenAI、Google-Anthropic等主流范式截然不同，堪称一次范式级重构。

 一、项目速览
发布日期
• 维度: 发布日期
• 详情: 2026年4月30日（与今天是同一天！）
项目代号
• 维度: 项目代号
• 详情: Janus
基础架构
• 维度: 基础架构
• 详情: DeepSeek-V4-Flash
代码许可证
• 维度: 代码许可证
• 详情: MIT
模型权重
• 维度: 模型权重
• 详情: 尚未发布（将集成到基金会模型中后发布）
论文
• 维度: 论文
• 详情: 已发布技术报告 PDF
对标模型
• 维度: 对标模型
• 详情: GPT‑5.4、Claude-Sonnet‑4.6、Gemini‑3‑Flash

 二、核心突破：从「感知鸿沟」到「指代鸿沟」
现有的多模态 LLM（MLLMs）虽然通过高分辨率裁剪或用图像思考等手段缩小了「感知鸿沟」，但在复杂结构推理上集体翻车。
 DeepSeek 发现的新问题：Reference Gap（指代鸿沟）
自然语言在描述稠密空间布局时存在致命的模糊性：
「左边第三个杯子后面的那个杯子的把手」
—这句自然语言描述的歧义在密集场景中是指数级的。
人类怎么做？→ 用手指着数：“这个、这个、这个……”
DeepSeek 团队指出，现有模型在思考过程中，这种模糊性会导致：

逻辑坍缩 — 推理链中某一步「指错了对象」，后续全错
空间幻觉 — 模型自信地描述一个不存在的空间关系


 三、范式转移：「边推理边指」
不是「看得更清楚」，而是「在推理时指出具体位置」
核心创新：将空间标记（点和边界框）作为「最小思维单元」，直接穿插到推理轨迹中。
就像人类思考时的下意识动作：

 用手指着屏幕数数
 在纸上画圈标注重点区域
 走迷宫时用指尖追踪路径

 技术实现路径
传统 MLLM 推理链

1 view13:07

LinuxDo 新帖推送

标题: warp里面用自己订阅的claude 会被claude封号吗
作者: #可口可乐
板块: #开发调优
编号: 2089764
帖子: https://linux.do/t/topic/2089764
时间: 2026-04-30 21:07:21
摘要:

之前用warp习惯了，但是不知道claude会不会封号啊？

1 view13:07

LinuxDo 新帖推送

标题: 给我一个不用DS的理由
作者: #ObsidianOOO
板块: #开发调优
编号: 2089771
帖子: https://linux.do/t/topic/2089771
时间: 2026-04-30 21:08:52
摘要:

最近奥特曼大善人收菜了，team 20x炒到1500，claude code又顶不住了，刚好ds上新还有优惠，试用了一下，爽的一批，属于是指哪打哪，而且智商也在线，做些逆向之类的工作都没有道德，思考与推理都强的离谱。个人体验下来和opus4.6/4.7差不多（主观体验，勿喷，也并非无脑吹）。甚至价格都低的离谱（下面塞个账单总结），大善人ds直接2.5打骨折，最开始持续到5月5号，今天看了一下持续到31号，所以还有什么理由不用ds呢

1 view13:10

LinuxDo 新帖推送

标题: codex功能扩展询问
作者: #xinyann
板块: #开发调优
编号: 2089779
帖子: https://linux.do/t/topic/2089779
时间: 2026-04-30 21:10:09
摘要:

codex window版 gui，除了remote connection远端链接这种，需要在config里面激活，还有什么功能，或者有用的模块可以在config里面激活使用

1 view13:13

About

Blog

Apps

Platform