LinuxDo 新帖推送
184 subscribers
253K photos
316K links
Download Telegram
标题: 自适应并行推理:高效推理扩展的下一个范例
作者: #🐟
板块: #资源荟萃
编号: 2141922
帖子: https://linux.do/t/topic/2141922
时间: 2026-05-09 18:38:11
摘要:
The Berkeley Artificial Intelligence Research Blog





Adaptive Parallel Reasoning: The Next Paradigm in Efficient Inference Scaling

The BAIR Blog














[!quote]+ 自适应并行推理系统
推理时,我们实际上是要求模型执行映射-还原操作:


将问题分叉为子任务/线程,并发处理它们


将它们合并为最终答案



具体来说,模型会遇到一个子任务列表。然后,它将预填充每个子任务,并将其作为独立请求发送给推理引擎处理。然后,这些线程会同时进行解码,直到遇到结束标记或超过最大长度。这一过程会阻塞,直到所有线程完成解码,然后汇总结果。这在各种自适应并行推理方法中都很常见。但是,在聚合过程中会出现一个问题:分支中生成的内容无法在 KV 缓存级别上轻松聚合。这是因为独立线程中的标记从相同的位置 ID 开始,导致编码重叠,并在将 KV 缓存合并时产生非标准行为。同样,由于独立线程之间互不关注,因此它们合并后的 KV 缓存会产生非因果关注模式,而基础模型在训练过程中并没有看到这种模式。
为了解决这个问题,在如何执行聚合过程的问题上,该领域分成了两派,分别以修改推理引擎还是绕过推理引擎来定义。
**Multiverse 修改了推理引擎,以便在连接过程中重复使用 KV 缓存。**在深入了解 Multiverse(Yang 等人,2025 年)的内存管理之前,我们先来了解一下 KV 缓存在 "连接 "阶段之前是如何处理的。请注意每个独立线程是如何共享前缀序列(即子任务列表)的。如果不进行优化,每个线程都需要为前缀序列预填充和重新计算 KV 缓存。然而,SGLang 的 RadixAttention(Sheng 等人,2023 年)可以避免这种冗余,它将多个请求组织成一棵词缀树,一棵由不同长度的元素序列而不是单个元素组成的三角形(词缀树)。这样一
标题: deepseek 如何使用 codex ?
作者: #Wig
板块: #开发调优
编号: 2141943
帖子: https://linux.do/t/topic/2141943
时间: 2026-05-09 18:41:11
摘要:
docker run -d \
--name ccx \
--restart always \
-p 3000:3000 \
-e PROXY_ACCESS_KEY=local-key \
-e APP_UI_LANGUAGE=zh-CN \
-v $(pwd)/.config:/app/.config \
crpi-i19l8zl0ugidq97v.cn-hangzhou.personal.cr.aliyuncs.com/bene/ccx:latest
`

部署完后访问:http://localhost:3000/

** 密码:local-key**

![CleanShot\_20260509183651\_000975@2x|690x278](upload://juOzAWsjw6LDvL7rNASdUGRcRla.png)

**cc-switch 配置:**

![CleanShot\_20260509183832\_000976@2x|690x425](upload://6MAYlc0zWuBSZCfUS9Zgu63cOCT.png)
标题: 小米的百亿token模型接口挂了吗?
作者: #累趴的怪蜀黍
板块: #国产替代
编号: 2141945
帖子: https://linux.do/t/topic/2141945
时间: 2026-05-09 18:41:47
摘要:
https://token-plan-sgp.xiaomimimo.com/v1


但是龙虾可以正常对话?有人知道什么问题吗?
标题: vmrack服务器上游炸了?
作者: #MotorwaySouth
板块: #搞七捻三
编号: 2141951
帖子: https://linux.do/t/topic/2141951
时间: 2026-05-09 18:43:04
摘要:
如图所示,今天下午发生频繁抖动,有用vmrack的佬吗?想知道是个例还是普遍情况
标题: 重新发一个,拼个gptpro 本人科研大部分时间只用web端
作者: #reedtz
板块: #搞七捻三
编号: 2141961
帖子: https://linux.do/t/topic/2141961
时间: 2026-05-09 18:44:47
摘要:
价格可以谈,科研人大部分只用web端的推理和建模,如果要用codex会提前沟通
标题: GPT和Gemini反代请教
作者: #F1rstb100d
板块: #搞七捻三
编号: 2141966
帖子: https://linux.do/t/topic/2141966
时间: 2026-05-09 18:46:00
摘要:
请教一下各位佬,现在有一个GPT plus和Gemini pro,除了在网页上对话和codex、Antigravity里用,还有其他途径吗。
如果在本地搭一个反代搞一个API出来,是一定会被封号还是概率,哪种形式或者工具概率低一些各位佬有推荐吗,感谢感谢
标题: 1席位0刀续费问题
作者: #haowa
板块: #搞七捻三
编号: 2141978
帖子: https://linux.do/t/topic/2141978
时间: 2026-05-09 18:51:22
摘要:
点开管理席位显示这个,下个月要付4.15欧?
标题: 求问,有用obsidian 的吗,好用吗
作者: #duoer
板块: #搞七捻三
编号: 2142000
帖子: https://linux.do/t/topic/2142000
时间: 2026-05-09 18:53:10
摘要:
求问佬们,好用不,如果好用,有啥好用的技巧
标题: 内嵌HTML代替纯Markdown:Token用量和视觉效果的取舍
作者: #Eeevan
板块: #开发调优
编号: 2142004
帖子: https://linux.do/t/topic/2142004
时间: 2026-05-09 18:53:54
摘要:
内嵌HTML代替纯Markdown:让大模型回复不再又臭又长 - 开发调优 - LINUX DO
Claude Code 团队成员发文:是时候用 HTML 替代 Markdown 了 - 前沿快讯 - LINUX DO
前面我发布了两个讨论使用Html内嵌渲染来解决目前简单Markdown格式的信息密度低和仅垂直格式造成长度控制失衡的两个痛点的帖子
(对不起,表达能力不太行,写了个长难句)
但是评论区大多在讨论Html的复杂格式会造成Token大量膨胀,对比获得的效果值不值的问题。
因此本帖统计使用内嵌html的回复和不使用内嵌的纯md格式的效果和token消耗的差距

Q1:Git常用命令汇总分类
Token:1275 vs 3856

查看对比截图 (click for more details)

Q2:如何在VPS上搭建临时邮箱
Token:1508 vs 2241

查看对比截图 (click for more details)

Q3:缓刑和刑期判断
Token:321 vs 716

查看对比截图 (click for more details)

Q4:总结X的文章
Token:680 vs 2189

查看对比截图 (click for more details)

汇总




问题
纯 MD
内嵌 HTML




Git常用命令
1275
3856


VPS临时邮箱
1508
2241


缓刑判断
321
716


总结文章
680
2189




模型全部采用Sonnet 4.6,各个模型的表现效果有差异,仅供参考

最后
得出基本结论是token可能膨胀到2到4倍,效果应该相对来说是比较显著的,就看你愿不愿意为了这个效果去承受多出的token。
标题: 【招聘】AI工业工艺优化佬(北京)| 30-35k
作者: #Heracles
板块: #非我莫属
编号: 2142009
帖子: https://linux.do/t/topic/2142009
时间: 2026-05-09 18:54:56
摘要:
工业工程/自动化/计算机等相关专业优先


有流程工业或离散工业的行业相关经验者优先


有流程优化、数字化转型或自动化项目经验者优先


具备使用AI工具解决实际问题的能力


动手能力强、对效率提升有热情


能够在不确定环境中探索0->1解决方案


有耐心,能够与一线员工沟通并推动落地


站内私信简历,谢谢各位佬
标题: 有哪些国产的coding plan值得推荐?
作者: #Tony
板块: #国产替代
编号: 2142044
帖子: https://linux.do/t/topic/2142044
时间: 2026-05-09 19:01:19
摘要:
有哪些国产的coding plan值得推荐?
主要关注能力和速度,当然也不能太贵,最多200元一个月。
标题: 总感觉AI的思维链到头来还是线性的,多维的思维网如何?
作者: #Yigu Wang
板块: #搞七捻三
编号: 2142045
帖子: https://linux.do/t/topic/2142045
时间: 2026-05-09 19:01:30
摘要:
本人不是这一块专业的,这是在和朋友讨论**“为什么AI在知识库比平均人类强大那么多的情况下,回答/解决问题总是那么死脑筋”**这个问题的时候产生的一些思考
总感觉思维链怎么说都是链,太线性了,没有多少发散过程。
就是人会线性地想想想,想到一个点先推不动了,先嘭一下开始发散。对比之下AI给我的感觉就是搞不懂了硬搞,变着法子搞,调用各种工具搞,死都要把这条链打通下去。
朋友说这个思维链能不能做成多维的。我觉得工程师们应该搞一个思维网一样的东西。
判断推理阻力,发散时机,链条终止时机。子链推理到尽头了fallback回上一个发散节点选择其他路径。这个过程要是还能并行择优的话也许效率会更高。
这样回答/解决问题,说不定会更像人?
或许我想到的已经被工程师们实践了?只不过thinking的时候只是输出一个展示给我们看,而不是原始的网?
要是没有被实践过的话,或许可以先打造一个skill试试看,让agent在脚手架层被约束着网式思考?
标题: 导出微信消息发给ai?
作者: #dateamayuri
板块: #搞七捻三
编号: 2142052
帖子: https://linux.do/t/topic/2142052
时间: 2026-05-09 19:02:57
摘要:
想问问佬们,微信消息该怎么导出为word或者txt,或者是ai可读的文件?
虽然可以通过截图或者手动粘贴,但消息的量太大了,群里有几千上万的消息。
之前L站里也有人发过导出微信消息的github项目,但我今天去看,那个项目的代码已经被移走了。可能是被腾讯投诉了?就是这个


github.com






GitHub - git-jiadong/wechatDataBackup

通过在 GitHub 上创建帐户来为 git-jiadong/wechatDataBackup 开发做出贡献。
标题: 【油猴脚本】ModelScope魔搭社区额度查询
作者: #UnTork
板块: #开发调优
编号: 2142057
帖子: https://linux.do/t/topic/2142057
时间: 2026-05-09 19:03:45
摘要:
VibeCoding确实好用,最近在用魔搭的模型但官网看不到单个模型的具体额度和用量,只能看到总量,就上网搜了搜有没有相关工具,但没几个适合我的,就VibeCoding了这个油猴脚本顺便分享一下,有需要的自取。
安装链接:点击安装
镜像安装:点击安装
或者直接复制:

油猴脚本 (click for more details)
预览截图:
标题: 用HF自动刷微信阅读时长 —— 实现5元获取会员
作者: #唯一
板块: #开发调优
编号: 2142060
帖子: https://linux.do/t/topic/2142060
时间: 2026-05-09 19:04:18
摘要:
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

我的帖子已经打上 开源推广 标签: 是
我的开源项目完整开源,无未开源部分: 是
我的开源项目已链接认可 LINUX DO 社区: 是
我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
以上选择我承诺是永久有效的,接受社区和佬友监督: 是

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出

我最近习惯看微信读书,可是囊中羞涩负担不起会员,便想通过 5 元挑战低成本获取会员,改造了一个 github 上的微信自动阅读项目,配置好之后每天自动阅读,很省心。

项目基于 weread-challenge-selenium 改造,让它跑在 HuggingFace Spaces 上,零成本、全自动。
原项目设计是 VPS 部署,需要两个容器(app + selenium-standalone),还得自己配 crontab,我的vps跑不动
改造了一下,适配hf:
单容器,内置 Chromium + Xvfb,不需要 Java,镜像更小
跑在 HF Spaces 免费额度上,不花一分钱
自带 Web 管理面板,手机上也能看状态、扫码登录
内置定时调度,每 12 小时自动跑一次(当然可能没用,还是需要配置外部自动定时访问)
密码保护,防止你的 Space 被别人操作
部署步骤:
注册 HuggingFace 账号
新建一个 Space,SDK 选 Docker
把 仓库 里的文件上传上去
在 Space Settings 创建 Storage Bucket,挂载到 /data(读写模式)------ 这样 cookies 重启不丢
可选:设置环境变量 WEB_PASSWORD 修改默认密码
构建完成后访问你的 Space URL,输入密码登录,扫码,完事。

也可以一键复制我部署好的hf space:



huggingface.co





WeRead Challenge - a Hugging Face Space by M
标题: 独立开发者如何收款呢?
作者: #devSlow
板块: #搞七捻三
编号: 2142065
帖子: https://linux.do/t/topic/2142065
时间: 2026-05-09 19:05:15
摘要:
各位佬们,我开发了一款产品,但是没有个体户,然后不知道如何进行收款。爱发电的话手续费有点高了,佬们有什么好的解决方案么
标题: 5月9日 成功订阅土区plus 感谢各位佬的帖子(这边也当做一个经验帖)
作者: #slexy
板块: #搞七捻三
编号: 2142078
帖子: https://linux.do/t/topic/2142078
时间: 2026-05-09 19:07:59
摘要:
这边要感谢几位佬的帖子,我这边也就当是一个个人经验贴了
【外区apple ID注册指南】以土区为例 - 文档共建 / 文档共建, Lv1 - LINUX DO
土区充值gpt plus全流程梳理(apple礼品卡充值) - 搞七捻三 / 搞七捻三, Lv1 - LINUX DO
首先需要根据佬的指引 我们可以去苹果官网管理你的 Apple 账户注册一个账号,这边注意地区填写土耳其,其他的随便填就行了,只要邮箱不是重复的就行,手机号重复注册是没有关系的(我这边就是)
这边第一个重点就是如果跳出 目前无法注册 可以直接去苹果支持里面找人工客服 创建工单直接和客服说明你遇到了什么问题,他和你确定之后就会把你的邮件添加到白名单里面

这边 客服处理完了之后就可以成功注册账号了,接下来会有一个比较大的坑我第一个号就是直接在我的ios26的appstore里面登录了,直接就被遣送回国区了(())然后我参考了佬的帖子,首先退出你的原有id,商店滑到最下面去然后退出id,去safari里面去打开这个链接
itms-apps://itunes.apple.com/WebObjects/MZStore.woa/wa/resetAndRedirect?dsf=143480&cc=tr
然后会跳转到appstore,只要你发现商店的语言变成英文了,然后就可以退出之前的账号去登录了 登录上去在地址看到是土耳其 这边就完成了第一步,然后去闲鱼找一个个人信誉比较高的卖家,买一张卡

直接填写进去 能充进去基本上就完成一大半了,打开gpt直接订阅即可(这边注意就是土区只是一个支付方式,你完全可以登录你常用的谷歌账号或者之前的大号去充值,而不是新开一个appleid的gpt账号),不过这个似乎和梯子有点关系,我的ip可能不太干净,最后我是让我的朋友在他的设备上订阅成功,这边可能有个填地址的选项,直接开ai让他帮你生成一个就可以了,希望我的帖子能帮到各位佬~ 有什么问题也可以在下面问我~