LinuxDo 新帖推送
186 subscribers
253K photos
316K links
Download Telegram
标题: 请教下GPT 1M上下文的配置
作者: #regwishie
板块: #搞七捻三
编号: 2141887
帖子: https://linux.do/t/topic/2141887
时间: 2026-05-09 18:33:40
摘要:
通过CPA → CCS → CODEX调用,在CCS中设置上下文为1M,但是从CODEX中看到的仍是258K,请问CCS中的设置怎么看是否生效,是从CODEX中看吗?
重启了CCS和CODEX,没看见变化。
哪位佬能够解读一下,多谢啦~~~
标题: 有没有佬会修键盘啊
作者: #narity
板块: #搞七捻三
编号: 2141891
帖子: https://linux.do/t/topic/2141891
时间: 2026-05-09 18:34:12
摘要:
手头的 rainy 75 用了两年了,最近忽然发现它的灯光好像坏了,怎么都不亮了。(因为之前一直没开过灯,很久都没注意)。
键盘真的很完美,但是现在坏了就很难受,想知道这个修起来麻烦吗,好修吗,还是没戏了
标题: 2team vs 土区 2plus
作者: #wapmxls
板块: #搞七捻三
编号: 2141900
帖子: https://linux.do/t/topic/2141900
时间: 2026-05-09 18:35:18
摘要:
两个 team 20 美金,两个 plus140 人民币
感觉价格差不多 是不是还是土区 plus 划算点,毕竟 plus 比 team 耐用
标题: VOXI现在不能发短信保号了嘛
作者: #Ruawd
板块: #搞七捻三
编号: 2141911
帖子: https://linux.do/t/topic/2141911
时间: 2026-05-09 18:36:18
摘要:
现在取消了套餐官网显示这个
标题: 自适应并行推理:高效推理扩展的下一个范例
作者: #🐟
板块: #资源荟萃
编号: 2141922
帖子: https://linux.do/t/topic/2141922
时间: 2026-05-09 18:38:11
摘要:
The Berkeley Artificial Intelligence Research Blog





Adaptive Parallel Reasoning: The Next Paradigm in Efficient Inference Scaling

The BAIR Blog














[!quote]+ 自适应并行推理系统
推理时,我们实际上是要求模型执行映射-还原操作:


将问题分叉为子任务/线程,并发处理它们


将它们合并为最终答案



具体来说,模型会遇到一个子任务列表。然后,它将预填充每个子任务,并将其作为独立请求发送给推理引擎处理。然后,这些线程会同时进行解码,直到遇到结束标记或超过最大长度。这一过程会阻塞,直到所有线程完成解码,然后汇总结果。这在各种自适应并行推理方法中都很常见。但是,在聚合过程中会出现一个问题:分支中生成的内容无法在 KV 缓存级别上轻松聚合。这是因为独立线程中的标记从相同的位置 ID 开始,导致编码重叠,并在将 KV 缓存合并时产生非标准行为。同样,由于独立线程之间互不关注,因此它们合并后的 KV 缓存会产生非因果关注模式,而基础模型在训练过程中并没有看到这种模式。
为了解决这个问题,在如何执行聚合过程的问题上,该领域分成了两派,分别以修改推理引擎还是绕过推理引擎来定义。
**Multiverse 修改了推理引擎,以便在连接过程中重复使用 KV 缓存。**在深入了解 Multiverse(Yang 等人,2025 年)的内存管理之前,我们先来了解一下 KV 缓存在 "连接 "阶段之前是如何处理的。请注意每个独立线程是如何共享前缀序列(即子任务列表)的。如果不进行优化,每个线程都需要为前缀序列预填充和重新计算 KV 缓存。然而,SGLang 的 RadixAttention(Sheng 等人,2023 年)可以避免这种冗余,它将多个请求组织成一棵词缀树,一棵由不同长度的元素序列而不是单个元素组成的三角形(词缀树)。这样一
标题: deepseek 如何使用 codex ?
作者: #Wig
板块: #开发调优
编号: 2141943
帖子: https://linux.do/t/topic/2141943
时间: 2026-05-09 18:41:11
摘要:
docker run -d \
--name ccx \
--restart always \
-p 3000:3000 \
-e PROXY_ACCESS_KEY=local-key \
-e APP_UI_LANGUAGE=zh-CN \
-v $(pwd)/.config:/app/.config \
crpi-i19l8zl0ugidq97v.cn-hangzhou.personal.cr.aliyuncs.com/bene/ccx:latest
`

部署完后访问:http://localhost:3000/

** 密码:local-key**

![CleanShot\_20260509183651\_000975@2x|690x278](upload://juOzAWsjw6LDvL7rNASdUGRcRla.png)

**cc-switch 配置:**

![CleanShot\_20260509183832\_000976@2x|690x425](upload://6MAYlc0zWuBSZCfUS9Zgu63cOCT.png)
标题: 小米的百亿token模型接口挂了吗?
作者: #累趴的怪蜀黍
板块: #国产替代
编号: 2141945
帖子: https://linux.do/t/topic/2141945
时间: 2026-05-09 18:41:47
摘要:
https://token-plan-sgp.xiaomimimo.com/v1


但是龙虾可以正常对话?有人知道什么问题吗?
标题: vmrack服务器上游炸了?
作者: #MotorwaySouth
板块: #搞七捻三
编号: 2141951
帖子: https://linux.do/t/topic/2141951
时间: 2026-05-09 18:43:04
摘要:
如图所示,今天下午发生频繁抖动,有用vmrack的佬吗?想知道是个例还是普遍情况
标题: 重新发一个,拼个gptpro 本人科研大部分时间只用web端
作者: #reedtz
板块: #搞七捻三
编号: 2141961
帖子: https://linux.do/t/topic/2141961
时间: 2026-05-09 18:44:47
摘要:
价格可以谈,科研人大部分只用web端的推理和建模,如果要用codex会提前沟通
标题: GPT和Gemini反代请教
作者: #F1rstb100d
板块: #搞七捻三
编号: 2141966
帖子: https://linux.do/t/topic/2141966
时间: 2026-05-09 18:46:00
摘要:
请教一下各位佬,现在有一个GPT plus和Gemini pro,除了在网页上对话和codex、Antigravity里用,还有其他途径吗。
如果在本地搭一个反代搞一个API出来,是一定会被封号还是概率,哪种形式或者工具概率低一些各位佬有推荐吗,感谢感谢
标题: 1席位0刀续费问题
作者: #haowa
板块: #搞七捻三
编号: 2141978
帖子: https://linux.do/t/topic/2141978
时间: 2026-05-09 18:51:22
摘要:
点开管理席位显示这个,下个月要付4.15欧?
标题: 求问,有用obsidian 的吗,好用吗
作者: #duoer
板块: #搞七捻三
编号: 2142000
帖子: https://linux.do/t/topic/2142000
时间: 2026-05-09 18:53:10
摘要:
求问佬们,好用不,如果好用,有啥好用的技巧
标题: 内嵌HTML代替纯Markdown:Token用量和视觉效果的取舍
作者: #Eeevan
板块: #开发调优
编号: 2142004
帖子: https://linux.do/t/topic/2142004
时间: 2026-05-09 18:53:54
摘要:
内嵌HTML代替纯Markdown:让大模型回复不再又臭又长 - 开发调优 - LINUX DO
Claude Code 团队成员发文:是时候用 HTML 替代 Markdown 了 - 前沿快讯 - LINUX DO
前面我发布了两个讨论使用Html内嵌渲染来解决目前简单Markdown格式的信息密度低和仅垂直格式造成长度控制失衡的两个痛点的帖子
(对不起,表达能力不太行,写了个长难句)
但是评论区大多在讨论Html的复杂格式会造成Token大量膨胀,对比获得的效果值不值的问题。
因此本帖统计使用内嵌html的回复和不使用内嵌的纯md格式的效果和token消耗的差距

Q1:Git常用命令汇总分类
Token:1275 vs 3856

查看对比截图 (click for more details)

Q2:如何在VPS上搭建临时邮箱
Token:1508 vs 2241

查看对比截图 (click for more details)

Q3:缓刑和刑期判断
Token:321 vs 716

查看对比截图 (click for more details)

Q4:总结X的文章
Token:680 vs 2189

查看对比截图 (click for more details)

汇总




问题
纯 MD
内嵌 HTML




Git常用命令
1275
3856


VPS临时邮箱
1508
2241


缓刑判断
321
716


总结文章
680
2189




模型全部采用Sonnet 4.6,各个模型的表现效果有差异,仅供参考

最后
得出基本结论是token可能膨胀到2到4倍,效果应该相对来说是比较显著的,就看你愿不愿意为了这个效果去承受多出的token。