LinuxDo 新帖推送
196 subscribers
257K photos
322K links
Download Telegram
标题: 还在疑惑今天为什么余额花的这么快
作者: #时雨雪
板块: #搞七捻三
编号: 1909147
帖子: https://linux.do/t/topic/1909147
时间: 2026-04-06 22:14:01
摘要:
结果是opencode的dcp插件不知道为什么不生效了 每次都是把全量上下文塞进去,请求一次一刀没了。
标题: 佬们,你们的皮卡丘,能用了吗?
作者: #icemouce
板块: #搞七捻三
编号: 1909157
帖子: https://linux.do/t/topic/1909157
时间: 2026-04-06 22:14:56
摘要:
(话题已被作者删除)
标题: 看到存在一个免费GPT Pro的可能(未验证)
作者: #Summer
板块: #搞七捻三
编号: 1909164
帖子: https://linux.do/t/topic/1909164
时间: 2026-04-06 22:15:42
摘要:
操作非常的简单,只需要在有订阅的基础上,你取消订阅,视账户而定,会送你一个月让你不要退订,有没有大佬验证一下。据说有这个弹窗就是可以了。
标题: 清明返深真的很堵,明天再出发了,这个过路费省不了
作者: #luh52
板块: #搞七捻三
编号: 1909172
帖子: https://linux.do/t/topic/1909172
时间: 2026-04-06 22:16:07
摘要:
目前堵车问题,感觉都没有好的办法,大家一起聊聊
标题: 放假了,重置一般
作者: #无情的一天
板块: #搞七捻三
编号: 1909174
帖子: https://linux.do/t/topic/1909174
时间: 2026-04-06 22:16:28
摘要:
每次放假都感觉脑子被一键格式化了一般
空荡荡
标题: 终于还是到了这一天,感觉cc 5倍的套餐不够用了
作者: #A.Ziegler
板块: #搞七捻三
编号: 1909181
帖子: https://linux.do/t/topic/1909181
时间: 2026-04-06 22:17:27
摘要:
我该怎么办,一天用了20%,废寝忘食编程一天了。
标题: DDG邮箱无法获取别名
作者: #Zyb
板块: #搞七捻三
编号: 1909199
帖子: https://linux.do/t/topic/1909199
时间: 2026-04-06 22:20:34
摘要:
之前DDG还是可以创建很多别名的,今天我新注册了一个发现不能创建别名了,是因为我这边用的自己的cf导致的么?我轮询好久都拿不到一个新的别名了
标题: 你们是把ai当人还是当机器?
作者: #陈东
板块: #搞七捻三
编号: 1909209
帖子: https://linux.do/t/topic/1909209
时间: 2026-04-06 22:21:49
摘要:
我感觉我是把ai当老婆了,回答错了我还会安慰她
标题: 为啥大伙们在囤outlook邮箱?
作者: #诉爱喵
板块: #开发调优
编号: 1909222
帖子: https://linux.do/t/topic/1909222
时间: 2026-04-06 22:22:55
摘要:
这两天登录l站就看见有人在发outlook邮箱,我很好奇这不是随便注册吗,为啥大伙们需要囤
标题: 支付宝也内置小龙虾了,配置还挺高
作者: #wm(猫猫头大帅哥的饲主)
板块: #搞七捻三
编号: 1909230
帖子: https://linux.do/t/topic/1909230
时间: 2026-04-06 22:23:52
摘要:
配置还挺高的

是root权限,阿里云的机器
不过我没有内测资格
支付宝搜 aclaw就能看见小程序
标题: [论文随笔分享] 探索拓展大语言模型智能体的边界
作者: #KAZE桑
板块: #文档共建
编号: 1909236
帖子: https://linux.do/t/topic/1909236
时间: 2026-04-06 22:24:38
摘要:
受到 @bfloat16 佬的启发,个人决定开一个笔记分享系列,一方面是促进自己阅读论文的动力,希望每次阅读时,能够细心一些分析有价值的论文,并将这些感悟记录下来,留给有需要的佬友。另一方面是希望与佬们交流见闻,促进自己的视野。本论文分享系列会持续更新,聚焦LLM/Agentic/CV方向的论文。

0.元信息
论文标题:Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位:苹果
原始论文:[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration
1.前言
本文提出了一种可插拔式的方法,基于GRPO进行实验,因此可以视为对GRPO的改进,但也可应用于其他RL方法。其主要针对策略模型的采样阶段,不涉及奖励函数部分。该方法能够根据本轮的轨迹情况,将反馈引入下一轮,从而改变采样阶段的行为,这一理念较为新颖有趣。
过往已有类似的生成温度调节和采样阶段设计,但本文的设计更为灵活简洁;此外,其聚焦于Agentic场景的应用效果,领域也更为新颖。本文的方法图质量实在是不尽人意,实在过于模糊,论文整体可视化做得也比较差,难以相信出自苹果之手…虽然近年来苹果的论文质量确实有些一般就是了。
2.问题
本文聚焦于解决传统RL方法在LLM后训练中探索能力匮乏的问题。简单来说,我们在进行RL后训练时,期望模型找到一条最佳的采样路径,但受限于奖励函数的设计缺陷与复杂的决策空间,这通常很难实现。
在奖励函数方面,我们常常面临奖励过于稀疏的问题,例如分类正确性奖励仅反馈0或1,对应正确与否,那么不同的探索路径也只会得到0/1的优势差异。当组间优势差异过低时,便会产生优势消失问题,模型容易陷入优化困难的局面,难以积极探索新的路径。
3.动机
作者注意到,单纯改变生成温度来引入多样性,在Agentic交互中效果不佳。原因在于,虽然温度改变了模型的交互坐标,但其决策本身并未变化——例如点击的仍是同一个按钮,只是
标题: 感觉老号+美国原生信用卡付款就是 claude 最稳定的使用方式了
作者: #星野
板块: #搞七捻三
编号: 1909251
帖子: https://linux.do/t/topic/1909251
时间: 2026-04-06 22:26:44
摘要:
马上第二周结束了中间好多次忘记开梯子等等问题导致 claude 首页提示该地区不可用都出现了好多次,但是没有封号……所以我感觉那些改时区啥的更多是心理安慰了。还有全英文对话的我感觉更不对劲了。我的对话里面他明显知道我是中国的因为他甚至会出现:国内怎么怎么样所以你应该要怎么怎么样这样的对话。所以我感觉 claude 管的最严格的应该还是支付方式这些的。
说的很乱但是希望能给佬们一个参考!
标题: sub2api和cpa哪个更好用
作者: #liheng
板块: #搞七捻三
编号: 1909274
帖子: https://linux.do/t/topic/1909274
时间: 2026-04-06 22:29:49
摘要:
sub2api和cpa哪个更好用
标题: Ccswitch设置codex报错
作者: #ca1pher
板块: #开发调优
编号: 1909276
帖子: https://linux.do/t/topic/1909276
时间: 2026-04-06 22:30:27
摘要:
Claude code正常,codex有时报一个什么400的,大多时候报这个错误,有知道怎么处理的佬么?感谢 unexpected status 502 Bad Gateway: Unknown error, url: http://127.0.0.1:15721/v1/responses
标题: 速蹬,马上就没
作者: #晓风残月
板块: #福利羊毛
编号: 1909285
帖子: https://linux.do/t/topic/1909285
时间: 2026-04-06 22:31:52
摘要:
base_url = “http://23.94.255.122:8080”
OPENAI_API_KEY": “sk-da08578525fe78f278c3802f459e29416aa0825ee8756f5c7a3eeddc622a378d”