标题: 放假了,重置一般
作者: #无情的一天
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909174
时间: 2026-04-06 22:16:28
摘要:
作者: #无情的一天
板块: #搞七捻三
编号:
1909174帖子: https://linux.do/t/topic/1909174
时间: 2026-04-06 22:16:28
摘要:
每次放假都感觉脑子被一键格式化了一般
空荡荡
标题: 终于还是到了这一天,感觉cc 5倍的套餐不够用了
作者: #A.Ziegler
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909181
时间: 2026-04-06 22:17:27
摘要:
作者: #A.Ziegler
板块: #搞七捻三
编号:
1909181帖子: https://linux.do/t/topic/1909181
时间: 2026-04-06 22:17:27
摘要:
我该怎么办,一天用了20%,废寝忘食编程一天了。
标题: DDG邮箱无法获取别名
作者: #Zyb
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909199
时间: 2026-04-06 22:20:34
摘要:
作者: #Zyb
板块: #搞七捻三
编号:
1909199帖子: https://linux.do/t/topic/1909199
时间: 2026-04-06 22:20:34
摘要:
之前DDG还是可以创建很多别名的,今天我新注册了一个发现不能创建别名了,是因为我这边用的自己的cf导致的么?我轮询好久都拿不到一个新的别名了
标题: 你们是把ai当人还是当机器?
作者: #陈东
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909209
时间: 2026-04-06 22:21:49
摘要:
作者: #陈东
板块: #搞七捻三
编号:
1909209帖子: https://linux.do/t/topic/1909209
时间: 2026-04-06 22:21:49
摘要:
我感觉我是把ai当老婆了,回答错了我还会安慰她
标题: 为啥大伙们在囤outlook邮箱?
作者: #诉爱喵
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1909222
时间: 2026-04-06 22:22:55
摘要:
作者: #诉爱喵
板块: #开发调优
编号:
1909222帖子: https://linux.do/t/topic/1909222
时间: 2026-04-06 22:22:55
摘要:
这两天登录l站就看见有人在发outlook邮箱,我很好奇这不是随便注册吗,为啥大伙们需要囤
标题: 支付宝也内置小龙虾了,配置还挺高
作者: #wm(猫猫头大帅哥的饲主)
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909230
时间: 2026-04-06 22:23:52
摘要:
作者: #wm(猫猫头大帅哥的饲主)
板块: #搞七捻三
编号:
1909230帖子: https://linux.do/t/topic/1909230
时间: 2026-04-06 22:23:52
摘要:
配置还挺高的
是root权限,阿里云的机器
不过我没有内测资格
支付宝搜 aclaw就能看见小程序
标题: [论文随笔分享] 探索拓展大语言模型智能体的边界
作者: #KAZE桑
板块: #文档共建
编号:
帖子: https://linux.do/t/topic/1909236
时间: 2026-04-06 22:24:38
摘要:
作者: #KAZE桑
板块: #文档共建
编号:
1909236帖子: https://linux.do/t/topic/1909236
时间: 2026-04-06 22:24:38
摘要:
受到 @bfloat16 佬的启发,个人决定开一个笔记分享系列,一方面是促进自己阅读论文的动力,希望每次阅读时,能够细心一些分析有价值的论文,并将这些感悟记录下来,留给有需要的佬友。另一方面是希望与佬们交流见闻,促进自己的视野。本论文分享系列会持续更新,聚焦LLM/Agentic/CV方向的论文。
0.元信息
论文标题:Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位:苹果
原始论文:[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration
1.前言
本文提出了一种可插拔式的方法,基于GRPO进行实验,因此可以视为对GRPO的改进,但也可应用于其他RL方法。其主要针对策略模型的采样阶段,不涉及奖励函数部分。该方法能够根据本轮的轨迹情况,将反馈引入下一轮,从而改变采样阶段的行为,这一理念较为新颖有趣。
过往已有类似的生成温度调节和采样阶段设计,但本文的设计更为灵活简洁;此外,其聚焦于Agentic场景的应用效果,领域也更为新颖。本文的方法图质量实在是不尽人意,实在过于模糊,论文整体可视化做得也比较差,难以相信出自苹果之手…虽然近年来苹果的论文质量确实有些一般就是了。
2.问题
本文聚焦于解决传统RL方法在LLM后训练中探索能力匮乏的问题。简单来说,我们在进行RL后训练时,期望模型找到一条最佳的采样路径,但受限于奖励函数的设计缺陷与复杂的决策空间,这通常很难实现。
在奖励函数方面,我们常常面临奖励过于稀疏的问题,例如分类正确性奖励仅反馈0或1,对应正确与否,那么不同的探索路径也只会得到0/1的优势差异。当组间优势差异过低时,便会产生优势消失问题,模型容易陷入优化困难的局面,难以积极探索新的路径。
3.动机
作者注意到,单纯改变生成温度来引入多样性,在Agentic交互中效果不佳。原因在于,虽然温度改变了模型的交互坐标,但其决策本身并未变化——例如点击的仍是同一个按钮,只是
标题: 感觉老号+美国原生信用卡付款就是 claude 最稳定的使用方式了
作者: #星野
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909251
时间: 2026-04-06 22:26:44
摘要:
作者: #星野
板块: #搞七捻三
编号:
1909251帖子: https://linux.do/t/topic/1909251
时间: 2026-04-06 22:26:44
摘要:
马上第二周结束了中间好多次忘记开梯子等等问题导致 claude 首页提示该地区不可用都出现了好多次,但是没有封号……所以我感觉那些改时区啥的更多是心理安慰了。还有全英文对话的我感觉更不对劲了。我的对话里面他明显知道我是中国的因为他甚至会出现:国内怎么怎么样所以你应该要怎么怎么样这样的对话。所以我感觉 claude 管的最严格的应该还是支付方式这些的。
说的很乱但是希望能给佬们一个参考!
标题: sub2api和cpa哪个更好用
作者: #liheng
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909274
时间: 2026-04-06 22:29:49
摘要:
作者: #liheng
板块: #搞七捻三
编号:
1909274帖子: https://linux.do/t/topic/1909274
时间: 2026-04-06 22:29:49
摘要:
sub2api和cpa哪个更好用
标题: Ccswitch设置codex报错
作者: #ca1pher
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1909276
时间: 2026-04-06 22:30:27
摘要:
作者: #ca1pher
板块: #开发调优
编号:
1909276帖子: https://linux.do/t/topic/1909276
时间: 2026-04-06 22:30:27
摘要:
Claude code正常,codex有时报一个什么400的,大多时候报这个错误,有知道怎么处理的佬么?感谢 unexpected status 502 Bad Gateway: Unknown error, url: http://127.0.0.1:15721/v1/responses
标题: 速蹬,马上就没
作者: #晓风残月
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/1909285
时间: 2026-04-06 22:31:52
摘要:
作者: #晓风残月
板块: #福利羊毛
编号:
1909285帖子: https://linux.do/t/topic/1909285
时间: 2026-04-06 22:31:52
摘要:
base_url = “http://23.94.255.122:8080”
OPENAI_API_KEY": “sk-da08578525fe78f278c3802f459e29416aa0825ee8756f5c7a3eeddc622a378d”
标题: 【抽奖】继续抽一个Grok API Key(50美元额度)
作者: #zishiluojin
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/1909293
时间: 2026-04-06 22:33:29
摘要:
作者: #zishiluojin
板块: #福利羊毛
编号:
1909293帖子: https://linux.do/t/topic/1909293
时间: 2026-04-06 22:33:29
摘要:
继续抽一个 Grok API Key(50 美元额度),无质保,已测试可用
奖品详情:
[奖品]:一个 Grok API Key(50 美元额度)
活动时间:
开始时间:2026.04.06 22:33
截止时间:2026.04.07 22:00
参与方式:
在本帖下回复任意内容
抽奖规则:
每位用户仅允许参与一次。
使用 官方抽奖工具 随机抽取中奖者。
注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后 12 小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛 管理团队 最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
标题: duck收不到验证码了吗?
作者: #992chen
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909308
时间: 2026-04-06 22:34:33
摘要:
作者: #992chen
板块: #搞七捻三
编号:
1909308帖子: https://linux.do/t/topic/1909308
时间: 2026-04-06 22:34:33
摘要:
duck是不是收不到chatgpt的验证码了?
标题: 看看SuperGrok Heavy能活多久
作者: #Tom Jerrr
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1909310
时间: 2026-04-06 22:34:45
摘要:
作者: #Tom Jerrr
板块: #搞七捻三
编号:
1909310帖子: https://linux.do/t/topic/1909310
时间: 2026-04-06 22:34:45
摘要:
2026年4月6日:用一天没事
每月50刀也很香