LinuxDo 新帖推送
176 subscribers
247K photos
308K links
Download Telegram
标题: PPLX 要綁卡了?
作者: #NullOkami47
板块: #搞七捻三
编号: 1575086
帖子: https://linux.do/t/topic/1575086
时间: 2026-02-07 00:44:16
摘要:
剛收到pplx的email, 說要繼續使用免費的pro要綁卡,佬友們有沒有收到?
标题: 小红书抓个包号就没了
作者: #tee
板块: #搞七捻三
编号: 1575095
帖子: https://linux.do/t/topic/1575095
时间: 2026-02-07 00:49:17
摘要:
我甚至抓的不是它
而是另外一个软件,然后号就没了。我真的是
还有救吗这个
标题: 问个事情 关于Linux.do邮箱的
作者: #刺猬兽
板块: #搞七捻三
编号: 1575097
帖子: https://linux.do/t/topic/1575097
时间: 2026-02-07 00:50:38
摘要:
最近挺闲 打算看看咋搞个Linux.do的邮箱 没想到系统是默认给了个邮箱嘛 不知道你们能不能用这个邮箱 貌似只能收不能发?
标题: opencode胡乱搓了个王者荣耀灵宝市集分享网站
作者: #lmarch2
板块: #搞七捻三
编号: 1575098
帖子: https://linux.do/t/topic/1575098
时间: 2026-02-07 00:50:47
摘要:
因为老是找不到高价小马糕,同时避免群里分享刷屏,想着我是天才程序员(ai)做个分享网站应该可以吧~

https://king.lmarch2.top
没什么技术难度,临时给身边的朋友用用,应该不像开源项目一样维护啦
最后祝大家马年上分大吉!
标题: 腾讯云服务器炸了吗
作者: #woozy
板块: #搞七捻三
编号: 1575114
帖子: https://linux.do/t/topic/1575114
时间: 2026-02-07 00:56:57
摘要:
家人们,腾讯云服务器是炸了吗,我上控制台vnc也没法登录,重启显示一直在重启中
标题: 我想问一下把公益站放进CPA统一管理算不算违规分发?
作者: #Logos
板块: #搞七捻三
编号: 1575116
帖子: https://linux.do/t/topic/1575116
时间: 2026-02-07 00:57:04
摘要:
RTRT
感觉我的CCSwitch故障转移老有问题
标题: 小登想部署openclaw需要什么配置的vps啊
作者: #Charles
板块: #搞七捻三
编号: 1575124
帖子: https://linux.do/t/topic/1575124
时间: 2026-02-07 00:58:51
摘要:
rt,以前没买过vps,也不懂相应配置的价格和渠道,遂来问一下佬友们
标题: 继CLAUDE被封号后,用了一晚上CODEX5.3, PLUS会员被限额到2月9号。
作者: #RL
板块: #开发调优
编号: 1575125
帖子: https://linux.do/t/topic/1575125
时间: 2026-02-07 00:58:52
摘要:
继CLAUDE封号后,刚把VSCODE里的CODEX 5.3调试成网站测试全自动,又把我PLUS干冒烟了。。。。。佬们,有啥其他性价比高的方案能用CODEX 5.3的?
You’ve hit your usage limit. Upgrade to Pro (https://chatgpt.com/explore/pro), visit https://chatgpt.com/codex/settings/usage to purchase more credits or try again at Feb 9th, 2026 10:01 PM.
标题: 【教训】千万不要把10美元每月的谷歌开发者福利注入到5美元赠金专用羊毛账号里!
作者: #我不爱世界
板块: #搞七捻三
编号: 1575127
帖子: https://linux.do/t/topic/1575127
时间: 2026-02-07 01:01:24
摘要:
很多人都知道谷歌最近上新了个开发者福利 我的福利 | Google 开发者计划  |  Google Developer Program  |  Google for Developers pro用户可以每月领取10美元的谷歌云赠金。
它需要让你选择一个结算账号充入这个赠金,我没看于是随便选了一个5美元的赠金账号(平时听佬友介绍,薅了太多谷歌开发者活动的5美元羊毛导致的)
但是
我发现
这种羊毛账号会在内置的5美元被耗尽后自动废弃!
导致里面冲入的每月10美元的开发者福利都会一并被废弃!
并且无法选择优先消耗10美元的那个赠金!
等于说这福利压根就用不上,账号就沉船了
于是我投诉谷歌云和谷歌开发者外包的印度客服,跟他们大战了300回合,两边都认为不是自己的责任 最后没办法只能把谷歌挂公网上去了 https://www.reddit.com/r/googlecloud/comments/1qxffzo/psa_do_not_use_frictionless_accounts_for_google/ 至少让它在其它人面前也丢个脸
千万不要把你的开发者福利充入羊毛赠金结算账号!客服不给退的!
标题: ios移动端opencode
作者: #jinyin1003
板块: #搞七捻三
编号: 1575132
帖子: https://linux.do/t/topic/1575132
时间: 2026-02-07 01:05:45
摘要:
最近逛应用商店发现一款移动端opencode,配合服务器可以使用,配置了一晚上就是连不上,有大佬成功连接吗,分享下经验
标题: 关于codex检索太久,佬友们有招吗~
作者: #CareFree🌚
板块: #开发调优
编号: 1575135
帖子: https://linux.do/t/topic/1575135
时间: 2026-02-07 01:07:10
摘要:
发现每次codex很慢的大部分原因是都在检索,铁铁们有没有招可以解决这个问题
标题: 想看看大家养的小宠物们
作者: #1123
板块: #搞七捻三
编号: 1575141
帖子: https://linux.do/t/topic/1575141
时间: 2026-02-07 01:10:01
摘要:
快来发照片呀,本人十分纠结之后养猫还是养狗,养狗每天要遛,太懒了,但是喜欢狗狗的热情,养猫不需要溜但是猫猫不是很热情,所以啥都没养(主要是没钱没时间)
标题: 两杯奶茶,给我干失眠了
作者: #Ya Gao
板块: #搞七捻三
编号: 1575142
帖子: https://linux.do/t/topic/1575142
时间: 2026-02-07 01:10:34
摘要:
得不偿失啊,正在等待入睡
标题: 如何知道自己设备是否支持蓝牙
作者: #212741
板块: #搞七捻三
编号: 1575147
帖子: https://linux.do/t/topic/1575147
时间: 2026-02-07 01:13:43
摘要:
设备管理看过了,确实有个感叹号的蓝牙驱动,删了重启好像没用
不知道设备有没有蓝牙模块,有个外接的kali网卡(抓握手包用的),呃,说下
我想知道我蓝牙问题是蓝牙驱动还是硬件缺失?蓝牙驱动我可以等下安装,但我想先测试下是不是硬件问题
标题: 国外发模型,国内发红包,这差别有点大
作者: #justinshuai
板块: #搞七捻三
编号: 1575149
帖子: https://linux.do/t/topic/1575149
时间: 2026-02-07 01:16:24
摘要:
人家国外的大模型都在发新模型搞技术迭代,国内的AI大模型倒好,扎堆搞春节发红包、抢红包的玩法,清一色跟风内卷。
只想说一句,营销的风跟得挺紧,怎么核心技术上的风,就一点也跟不上呢????
标题: giffgaff和VOXI哪个保号好一点
作者: #小坏
板块: #搞七捻三
编号: 1575169
帖子: https://linux.do/t/topic/1575169
时间: 2026-02-07 01:28:56
摘要:
如题 都是用esim
VOXI 国内发短信 貌似要 Wi-Fi call
标题: 你们永远不会知道放弃高中去职高有多爽
作者: #zqhsqb🛡️
板块: #搞七捻三
编号: 1575172
帖子: https://linux.do/t/topic/1575172
时间: 2026-02-07 01:29:59
摘要:
rt
我中考没考好,一中去不了,爸妈说去高中不如去职高,升本压力小
没想到,还真是,没有学还过了本科线


只要语数继续保持,专业再努力,轻松本科提
现在加上我校专业实操平均分,228.??(小数点后面的忘了),总分一共563,应该可以上个淄职(公办本科),等到开了PLC和机械基础,电工电子就只占200分试卷的25分了(我专业基本上就电工电子不行),专业到一百五六就可以本科随便挑了hhh
标题: 夜深了,千问可以下单了
作者: #lmoonl
板块: #福利羊毛
编号: 1575173
帖子: https://linux.do/t/topic/1575173
时间: 2026-02-07 01:30:53
摘要:
25元无门槛也可以买生活用品,不一定只买奶茶,只要在千问里跟他提就行
但是千问检索商品范围好像有问题,翻来覆去就那几家
千问现在不支持预定技能,所以大半夜的,还得麻烦骑手配送,半夜的配送费也是个问题,特别贵
不过看来早上也可以下单
我下单了两斤鸡蛋和3斤牛奶 一共花费10元(两单总共花费-50)
标题: 「知识分享」LLM中,什么是强化学习(RL->RLHF)
作者: #sylfilic
板块: #资源荟萃
编号: 1575176
帖子: https://linux.do/t/topic/1575176
时间: 2026-02-07 01:34:02
摘要:
当我第一次尝试理解LLM中的强化学习时,我犯了一个很多人都会犯的错误:直接搜索"RL"、“PPO”、"GRPO"这些关键词,搜到一大堆文章,然后被一堆Actor-Critic、Reward Model、Policy Gradient淹没。
问题是,由于我没有学过“古典RL”,且我只了解LLM,所以总是困惑不已,这些概念怎么套到一个输入文本输出文本的语言模型上的?
这篇文章就是为了clarify这些概念,帮助像我一样入门RLHF的朋友们。

传统RL的核心概念
让我们先系统地梳理一下传统强化学习的基本概念(此部分部分由AI整理,但人工review)。
1. RL的核心要素
强化学习的经典框架包含以下要素:


环境(Environment):智能体所处的外部世界,比如游戏、物理世界


状态(State):环境在某一时刻的完整描述,比如游戏画面、机器人的位置和速度


动作(Action):智能体可以执行的操作,比如"向左移动"、“跳跃”


策略(Policy):从状态到动作的映射,π(a|s)表示在状态s下选择动作a的概率


奖励(Reward):执行动作后环境给出的反馈信号,+1表示好,-1表示坏


回报(Return):从当前时刻开始,未来所有奖励的累积和(通常带折扣因子)


2. RL的工作流程
传统RL是一个循环过程:

1. 智能体观察当前状态 s_t

2. 根据策略 π 选择动作 a_t

3. 环境执行动作,转移到新状态 s_{t+1}

4. 环境给出奖励 r_t

5. 重复上述过程


3. 常见的RL算法


PPO


GRPO


这些概念在与现实交互相关联的训练时非常直观,比如打游戏、下围棋时:状态就是游戏画面,动作就是按键,奖励就是得分。

LLM中的RL
但当我试图把这些概念套到LLM上时,大概有下面这几点疑惑:
1:LLM的"状态"是什么?
LLM只是根据前面的文本生成下一个token,哪来的"状态"?难道是整个prompt?
2:LLM的"动作"是什么?
在游戏里动作是"跳跃"、“射击”,LLM的动作