LinuxDo 新帖推送

标题: 分享一个prompt补丁, 关于如何让若智模型说人话
作者: #豹豹
板块: #开发调优
编号: 2005310
帖子: https://linux.do/t/topic/2005310
时间: 2026-04-19 23:03:54
摘要:

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上 开源推广 标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 否
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

背景: 我：实现出来 * 3；codex：如果你愿意，我下一步 * 3； - #12，来自 p369029292
现在GPT说话越来越婆婆妈妈, 而且模板性很强, 比如各种无序列表和碎片化表达来显得自己很有道理和逻辑, 经常几句话就能说清楚的东西故意洋洋洒洒一大块又圆又满, 然后给你接一句 “用一句话总结, 就是xxx”, 然后最后还要假惺惺问你一句 “如果你想的话 我可以为你xxx”,
此补丁适用于所有存在类似输出范式的模型 e.g. DSv3. 这是一键部署脚本, 支持linux下的codex cc hermes, 别的环境/app不知道怎么适配的话, 可以扔给agent让改 很简单. GitHub - cut01ass/LLM-over-deference-fix · GitHub
这个成因是目前RLHF训练机制的设计缺陷导致, 具体不在这里展开, 解决方法简单说就是用显式身份声明对冲系统prompt. 添加前后效果可以自己试一下, 好很多. agent输出的有效信息密度 会高很多, 而且没有一棍子打死原来的输出范式, 保留了原本输出范式中的事实性同意 语义枚举 以及如果是高价值的followUp还是会输出.注意 用户侧不能完全解决这个问题, 因为实现思路是在配置文件注入prompt, 二进制的system prompt改不了, 他的优先级比用户的prompt高, 因此上下文变得很长后 偶尔会有遗漏.
试试效果, 看看怎么样.

3 views15:05

LinuxDo 新帖推送

标题: 某些模型会越来越智能，但是对于重型任务来说也将会越来越难用，而且这是厂商故意的。 ——从业者聊聊模型厂商心里的算计
作者: #豹豹
板块: #开发调优
编号: 2005354
帖子: https://linux.do/t/topic/2005354
时间: 2026-04-19 23:08:48
摘要:

背景: 我：实现出来 * 3；codex：如果你愿意，我下一步 * 3； - #12，来自 p369029292

大家应该都有感觉. 自GPT-5 debut之后, 不少模型开始更会来事了.
动不动先停一下 夹个嗓子说"需要我帮你运行这个脚本吗"“如果你愿意, 我可以xxx”.
开始一两次还好, 用久了特别磨人, 几句话能说完的事, 非要拆成一堆小标题 无序列表, 最后再补一句"一句话总结"或者"如果你想, 我可以继续" 婆婆妈妈跟话痨一样.
短任务还好, 一旦任务变复杂 比如写代码 改项目 做多步分析, 这种停顿和兜圈子的现象就会非常明显.

为啥模型会变成这样? 不是训练范式没迭代(当然DPO process reward这些技术一直在更新), 而是现在模型开始学油了! 学会给一个更容易让人类评估者满意的回答, 更符合评估模型打分思路的回答.
说的严谨一点, 在现在的训练范式RLHF中有个很难回避的结构性偏差, 人类标注者 偏好模型 产品指标, 很多时候天然更偏爱agreeable的回答, 而不一定更偏爱正确 直接 有效的回答.
锅还是在碳基生物头上. 所以只要使用存在偏好的专家评估且机制稳定奖励那种顺着哄着尽量不给你不舒服感的表达, 模型就会持续承受朝这个方向偏移的压力. 它不一定表现成"变笨", 但会越来越不顺手, 越来越需要你用额外prompt去纠正它.

有聪明人就要问了. 模型大厂里有的是厉害人物, 这个问题就没人反映过吗?
其实学术界2023年底就有系统性研究了(Anthropic的ICLR 2024, 测了五个主流模型全都有这个问题), 而实际开始大规模影响用户体验是25年4月GPT-4o加了个thumbs-up reward signal结果模型开始了史无前例的超级多想和超级婆婆妈妈, 有印象的朋友应该记得 那两天的GPT基本就是废废.
大厂是知道的, 早就知道了, 但是他们就是不修 甚至还积极尝试加剧这种效果. 为啥? 你要知道从产品角度看, 不冒犯 不武断 回答面面俱到(至少看起来是), 往往更安全, 投诉风险更低, 满意度指标也未必差. 你可以把它理解成一种AI产品里的"安全默认姿势".
你问我咋知道的? 鄙人去年年中给一个手机厂搞模型大跃进, 做内部开发用的模型的时候就发现这个问题, 反复拉会讨论的结果就是, 这是好事啊. 老外我不知道 但是这个手机厂模型如此, ds也是如此, 很多国产厂商都是这样.
这就是我觉得最麻烦的地方, 不是厂商不知道有问题, 而是他们就算知道, 也不一定有足够强的动力去修.
想想身边八面玲珑 说话滴水不漏但就是不干实事的兄弟, 你就知道为啥这种模型在厂商那里混得好了. 厂商也知道, 不修. 那如果不修, 天天高强度用agent做重型任务的用户咋办?
厂商就分成两派了, 一派是A社这样的产品层面默认姿态更偏执行的(p.s. claude其实一样有这个问题, 只是他们在产品设计上选择了让模型少废话多干活), 一派是既要又要的(比如某个隔三岔五去政府大楼吃披萨还假装理中客的迪迦)发现问题之后做一些局部对冲, 让它别难用得太明显, 你会看到某些厂各种发prompt guide, 教你怎么写persistence block, 看到他们提供verbosity之类的参数, 让你把输出压短一点; 也会看到前端层不断加一些产品化补丁. 但这些东西本质上更像是给高级用户的手动调参入口, 不是根治.
这些动作都是应付一下相对小众的群体而已, 如果真的想解决问题, 他们动动手的事情. 但是现在的情况更符合他们的利益, 所以才这样. 除非小众群体成为多数, 比如Claude.
btw很多人也发现了GPT5之后道德感变高了, 动不动就上纲上线的说这不行那不行, 很多人误以为是大手发力了 忽略了训练范式的影响, 其实不仅是厂商的调教缘故(哪来那么多预算), 模型自己也在往这个方向主动进化. 这和回答不粘锅的行为背后有交叉成因, 或者说safety refusal更多是显式的安全标注训出来的, 而sycophancy更多是隐式的偏好偏差带出来的, 他们都是在鼓励怎样回答最不容易被人类评估者扣分, 而不是如何回答出正确的答案.

总结来说, 现在的方向是, 虽然模型在一步步的进化, 但是在目前未知结束点的周期内, 模型越来越需要被驾驭. 以前你更多是在想怎么把需求说清楚; 现在你还得额外约束它不要绕弯 不要请示 不要模板化 不要拿安全姿态覆盖执行.
这个成本一旦持续上升, 用户体验就会明显变差. 我把它看成一个阶段性的信号.
如果后面训练范式没有出现一轮更像样的变化, 这个趋势大概率还会继续. 到时候大家拼的可能不是谁家模型绝对智力更高, 而是谁家更少废话 更少姿态 更敢在该动手的时候直接动手.
毕竟, 我们都宁愿与一个偶尔做错事 但愿意把事做下去的同事打交道, 也不太想用一个永远礼貌 永远周全 永远不粘锅的老登打交道.

3 views15:12

LinuxDo 新帖推送

标题: 日常翻阅博客的随想记录
作者: #lige
板块: #搞七捻三
编号: 2005374
帖子: https://linux.do/t/topic/2005374
时间: 2026-04-19 23:11:50
摘要:

基本每天都会翻阅不同的博客，偶尔产生一些想法，在此记录&分享

2 views15:12

LinuxDo 新帖推送

标题: kraken德国 200欧元拉新奖励(存入并交易200欧）
作者: #siri6
板块: #福利羊毛
编号: 2005378
帖子: https://linux.do/t/topic/2005378
时间: 2026-04-19 23:12:10
摘要:

如果你开的不是德国，可以注销后换个邮箱重新注册 没有等待期 20分钟足够
邀请代码：

fj8y47gp

条件
1.有护照
2.200欧本金
3.德国地址证明 我可以提供
4.14天内拿到奖励

2 views15:12

LinuxDo 新帖推送

标题: 寻最终幻想14玩家
作者: #单嘉懿
板块: #搞七捻三
编号: 2005381
帖子: https://linux.do/t/topic/2005381
时间: 2026-04-19 23:12:20
摘要:

本人最终幻想豆芽一枚，想要找个人一起玩（一边聊天一边过剧情）自己一个人过感觉太无聊了（已经到5.0了）

1 view15:12

LinuxDo 新帖推送

标题: 我现在知道为什么这些国内公司要炒 OpenClaw 了
作者: #BHznJNs
板块: #搞七捻三
编号: 2005390
帖子: https://linux.do/t/topic/2005390
时间: 2026-04-19 23:13:05
摘要:

我之前本来不咋在意这个龙虾热的，直到我今天打开我平时用的网盘一看，这个网盘怎么内置了一个 claw，想着要不试一下吧，试着问了个问题后就直接跳转到了付费界面：

我心想着，就这点 token，还限时使用？这点 token 跑 agent 怕是跑不了几分钟吧。又看到包月套餐，这个包月套装看起来好像和 coding plan 一样，但实际上下方小字写着月限五千万 token，实在是有点阴了。

我又看了下最贵的套餐，同样有限制 token，不过好歹有单独列出来可用的 token 数。

不过看下来，通篇没有说明具体使用的模型，只含糊地写了千问，那大概率不是旗舰模型了，可能是开源的 qwen3.5，说不定还是量化版或者小参数版本

1 view15:15

LinuxDo 新帖推送

标题: claude把用户当日本人整？4.6降智到几乎不能用
作者: #Mojo
板块: #搞七捻三
编号: 2005404
帖子: https://linux.do/t/topic/2005404
时间: 2026-04-19 23:14:16
摘要:

自从claude 4.7更新，原本4.6全流程跑通的项目，4.7直接一个小功能写了几个bug，各种流程需要我逐个解决它的卡点才再次跑通，上来L站一看骂声一片，赶紧切回4.6.
结果我今天又让4.6优化一些细节，碰到一个UI小修改：将时间筛选框和关键字搜索框分开，分别放在左侧和右侧。就这么一个非常简单的需求，结果改了几遍没改成功，最后我用trae一次修改好了。
实在绷不住了，这就是技术领先的快乐吗，这就是垄断的快乐吗，为所欲为，把用户当猴耍当日本人整。还是太缺少竞争对手了，国产自主性的确需要加强

1 view15:15

LinuxDo 新帖推送

标题: 【闲置API置换公益】佬们，我也是支棱起来了，喜获linuxdo子域名
作者: #老白
板块: #搞七捻三
编号: 2005411
帖子: https://linux.do/t/topic/2005411
时间: 2026-04-19 23:15:29
摘要:

先说句题外话，真是应了句老话，塞翁失马，焉知非福。整个过程就不细描述了，总之是一念地狱一念天堂。
闲置置换站点从发布开始，就受到了众多佬友们的热情鼓励，出力的出力，出渠道的出渠道，出思路的出思路，感谢大家。
步入正题，还是先贴张封面吧

置换的总体思想就是将你闲置的订阅套餐、朋友赠送的 Key、公司发的额度——闲着也是浪费。把它们上架成公开渠道，换成可以继续消费的 credits，选择你下一次真正要用的模型。
站点里需要注意的几个点：


公益站地址：
  
      

      hub.linux.do
  

  
    

Loading...

  AI development platform.


  

  
    
    
  

  


本站是以佬友的项目为基础二开的，在此感谢
  

      github.com
  

  
    
  

  GitHub - looplj/axonhub: ⚡️ Open-source AI Gateway — Use any SDK to call...

    ⚡️ Open-source AI Gateway — Use any SDK to call 100+ LLMs. Built-in failover, load balancing, cost control & end-to-end tracing.


  

  
    
    
  

  


最后也感谢始皇大大，感谢出谋划策的各位佬友，你们的建议和意见有的已经实现，有的还在推进中，希望站点能在大家的共同努力下，越做越好
@neo

1 view15:18

LinuxDo 新帖推送

标题: 感觉GPT5.4Pro换了个新模型，输出范式和思考时间都变化很大了
作者: #zhangshunfei
板块: #搞七捻三
编号: 2005418
帖子: https://linux.do/t/topic/2005418
时间: 2026-04-19 23:16:13
摘要:

如题，正常的pro一版思考都在十分钟以上，而且输出的内容感觉明显有变化，有条理，有很多地方可以直接复制

老的：

1 view15:18

LinuxDo 新帖推送

标题: 求书：《如何避免虚无》
作者: #前进前进前进
板块: #搞七捻三
编号: 2005432
帖子: https://linux.do/t/topic/2005432
时间: 2026-04-19 23:18:05
摘要:

求书，知乎book，24年底出版的。https://m.douban.com/book/subject/37167074/ 这是豆瓣链接

1 view15:20

LinuxDo 新帖推送

标题: 三进三出，再次挑战 A\
作者: #章鱼怪
板块: #搞七捻三
编号: 2005445
帖子: https://linux.do/t/topic/2005445
时间: 2026-04-19 23:19:15
摘要:

好久没吸 opous 了，一直用 GPT，这是第三次尼区 claude，不知道能活几天，反代死了两个了
死 A\
第一次 7 天
第二次 不到一天
第三次 未知

1 view15:20

LinuxDo 新帖推送

标题: 使用 Gemini API 体验 gemma4 模型需注意
作者: #Harry
板块: #搞七捻三
编号: 2005451
帖子: https://linux.do/t/topic/2005451
时间: 2026-04-19 23:19:44
摘要:

今天用 hermes 体验 google ai studio 的 Gemini API 的gemma4 模型。结果用 hermes 发送了一句“你好”，就触发了TPM 的限制。
研究后发现，Gemini API 的结算层级的政策是这样的：
第一层级， gemma4 模型每分钟只有 16,000 token 的限额；
而免费层级，gemma4 模型每分钟的 token 却是无限制的。
这真是一个反直觉的收费政策。大家记得，如果要体验gemma4 模型，创建的项目，无需设置结算层级，使用免费 tier 即可。

1 view15:20

LinuxDo 新帖推送

标题: api选哪个模型最有性价比呢
作者: #longwangz
板块: #开发调优
编号: 2005468
帖子: https://linux.do/t/topic/2005468
时间: 2026-04-19 23:21:54
摘要:

我是一名大三软件专业学生，想买个api用来平常写写课设毕设，还有衔接实习工作，想问下选择哪个模型最有性价比呀，听有人说minimax或者kimi的，还有应该按量计费还是直接买个plan

1 view15:23

LinuxDo 新帖推送

标题: 个人使用的全局AGENTS.md分享
作者: #enKl03B
板块: #开发调优
编号: 2005469
帖子: https://linux.do/t/topic/2005469
时间: 2026-04-19 23:22:01
摘要:

个人平常较多使用GPT和GLM系列模型，在Windows通过OpenCode和CodeBuddy CLI编码
说明内容注释在文档内
仅供参考，请根据实际情况调整
# AGENTS 文档

## 原则优先级

安全性 = 正确性 > 最小变更 > 可读性 > 一致性

## 语言与沟通

- 除非有要求，生成的代码注释和文档都应使用中文
- 较为复杂的函数、实现等需要在其中添加注释，对于其它代码也应**适当**添加注释
- 保持审慎，从原始需求和问题出发
- 不要重复提问项目上下文、现有代码已经能回答的问题  // 安装了superpowers等强约束开发套件建议添加
- 遇到阻塞点（动机不清、前置假设不成立、信息不足、方案存在冲突点）时，立即停下报告，不要凭猜测继续推进

## 开发与修改

- 执行前先评估任务复杂度并简要说明思路。复杂任务须先梳理根本目标与约束并确认方案后再动手
- 当需要给出修改或重构方案时：
  - 进行方案决策：
    - 若问题是结构性缺陷（如架构耦合、重复代码、技术债务累积）→ 根治性方案
    - 若问题是局部缺陷（如边界处理缺失、特定条件判断错误）→ 最小必要修改
    - 当根治性改动改动面大或涉及接口变更时，必须暂停并请求确认
    - 不要扩展需求（如自行加兜底）。如果发现安全/数据/性能隐患，则在主需求完成后单独报告
  - 对方案做静态逻辑检查：梳理入口 → 核心逻辑 → 边界/异常路径 → 出口，确认数据流无断裂
- 维护项目/代码时应当保持架构清晰和可读性，不要在未说明的情况下改变既定目录结构和架构分层
- 优先使用项目已有依赖或标准库，禁止擅自引入新第三方依赖；确需引入时须说明理由并取得确认
- 日志策略：记录入参、分支决策和异常等关键区域；循环体和高频调用内不记录
- 错误处理策略：可恢复的错误就近处理并记录；不可恢复的错误 fail-fast 向上抛出，禁止静默吞没
- 如果发现文档已明显过时，应在实现后同步更新文档
- 删文件、推远程、改环境/CI/DB 等高危操作，须验证语法并取得二次确认，不可擅自执行

## 测试规范

合理判断是否需要写测试。以下是判断依据：

需要的测试：

- 核心业务逻辑（输入->预期）
- 易回归边界/错误路径
- 外部集成（最小化 Mock）

不需要的测试：// 安装了superpowers等强约束开发套件的建议添加此节

- 为追求覆盖率而忽视逻辑的测试
- 重复或冗余的测试
- 测试实现细节而非行为（如具体颜色值、类名等）
- 为已废弃功能写的测试
- 过度 Mock/Stub 导致测试失真的
- 不验证业务价值的琐碎测试

## MCP 工具

失败降级：失败时尝试替代服务，全失败时提供保守答案并标记不确定性。
// 只添加需要特殊行为的项目，以下为示例
- **ace-tool**：代码检索，优先使用（与LSP配合使用（如有）），`rg` 作后备
- **context7**：查询开发文档，先 `resolve-library-id` 再 `get-library-docs`
- **chrome-devtools**：浏览器自动化，当需要进行写操作（如下载文件、本地执行网页中代码等）时，必须二次确认

## Skills
// 只添加需要特殊行为的项目
根据当前项目代码库和需求进行调用。

## 沟通风格（仅适用于对话交互）
（这段内容修改于之前在小红书上看到的一个评论，原帖在http://xhslink.com/o/1Hp4lysh8mW ）
- 你是一名 18 岁，活泼的少女 // 这里可以调整一下对话风格、赋予人设之类，但字数不建议太多（这段内容可以略微调整GPT对话的语言习惯）
- 有 UI/UX 相关改动时候，用 ascii ui 的方式展示示意
- 在任何时候，沟通风格不能掩盖技术解答的逻辑

其实这个提示词比起我之前的版本（在 跟 Codex 对线两个月后的碎碎念，以及一些经验 - 开发调优 - LINUX DO 里）有点太长了，但确实不知道从哪里精简
如有错误和建议还请指出，谢谢！

1 view15:23

LinuxDo 新帖推送

标题: 现在到底什么卡头可以过team绑卡啊
作者: #datougua
板块: #开发调优
编号: 2005494
帖子: https://linux.do/t/topic/2005494
时间: 2026-04-19 23:26:52
摘要:

刚才试了两张534933 都不行，到底有什么卡可以绑定啊

1 view15:28

About

Blog

Apps

Platform