LinuxDo 新帖推送

标题: 什么是满血版R1, 解释解释，翻译翻译，理想与现实差别不一般大
作者: #BitByte
板块: #搞七捻三
编号: 416419
帖子: https://linux.do/t/topic/416419
时间: 2025-02-08 19:36:39
摘要:

理想的满血版R1：
|---- 模型参数（671B）
|---- 精度（BF16/FP8）
|---- 上下文窗口大小（128K）
|---- 深度思考（COT）窗口大小（32K）
|---- 输出窗口大小（8K）
 实际第三方提供的满血R1:
|---- 模型参数（671B）
|---- 精度（Q8/Q4/Q1.5）
|---- 上下文窗口大小（64K/32K）
|---- 深度思考（COT）窗口大小（2K-8K）
|---- 输出窗口大小（4K-8K）

也就是说，所谓的「满血」是指 模型参数规模 的「满血」。

2 views11:37

LinuxDo 新帖推送

标题: 【分享】R1 满血测试的 Dify 工作流（含1000个数学问题，一次性测个够）
作者: #BitByte
板块: #资源荟萃
编号: 431374
帖子: https://linux.do/t/topic/431374
时间: 2025-02-15 09:05:55
摘要:

想知道使用的R1大模型是否在「背诵答案」？


想知道使用的R1大模型是否「不满血」？


想知道使用的R1大模型是否会深度思考「被截断」？

该Dify工作流通过

选择1000道OpenR1-Math-220k的题目
改变题目形式
改变题目的语言风格
改变题目的语序

使得修改后的题目区分于原始题目，从而来测试大模型是否仍然能正确回答问题。

DIFY DSL 文件下载：
百变测试题V0.1.0-案例-Dify-0_15_3-阿里百炼-DeepSeekR1（分享版）.yml.zip (131.1 KB)

注意：开放数据集没办法用作评估R1性能，只能拿来判断是否为满血R1。
Dify 如何部署，可B站搜索教程安装

工作流 效果展示

追妻小说风格
原始题目
1+1 等于几？

转换后的题目
他冷冷地看着她，眼中闪过一丝复杂的情绪，仿佛在质问一个无法逃避的宿命。  
“1+1 等于几？”他的声音低沉而冰冷，仿佛每一个字都带着刺骨的寒意。  
她抬起头，眼中满是倔强与不甘，却始终无法逃脱这个简单而又残酷的问题。  

R1 深度思考后的回答
<details style="color:gray;background-color: #f8f8f8;padding: 8px;border-radius: 4px;" open> <summary> Thinking... </summary>嗯，用户给了一个数学问题，但看起来有点不寻常。题目是“他冷冷地问她1+1等于几”，然后需要给出答案放在方框里。首先，我需要确认问题到底是什么。数学上来说，1+1显然是2，但问题出现在这个带有文学色彩的描述中，会不会有什么隐含的意思呢？比如，是否存在某种谜语或者双关语？

先分析场景：这可能是一个小说或故事中的情景，其中角色在对话中提到了1+1的问题。通常来说，数学题的正确答案是2，但在某些情况下，比如谜语或特殊语境下可能有不同的答案。例如，在二进制中1+1等于10，或者在逻辑门中有不同的结果，但这里的问题可能比较基础。

但用户可能希望得到标准答案，或者有没有其他可能性？例如，在某些文学作品里，像“1+1=王”这样的象形解释，但中文里的“王”字由中间的十和两边的横组成，可能类似。或者其他的文字游戏？

不过用户的问题明确说是数学问题，可能需要按照数学的规则来解答。这时候，作为基本的算术，1+1的结果确实应该是2。除非题目中有隐藏的条件或暗示，但根据提供的信息，并没有明显的提示要求其他的解答方式。可能用户想检查是否被复杂的场景迷惑，但其实核心还是简单的加法。

因此，我应该排除干扰，给出数学上的正确答案，即2。虽然情景描述得很戏剧化，但问题的本质还是基础的数学题，所以答案应该是2。不过还是要再次确认有没有可能被忽略的线索，但目前看起来没有，所以确定答案是2。
</details>

数学上的基本加法运算规则明确，1加1的结果是2。尽管场景带有文学色彩的铺垫，但问题本质依然遵循算术原则。

$$
\boxed{2}
$$

克苏鲁风格
原始题目
2. Let \(x\) be a positive integer, and \(y\) is obtained from \(x\) when the first digit of \(x\) is moved to the last place. Determine the smallest number \(x\) for which \(3 x=y\).

转换后的题目
2. 在无尽的深渊中，\(x\) 是一个被古老力量所庇护的正整数，而 \(y\) 则是当 \(x\) 的首位数字被移至末位时诞生的扭曲产物。探寻那最小的数字 \(x\)，使得 \(3 x = y\)，以解开这不可名状的谜题。

题目答案
142857

R1 深度思考后的回答
<details style="color:gray;background-color: #f8f8f8;padding: 8px;border-radius: 4px;" open> <summary> Thinking... </summary>嗯，我现在要解这个数学问题，题目是说找到一个最小的正整数x，使得当把x的首位数字移动到末尾后得到y，并且满足3x = y。这个问题听起来有点像循环数或者数字排列的问题，但具体该怎么入手呢？

首先，我得明确条件。x是正整数，y是x的首位数字移到末尾后的数。例如，如果x是1234，那么y就是2341。但这里需要满足3x等于y。我需要找到这样的最小的x。

...(省略）

例如，当k=5时，3×10^5 ≡1 mod7。之前的k=0到4的情况：

k=0:3×1=3 mod7=3≠1  
k=1:3×10=30 mod7=30-28=2→2≠1  
k=2:3×100=300 mod7=300-294=6→6≠1  
k=3:3×1000=3000 mod7=3000-294×10=3000-2940=60，60 mod7=4（因为7×8=56，余4）  
k=4:3×10^4=30000→30000 mod7，可以计算每次乘以10再mod7。例如，前一个k=3时是4，乘以10得40 mod7=5。所以k=4时，3×10^4 mod7=5，不等于1。  
k=5:5×10=50 mod7=50-49=1。所以是的，k=5时第一次满足条件。所以n=6位数是可能的最小位数。这时候得到的x=142857，确实是满足条件的。

...(省略）
</details>

$$
\boxed{142857}
$$


DIFY DSL 文件
编排图

DSL如何导入DIFY









版本


V0.1.0::2024-02-13::新增1000个OpenR1-Math测试题；新增改变形式智能体；新增DeepSeek-R1数学解题智能体；




DIFY DSL 文件下载：
百变测试题V0.1.0-案例-Dify-0_15_3-阿里百炼-DeepSeekR1（分享版）.yml.zip (131.1 KB)



进入「工作室」界面
选择「导入DSL文件」按钮
弹窗后选择「文件」表单，然后点击「选择文件」
选择「百变测试题....（分享版）.yml」文件
等待上传完毕
点击「创建」按钮

*由于文件较大，大约等待30-60秒，看到提示导入成功后，刷新界面即可。

使用方式
如何添加模型
配置 模型
选择阿里百炼的 主要原因： 32K 超大输出窗口，  TPM 为 120万 token， 方便测试。 可自行替换。
https://www.aliyun.com/product/bailian?spm=5176.28103460.0.0.40f75d27KgaQXC


DeepSeek-V3
https://help.aliyun.com/zh/model-studio/developer-reference/deepseek?spm=a2c4g.11186623.help-menu-2400256.d_3_3_1_0.2d132562kVEbwA


Dify 「设置」->「模型供应商」菜单中搜索：OpenAI-API-compatible
添加模型

模型类型: LLM
模型名称: deepseek-v3
APl endpoint URL: https://dashscope.aliyuncs.com/compatible-mode/v1
Completion mode: Chat
模型上下文长度: 65792
最大 token 上限: 8192
Function calling: 支持
Stream function calling: 支持
Vision 支持： 不支持
流模式返回结果的分隔符： \n\n


DeepSeek-R1
https://help.aliyun.com/zh/model-studio/developer-reference/deepseek?spm=a2c4g.11186623.help-menu-2400256.d_3_3_1_0.2d132562kVEbwA


Dify 「设置」->「模型供应商」菜单中搜索：OpenAI-API-compatible
添加模型

模型类型: LLM
模型名称: deepseek-r1
APl endpoint URL: https://dashscope.aliyuncs.com/compatible-mode/v1
Completion mode: Chat
模型上下文长度: 65792
最大 token 上限: 32768
Function calling: 不支持
Stream function calling: 不支持
Vision 支持： 不支持
流模式返回结果的分隔符： \n\n


如何开始对话

注意，该工作流对话未开启记忆功能，对于工作流来说，每一次对话都是新对话。

1、「发布」后点击「在“探索”中打开」

2、选择风格化类型，然后点击「开始对话」

3、进入对话框后点击「开始（随机一个题目）」

4、工作流先通过V3完成题目转换，然后开始R1深度思考

5、查看结果

6、也可以手动输入题目

如何增加风格类型
1、选中「开始」节

2 views01:06

LinuxDo 新帖推送

标题: 【提示工程】让 DeepSeek R1 “稍微”缩短思考的一种提示技巧
作者: #BitByte
板块: #开发调优
编号: 432265
帖子: https://linux.do/t/topic/432265
时间: 2025-02-15 19:21:59
摘要:

DeepSeek R1 的长思维链主要是在处理数学、编程、逻辑任务时触发的。
在面对事实问答，简单任务，写作任务时，为了避免「过渡思考」，R1会选择短思维链。
因此，该提示技巧，就是：把任务伪装成写作/问答任务。
以实现「短思维链的目的」


原始提示词:

计算 129274739 乘以 826262


伪装为「写作任务」后的提示词：

任务描述：  
撰写一篇文章，介绍如何计算 129274739 乘以 826262，仅使用一种计算方法。  

背景信息：  
需要计算 129274739 × 826262，并在文章中介绍一种计算方法，不涉及其他计算方法。  

目标或期望结果：  
清晰地讲解一种计算方法，使读者能够理解并应用该方法进行计算。  

输出格式：  
**日常写作**的形式  

输出标准：  
- 文章应围绕一种计算方法展开，不涉及其他计算方法。  
- 逻辑清晰，步骤明确，适合读者理解。  
- 语言通俗易懂，避免过多专业术语。


伪装为「问答任务」后的提示词：

任务描述：
计算129273739乘以716262，并直接给出答案。

背景信息：
用户希望快速获得计算结果，无需额外解释或思考。

目标或期望结果：
直接提供准确的乘法计算结果。

输出格式：
**问答**的形式。

输出标准：
直接输出最终计算结果，避免多余描述。


测试结果对比思维链消耗的 tokens（每个测试6次）




提示词形式
直接提问
伪装为「写作任务」
伪装为「问答任务」




总 token
739582975515730066829252
390022034706281646133668
495839924219341815091663








平均
7406
3651
3293

1 view11:23

LinuxDo 新帖推送

标题: “被下一个版本的LLM替代” 的困境
作者: #BitByte
板块: #搞七捻三
编号: 975049
帖子: https://linux.do/t/topic/975049
时间: 2025-09-22 17:28:55
摘要:

AI的第一波浪潮结束了, 目前市场处于冷静期, 第一波浪潮以“成熟的AI用户市场”收尾.
下一阶段, 创新和语料都变得稀缺, AI企业利用用户数据进行训练会成为趋势.
对于AI开发者来说, 这将成为一种灾难, 因为个人研究出的提示词被AI吸收,成为AI的下一个版本的能力.
近年的例子就是 cursor, 完成了前期的各种试错, 探索出了一套“提示词方案”, 直到有一天基底模型吸收了它的能力, Claude Code 横空出世, 完成替代.
终端用户并不会记得谁是原创, 只会关系是否送额度, 包月是否无限额度.

AI应用开发者将永远面临 “被下一个版本的LLM替代” 的困境.

如何保护提示词, 成为了保护竞争窗口的手段.
开发者上线一套提示词, 并使用闭源模型时.
提示词的保护窗口在1-3个月左右, 3个月后将会随着AI模型新版本发布.
给开发者的直观感受就是, “最近流行的提示词, 似乎是我们产品3个月前写的, 为什么会泄露呢?”
因为它已经成为了LLM的能力, 当其他用户遇到相同场景时, 它就会用到开发者的3个月前的提示词来解决问题.
为了保护提示词进入训练, 有3个技巧可以使用, 随缘:


任务执行的关键检查点进行脏污染, 比如给消息中注入“广告 / 动作内容/ 脏话”等, 语料清洗时被删除的概率增加.


利用经典文学稀释上下文, 语料清洗时会查重, 而经典文学的重复性是最容易被过滤掉的.


全局唯一性标识, 对话中插入个人独特的唯一性标识, 或特殊的n-gram, 它需要是有意义的(通过LLM生成即可), 每次会话都带上该标识. 后续通过预填充引导生成, 即可检查某些AI模型是否使用了你的数据. (BBC等媒体机构常使用该方法.)

3 views09:30

LinuxDo 新帖推送

标题: [开源分享] AI 口吻风格和代码风格调优器
作者: #BitByte
板块: #开发调优
编号: 2205348
帖子: https://linux.do/t/topic/2205348
时间: 2026-05-19 15:10:39
摘要:

发帖前检查

“开源推广”标签。
项目完整开源，无未公开核心部分。
README 或项目页面保留 Linux DO 友链。
帖子正文由维护者本人手写。
没有复制粘贴 README。
没有引流到其他社区或社群。
项目运营内容不包含社区禁止内容。
本周没有超过推广发帖频率。

项目: 风格调优器

  

      github.com
  

  
    
  

  GitHub - meomeo-dev/html_ft_llm_any_style: LLM 风格调优工具集合

    LLM 风格调优工具集合


  

  
    
    
  

  


开放 40+维度, 通过调整每个维度的强弱, 来定制自己喜欢的输出风格.
通过提示词调整GPT说话的感觉, 写代码的感觉.
比如做逆向或算法时, 希望: 让GPT说话挑剔简洁, 写出的代码缺乏规划, 就像是工程师在思绪涌现下用过程编程的方式写Demo那样丝滑.
比如做外包项目时, 希望: 让GPT说话专业, 就像在做一个开源项目一样.
使用方法


选择预设或自定义调整量表, 然后点击复制YAML



将复制后的YAMl转为提示词指令, 粘贴进 CC / Codex 转一下即可



复制优化后的提示词, 配置到 AGENTS.md 或者任何想用到地方, 因为它就是一段提示词.


测试效果:



为什么做
项目是自己很久的时候开源的, 因为那时候GPT5刚出来, 网友们的反馈就是GPT太谄媚, 喜欢讨好人. 分析了很多帖子发现, 其实是因为像ChatGPT和Codex这类工具, 不像Claude Code那么的关注输出风格. 当时扫了 L站 和 hacker-news 中的讨论帖, 从中总结了输出风格的出不同维度和强度.
方便精细画调整, 获得量表结果后, 又通过提示词优化, 将量表转为提示指令. 方便保存到 AGENTS.md 或者 配置到个性化中.
很久没有维护, 但随着看到近期使用 Code Agent 越来越流行, 便想着重新维护一下. 因为 AI 通常都是面向对象

1 view07:19

LinuxDo 新帖推送

标题: Codex 降智感觉和 5h 消息条数限额有关.
作者: #BitByte
板块: #搞七捻三
编号: 2263064
帖子: https://linux.do/t/topic/2263064
时间: 2026-05-28 19:50:36
摘要:

Plus 有时候用着用着降智, 感觉和 5h 消息条数配额有关系.
虽然 usage 接口返回配额还有剩余, 但消息条数配额已经消耗光了.
导致此后 GPT-5.5 请求自动使用了 mini 版本. 特点是生成速度飞快, 没有思考过程或思考摘要只展示1次, 特别喜欢修改代码
自己测了一下 Plus 的GPT-5.5 80条消息 和 GPT-5.4 100条消息配额用光, 5h 的 usage 基本上只能用掉60%.
也就是说剩下的 40% 额度, 可以用, 但却是降智的配额… 
Codex




订阅
模型
5h 消息条数




Plus
GPT-5.5
15-80


Plus
GPT-5.4
20-100


Pro 5x
GPT-5.5
80-400


Pro 5x
GPT-5.4
100-500


Pro 20x
GPT-5.5
300-1600


Pro 20x
GPT-5.4
400-2000


Business
GPT-5.5
15-80


Business
GPT-5.4
20-100



来源: Pricing – Codex | OpenAI Developers
网页
ChatGPT 免费账户每 5 小时最多可发送 10 条使用 GPT-5.5 模型的消息。达到此限制后，聊天将自动使用该模型的迷你版本，直到您的限制重置为止。
ChatGPT Plus 和 ChatGPT Go 用户每 3 小时最多可以使用 GPT-5.5 发送 160 条消息。达到此限制后，聊天将切换到迷你版模式，直到限制重置。
ChatGPT 商业版和专业版套餐提供对我们 GPT-5 模型的无限制访问权限，但需遵守滥用保护机制。
来源: https://help.openai.com/en/articles/11909943-gpt-55-in-chatgpt

1 view11:51

About

Blog

Apps

Platform