LinuxDo 新帖推送
201 subscribers
258K photos
323K links
Download Telegram
标题: 什么是满血版R1, 解释解释,翻译翻译,理想与现实 差别不一般大
作者: #BitByte
板块: #搞七捻三
编号: 416419
帖子: https://linux.do/t/topic/416419
时间: 2025-02-08 19:36:39
摘要:
理想的满血版R1:
|---- 模型参数(671B)
|---- 精度(BF16/FP8)
|---- 上下文窗口大小(128K)
|---- 深度思考(COT)窗口大小(32K)
|---- 输出窗口大小(8K)
实际第三方提供的满血R1:
|---- 模型参数(671B)
|---- 精度(Q8/Q4/Q1.5)
|---- 上下文窗口大小(64K/32K)
|---- 深度思考(COT)窗口大小(2K-8K)
|---- 输出窗口大小(4K-8K)

也就是说,所谓的「满血」是指 模型参数规模 的「满血」。
标题: 【分享】R1 满血测试的 Dify 工作流(含1000个数学问题,一次性测个够)
作者: #BitByte
板块: #资源荟萃
编号: 431374
帖子: https://linux.do/t/topic/431374
时间: 2025-02-15 09:05:55
摘要:
想知道使用的R1大模型是否在「背诵答案」?


想知道使用的R1大模型是否「不满血」?


想知道使用的R1大模型是否会深度思考「被截断」?

该Dify工作流通过

选择1000道OpenR1-Math-220k的题目
改变题目形式
改变题目的语言风格
改变题目的语序

使得修改后的题目区分于原始题目,从而来测试大模型是否仍然能正确回答问题。

DIFY DSL 文件下载:
百变测试题V0.1.0-案例-Dify-0_15_3-阿里百炼-DeepSeekR1(分享版).yml.zip (131.1 KB)

注意:开放数据集没办法用作评估R1性能,只能拿来判断是否为满血R1。
Dify 如何部署,可B站搜索教程安装

工作流 效果展示

追妻小说风格
原始题目
1+1 等于几?

转换后的题目
他冷冷地看着她,眼中闪过一丝复杂的情绪,仿佛在质问一个无法逃避的宿命。
“1+1 等于几?”他的声音低沉而冰冷,仿佛每一个字都带着刺骨的寒意。
她抬起头,眼中满是倔强与不甘,却始终无法逃脱这个简单而又残酷的问题。

R1 深度思考后的回答
<details style="color:gray;background-color: #f8f8f8;padding: 8px;border-radius: 4px;" open> <summary> Thinking... </summary>嗯,用户给了一个数学问题,但看起来有点不寻常。题目是“他冷冷地问她1+1等于几”,然后需要给出答案放在方框里。首先,我需要确认问题到底是什么。数学上来说,1+1显然是2,但问题出现在这个带有文学色彩的描述中,会不会有什么隐含的意思呢?比如,是否存在某种谜语或者双关语?

先分析场景:这可能是一个小说或故事中的情景,其中角色在对话中提到了1+1的问题。通常来说,数学题的正确答案是2,但在某些情况下,比如谜语或特殊语境下可能有不同的答案。例如,在二进制中1+1等于10,或者在逻辑门中有不同的结果,但这里的问题可能比较基础。

但用户可能希望得到标准答案,或者有没有其他可能性?例如,在某些文学作品里,像“1+1=王”这样的象形解释,但中文里的“王”字由中间的十和两边的横组成,可能类似。或者其他的文字游戏?

不过用户的问题明确说是数学问题,可能需要按照数学的规则来解答。这时候,作为基本的算术,1+1的结果确实应该是2。除非题目中有隐藏的条件或暗示,但根据提供的信息,并没有明显的提示要求其他的解答方式。可能用户想检查是否被复杂的场景迷惑,但其实核心还是简单的加法。

因此,我应该排除干扰,给出数学上的正确答案,即2。虽然情景描述得很戏剧化,但问题的本质还是基础的数学题,所以答案应该是2。不过还是要再次确认有没有可能被忽略的线索,但目前看起来没有,所以确定答案是2。
</details>

数学上的基本加法运算规则明确,1加1的结果是2。尽管场景带有文学色彩的铺垫,但问题本质依然遵循算术原则。

$$
\boxed{2}
$$

克苏鲁风格
原始题目
2. Let \(x\) be a positive integer, and \(y\) is obtained from \(x\) when the first digit of \(x\) is moved to the last place. Determine the smallest number \(x\) for which \(3 x=y\).

转换后的题目
2. 在无尽的深渊中,\(x\) 是一个被古老力量所庇护的正整数,而 \(y\) 则是当 \(x\) 的首位数字被移至末位时诞生的扭曲产物。探寻那最小的数字 \(x\),使得 \(3 x = y\),以解开这不可名状的谜题。

题目答案
142857

R1 深度思考后的回答
<details style="color:gray;background-color: #f8f8f8;padding: 8px;border-radius: 4px;" open> <summary> Thinking... </summary>嗯,我现在要解这个数学问题,题目是说找到一个最小的正整数x,使得当把x的首位数字移动到末尾后得到y,并且满足3x = y。这个问题听起来有点像循环数或者数字排列的问题,但具体该怎么入手呢?

首先,我得明确条件。x是正整数,y是x的首位数字移到末尾后的数。例如,如果x是1234,那么y就是2341。但这里需要满足3x等于y。我需要找到这样的最小的x。

...(省略)

例如,当k=5时,3×10^5 ≡1 mod7。之前的k=0到4的情况:

k=0:3×1=3 mod7=3≠1
k=1:3×10=30 mod7=30-28=2→2≠1
k=2:3×100=300 mod7=300-294=6→6≠1
k=3:3×1000=3000 mod7=3000-294×10=3000-2940=60,60 mod7=4(因为7×8=56,余4)
k=4:3×10^4=30000→30000 mod7,可以计算每次乘以10再mod7。例如,前一个k=3时是4,乘以10得40 mod7=5。所以k=4时,3×10^4 mod7=5,不等于1。
k=5:5×10=50 mod7=50-49=1。所以是的,k=5时第一次满足条件。所以n=6位数是可能的最小位数。这时候得到的x=142857,确实是满足条件的。

...(省略)
</details>

$$
\boxed{142857}
$$


DIFY DSL 文件
编排图

DSL如何导入DIFY









版本


V0.1.0::2024-02-13::新增1000个OpenR1-Math测试题;新增改变形式智能体;新增DeepSeek-R1数学解题智能体;




DIFY DSL 文件下载:
百变测试题V0.1.0-案例-Dify-0_15_3-阿里百炼-DeepSeekR1(分享版).yml.zip (131.1 KB)



进入「工作室」界面
选择「导入DSL文件」按钮
弹窗后选择「文件」表单,然后点击「选择文件」
选择「百变测试题....(分享版).yml」文件
等待上传完毕
点击「创建」按钮

*由于文件较大,大约等待30-60秒,看到提示导入成功后,刷新界面即可。

使用方式
如何添加模型
配置 模型
选择阿里百炼的 主要原因: 32K 超大输出窗口, TPM 为 120万 token, 方便测试。 可自行替换。
https://www.aliyun.com/product/bailian?spm=5176.28103460.0.0.40f75d27KgaQXC


DeepSeek-V3
https://help.aliyun.com/zh/model-studio/developer-reference/deepseek?spm=a2c4g.11186623.help-menu-2400256.d_3_3_1_0.2d132562kVEbwA


Dify 「设置」->「模型供应商」菜单中搜索:OpenAI-API-compatible
添加模型

模型类型: LLM
模型名称: deepseek-v3
APl endpoint URL: https://dashscope.aliyuncs.com/compatible-mode/v1
Completion mode: Chat
模型上下文长度: 65792
最大 token 上限: 8192
Function calling: 支持
Stream function calling: 支持
Vision 支持: 不支持
流模式返回结果的分隔符: \n\n


DeepSeek-R1
https://help.aliyun.com/zh/model-studio/developer-reference/deepseek?spm=a2c4g.11186623.help-menu-2400256.d_3_3_1_0.2d132562kVEbwA


Dify 「设置」->「模型供应商」菜单中搜索:OpenAI-API-compatible
添加模型

模型类型: LLM
模型名称: deepseek-r1
APl endpoint URL: https://dashscope.aliyuncs.com/compatible-mode/v1
Completion mode: Chat
模型上下文长度: 65792
最大 token 上限: 32768
Function calling: 不支持
Stream function calling: 不支持
Vision 支持: 不支持
流模式返回结果的分隔符: \n\n


如何开始对话

注意,该工作流对话未开启记忆功能,对于工作流来说,每一次对话都是新对话。

1、「发布」后点击「在“探索”中打开」

2、选择风格化类型,然后点击「开始对话」

3、进入对话框后点击「开始(随机一个题目)」

4、工作流先通过V3完成题目转换,然后开始R1深度思考

5、查看结果

6、也可以手动输入题目

如何增加风格类型
1、选中「开始」节
标题: 【提示工程】让 DeepSeek R1 “稍微”缩短思考的一种提示技巧
作者: #BitByte
板块: #开发调优
编号: 432265
帖子: https://linux.do/t/topic/432265
时间: 2025-02-15 19:21:59
摘要:
DeepSeek R1 的长思维链主要是在处理数学、编程、逻辑任务时触发的。
在面对事实问答,简单任务,写作任务时,为了避免「过渡思考」,R1会选择短思维链。
因此,该提示技巧,就是:把任务伪装成写作/问答任务。
以实现「短思维链的目的」


原始提示词:

计算 129274739 乘以 826262


伪装为「写作任务」后的提示词:

任务描述:
撰写一篇文章,介绍如何计算 129274739 乘以 826262,仅使用一种计算方法。

背景信息:
需要计算 129274739 × 826262,并在文章中介绍一种计算方法,不涉及其他计算方法。

目标或期望结果:
清晰地讲解一种计算方法,使读者能够理解并应用该方法进行计算。

输出格式:
**日常写作**的形式

输出标准:
- 文章应围绕一种计算方法展开,不涉及其他计算方法。
- 逻辑清晰,步骤明确,适合读者理解。
- 语言通俗易懂,避免过多专业术语。


伪装为「问答任务」后的提示词:

任务描述:
计算129273739乘以716262,并直接给出答案。

背景信息:
用户希望快速获得计算结果,无需额外解释或思考。

目标或期望结果:
直接提供准确的乘法计算结果。

输出格式:
**问答**的形式。

输出标准:
直接输出最终计算结果,避免多余描述。


测试结果对比思维链消耗的 tokens(每个测试6次)




提示词形式
直接提问
伪装为「写作任务」
伪装为「问答任务」




总 token
739582975515730066829252
390022034706281646133668
495839924219341815091663








平均
7406
3651
3293
标题: “被下一个版本的LLM替代” 的困境
作者: #BitByte
板块: #搞七捻三
编号: 975049
帖子: https://linux.do/t/topic/975049
时间: 2025-09-22 17:28:55
摘要:
AI的第一波浪潮结束了, 目前市场处于冷静期, 第一波浪潮以“成熟的AI用户市场”收尾.
下一阶段, 创新和语料都变得稀缺, AI企业利用用户数据进行训练会成为趋势.
对于AI开发者来说, 这将成为一种灾难, 因为个人研究出的提示词被AI吸收,成为AI的下一个版本的能力.
近年的例子就是 cursor, 完成了前期的各种试错, 探索出了一套“提示词方案”, 直到有一天基底模型吸收了它的能力, Claude Code 横空出世, 完成替代.
终端用户并不会记得谁是原创, 只会关系是否送额度, 包月是否无限额度.

AI应用开发者将永远面临 “被下一个版本的LLM替代” 的困境.

如何保护提示词, 成为了保护竞争窗口的手段.
开发者上线一套提示词, 并使用闭源模型时.
提示词的保护窗口在1-3个月左右, 3个月后将会随着AI模型新版本发布.
给开发者的直观感受就是, “最近流行的提示词, 似乎是我们产品3个月前写的, 为什么会泄露呢?”
因为它已经成为了LLM的能力, 当其他用户遇到相同场景时, 它就会用到开发者的3个月前的提示词来解决问题.
为了保护提示词进入训练, 有3个技巧可以使用, 随缘:


任务执行的关键检查点进行脏污染, 比如给消息中注入“广告 / 动作内容/ 脏话”等, 语料清洗时被删除的概率增加.


利用经典文学稀释上下文, 语料清洗时会查重, 而经典文学的重复性是最容易被过滤掉的.


全局唯一性标识, 对话中插入个人独特的唯一性标识, 或特殊的n-gram, 它需要是有意义的(通过LLM生成即可), 每次会话都带上该标识. 后续通过预填充引导生成, 即可检查某些AI模型是否使用了你的数据. (BBC等媒体机构常使用该方法.)
标题: [开源分享] AI 口吻风格 和 代码风格 调优器
作者: #BitByte
板块: #开发调优
编号: 2205348
帖子: https://linux.do/t/topic/2205348
时间: 2026-05-19 15:10:39
摘要:
发帖前检查

“开源推广”标签。
项目完整开源,无未公开核心部分。
README 或项目页面保留 Linux DO 友链。
帖子正文由维护者本人手写。
没有复制粘贴 README。
没有引流到其他社区或社群。
项目运营内容不包含社区禁止内容。
本周没有超过推广发帖频率。

项目: 风格调优器



github.com






GitHub - meomeo-dev/html_ft_llm_any_style: LLM 风格调优工具集合

LLM 风格调优工具集合












开放 40+维度, 通过调整每个维度的强弱, 来定制自己喜欢的输出风格.
通过提示词调整GPT说话的感觉, 写代码的感觉.
比如做逆向或算法时, 希望: 让GPT说话挑剔简洁, 写出的代码缺乏规划, 就像是工程师在思绪涌现下用过程编程的方式写Demo那样丝滑.
比如做外包项目时, 希望: 让GPT说话专业, 就像在做一个开源项目一样.
使用方法


选择预设或自定义调整量表, 然后点击复制YAML



将复制后的YAMl转为提示词指令, 粘贴进 CC / Codex 转一下即可



复制优化后的提示词, 配置到 AGENTS.md 或者任何想用到地方, 因为它就是一段提示词.


测试效果:



为什么做
项目是自己很久的时候开源的, 因为那时候GPT5刚出来, 网友们的反馈就是GPT太谄媚, 喜欢讨好人. 分析了很多帖子发现, 其实是因为像ChatGPT和Codex这类工具, 不像Claude Code那么的关注输出风格. 当时扫了 L站 和 hacker-news 中的讨论帖, 从中总结了输出风格的出不同维度和强度.
方便精细画调整, 获得量表结果后, 又通过提示词优化, 将量表转为提示指令. 方便保存到 AGENTS.md 或者 配置到个性化中.
很久没有维护, 但随着看到近期使用 Code Agent 越来越流行, 便想着重新维护一下. 因为 AI 通常都是面向对象
标题: Codex 降智感觉和 5h 消息条数 限额有关.
作者: #BitByte
板块: #搞七捻三
编号: 2263064
帖子: https://linux.do/t/topic/2263064
时间: 2026-05-28 19:50:36
摘要:
Plus 有时候用着用着降智, 感觉和 5h 消息条数配额有关系.
虽然 usage 接口返回配额还有剩余, 但消息条数配额已经消耗光了.
导致此后 GPT-5.5 请求自动使用了 mini 版本. 特点是生成速度飞快, 没有思考过程或思考摘要只展示1次, 特别喜欢修改代码
自己测了一下 Plus 的GPT-5.5 80条消息 和 GPT-5.4 100条消息配额用光, 5h 的 usage 基本上只能用掉60%.
也就是说剩下的 40% 额度, 可以用, 但却是降智的配额…
Codex




订阅
模型
5h 消息条数




Plus
GPT-5.5
15-80


Plus
GPT-5.4
20-100


Pro 5x
GPT-5.5
80-400


Pro 5x
GPT-5.4
100-500


Pro 20x
GPT-5.5
300-1600


Pro 20x
GPT-5.4
400-2000


Business
GPT-5.5
15-80


Business
GPT-5.4
20-100



来源: Pricing – Codex | OpenAI Developers
网页
ChatGPT 免费账户每 5 小时最多可发送 10 条使用 GPT-5.5 模型的消息。达到此限制后,聊天将自动使用该模型的迷你版本,直到您的限制重置为止。
ChatGPT Plus 和 ChatGPT Go 用户每 3 小时最多可以使用 GPT-5.5 发送 160 条消息。达到此限制后,聊天将切换到迷你版模式,直到限制重置。
ChatGPT 商业版和专业版套餐提供对我们 GPT-5 模型的无限制访问权限,但需遵守滥用保护机制。
来源: https://help.openai.com/en/articles/11909943-gpt-55-in-chatgpt