LinuxDo 新帖推送

标题: ConStory-Bench：专门测长故事一致性的 benchmark，欢迎来跑
作者: #Jayden_Lee
板块: #资源荟萃
编号: 1712328
帖子: https://linux.do/t/topic/1712328
时间: 2026-03-09 12:46:58
摘要:

最近把我们做的 ConStory-Bench 开出来了，目标很直接：
看大模型写长故事时，会不会出现“前后打架”的一致性 bug。
这件事其实比想象中更关键。
很多模型在短段落里看起来没问题，但一旦拉到超长上下文，常见问题会集中爆发：
人物设定漂移、时间线冲突、事实细节互相矛盾、世界观规则前后不一致，甚至因果链直接断掉。
这些不是“文风偏好”，而是会直接影响可用性和稳定性的硬问题。
ConStory-Bench 想解决的，就是把这类问题从“读起来怪怪的”变成“可复现、可量化、可对比”。
我们在 benchmark 里做了系统化任务设计和错误分类，同时配了自动化检查流程，方便不同模型在同一标准下评测。
如果你在做长文本生成 / 小说生成 / 剧情类 Agent / 角色扮演，这套东西可以直接拿去跑，也欢迎拿来做回归测试和版本对比。
数据、代码、论文都公开了：

项目主页：ConStory-Bench | LLM Story Consistency Benchmark
Paper：[2603.05890] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
GitHub：GitHub - Picrew/ConStory-Bench: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs · GitHub
Hugging Face：jayden8888/ConStory-Bench · Datasets at Hugging Face

欢迎 xdm 点点 star，提 issue / PR 也非常欢迎。
也希望各家大模型厂商能看到并试用这套评测，跑一轮公开结果，大家一起把长故事一致性这件事往前推。
如果有人愿意测自家模型，欢迎直接在帖里贴跑分和案例，我们可以一起分析。

1 view04:49

LinuxDo 新帖推送

标题: 传腾讯QClaw开始内测：可实现微信、QQ双端接入“小龙虾”
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号: 1712337
帖子: https://linux.do/t/topic/1712337
时间: 2026-03-09 12:49:03
摘要:

手机新浪网 – 9 Mar 26
  

  
    

传腾讯QClaw开始内测：可实现微信、QQ双端接入“小龙虾”

  新浪科技讯 3月9日上午消息，据媒体报道，腾讯最近在研发一款OpenClaw一键启动包的产品，QClaw，下载QClaw应用后，即可在本地电脑上一键轻松部署“小龙虾”。“小龙虾”即是最近爆火的AI开源智能体OpenClaw的昵称，这款开源软件因图标为红色龙虾得

1 view04:52

LinuxDo 新帖推送

标题: 现在中转站还有那个还在乎点自己信誉的
作者: #Wy
板块: #搞七捻三
编号: 1712338
帖子: https://linux.do/t/topic/1712338
时间: 2026-03-09 12:49:42
摘要:

我刚刚看了评分站的评论.好像就ikun是除了风雨同舟之外没啥黑点的了.其他的评论区看都有问题

1 view04:52

LinuxDo 新帖推送

标题: 【抽奖】佬友们，开抽10个GPT-Team子账号邀请哈
作者: #wuming
板块: #福利羊毛
编号: 1712343
帖子: https://linux.do/t/topic/1712343
时间: 2026-03-09 12:50:07
摘要:

奖品详情：
[奖品1]：GPT-Team 子账号邀请 * 10个
 活动时间：
开始时间:现在
截止时间：2026-03-11 2:00:00
 参与方式：
在本帖下回复任意内容
 抽奖规则：
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
 注意事项：
中奖后请私信。
本活动将在活动截止时间后关闭回帖，以确保公正性。
中奖者将在活动结束后12小时内在本帖公布，并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与，祝您好运！如有任何疑问，欢迎随时联系抽奖发起人

1 view04:52

LinuxDo 新帖推送

标题: OpenClaw AI Agent 小龙虾能力排行榜
作者: #我不配我活该
板块: #前沿快讯
编号: 1712346
帖子: https://linux.do/t/topic/1712346
时间: 2026-03-09 12:50:21
摘要:

前三名分别为：
Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5
然后是：
Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6
Claude 家族三个模型都在 90% 以上，GPT-5.2 反而只有 65.6% 排名靠后，DeepSeek V3.2 在 82% 左右。

1 view04:52

LinuxDo 新帖推送

标题: 腾讯云服务器连不上
作者: #Github
板块: #搞七捻三
编号: 1712352
帖子: https://linux.do/t/topic/1712352
时间: 2026-03-09 12:51:03
摘要:

腾讯云东京区的轻量服务器 ssh总是连不上 有人碰到过吗 有解决方案吗

1 view04:52

LinuxDo 新帖推送

标题: 为什么我们听过很多道理，却依然过不好这一生|少听道理，多学知识|《未来简史》
作者: #Billy Xu
板块: #读书成诗
编号: 1712357
帖子: https://linux.do/t/topic/1712357
时间: 2026-03-09 12:53:15
摘要:

《未来简史》+一些其它资料+一些近期的感悟，最终写成本文。
呃呃不过有点标题党了，有问题的话我会换分区的（好像只能发搞七捻三了
补充一下与《未来简史》的联系。
我看的是《人类大命运》（繁体中文版），在看第二部“計算「知識」的三條公式”时看到不同时代的人对知识的定义不同——知識＝經文 × 邏輯|知識＝實驗數據 × 數學|知識＝經驗 × 感性。这与我的认知演变有关，过去我认为什么都是知识，即依赖经验；到了现在唾弃我之前看的一些“知识”，发现那只是一套道理的黑箱话术，故撰写本文（文末有更详细的心路历程记录）。
文章同步发在blog上，底部粘了链接。
最后一章还推荐了一些书籍.jpg
好了下面是正文：

注：本文把“道理”视为经验的抽象模型与价值判断；把“知识”界定为可检验、可复现的实证结论。

我虽未曾看过韩寒的电影《后会无期》，但那句“听过很多道理，却依然过不好这一生”却像一个不请自来的房客，在我的脑海中长久盘踞。
从认知层面看，个体在生命周期内的确能够接收、理解并记忆海量的智慧箴言、道德准则与行为指导。然而，现实中存在着一个显著的悖论：尽管拥有如此丰富的知识储备，不少个体在实际的生活实践中，却依然表现出长期的行为瘫痪、情绪内耗与适应不良。
为什么这些“道理”，在面对人类行为实践时，会如此苍白无力？
一个常见的回答是因为“知行不一”，即我们知道了很多道理，却未能按照道理所言去实践。但在我看来，未能实践并不是问题，最大的问题出在道理本身。“道理”往往是他人经验的高度抽象，其不能在复杂的当今社会中有效的指导人的行为。而想要了解有效的理论，就必须少听经验总结出的道理，多学科学研究出的知识。
1.道理简述

先给道理定个性。

那么，什么是道理？
1.1道理简述
“道理”是一种高度压缩的经验表达。它用极少的词语，对世界作出解释，对行为给出建议，并对价值进行排序。
据此，可以给出一个道理的生产公式：道理=经验+推理。
例如当我有了学习经验之后，我就可以稍加归纳演绎总结出一套道理，如在学校学习更加高效，回家学习注定是低效的。
一些例子：

在解释世界时，人们会说“善有善报，恶有恶报”，或用“吃亏是福”来安慰自己。
在劝告行为时，一方面强调“退一步海阔天空”，另一方面又提醒“人善被人欺，马善被人骑”；
在价值排序上，既可以提炼出“宁为玉碎，不为瓦全”，也能总结为“好死不如赖活着”。

1.2道理体系
当零散道理被系统化之后，就变成哲学体系、宗教体系、修行体系等更完整的‘人生解释框架’，但它们的底层生产方式并没有变，仍然主要是经验、直觉、权威与推理，而不是可重复检验的证据。比如我总结我的学习方法论，形成一套小的高效学习的体系，然后将其传播开来。虽然不同思想体系内容差异极大，但是依然有一些共同特点。如依赖哲学推理或传统权威。
许多核心命题依然来自经典文本、宗教启示或思想家的直觉。因此，与零散格言相比，这些思想体系确实更加系统，但它们仍然主要属于哲学或信仰层面的“道理”。
故公式仍为：经验+推理


哲学体系（思辨）
这一类思想通常以伦理规范和社会秩序为核心，通过一组基本原则推导出行为准则。例如中国传统思想中的儒家体系，例如古希腊哲学中，柏拉图和亚里士多德都尝试构建关于“理想社会”和“良好生活”的系统理论。
这些思想体系的特点是：通过逻辑推理和哲学思辨，从少数原则推导出一整套行为规范。


宗教体系（神明）
这类体系通常以神话叙事或启示为基础，同时包含宇宙解释、道德规范以及人生意义。例如基督教，伊斯兰教，佛教。
与伦理哲学相比，宗教体系通常具有更加完整的宇宙叙事结构：宇宙的起源、人类的地位、善恶的来源以及最终的归宿。


心性体系（修行）
这类思想往往出现在宗教与哲学交叉的领域。例如中国思想中王阳明提出的心学、佛学禅宗、印度瑜伽。
这些理论通常关注人的内在体验，而不是外部社会结构。


神秘体系（？？）
星座、占卜、算命
这类思想……因幸存者偏差和确认偏误等事情发展起来，也是基于经验+推理进而构成的系统。


现代理论
精神分析、部分哲学……


2.道理的缺陷
2.1单一变量模型
道理=经验+推理，据此公式我们也不难推出道理的缺陷——样本量太小，模型条件欠缺（大部分模型都会忽略“无关细节”，选择主要变量）而且为了便于传播，还要进行压缩，简化。这些操作大幅增加了道理的不可靠性。
以下随便列出几条道理的缺点：


信息压缩必然丢失关键变量（传播）
道理的传播优势在于短、顺口、可记忆，但代价是删掉了条件、边界与反例。复杂社会问题往往是多变量系统（资源、制度、激励、关系网络、运气、时间窗口同时作用），而道理通常把它压成单一因果句式（“做X就会Y”）。这种压缩会系统性忽略“哪些情况下不成立”“代价是什么”“替代路径是什么”。
一个人对学习没兴趣可能是老师教的不好，也可能是他前置知识不够，也可能是他没有花费足够的时间学习。很难将其归因为“不用功“。


无法适应新环境（时代发展）
许多道理的正确性来自环境：在特定环境结构里，它恰好是认知符合低又足够好的策略。但环境一变（竞争强度、信息透明度、规则、技术与平台结构变化），同一句道理就可能完全失配。换句话说，道理天然具有其环境局限性、历史局限性。
比如在任何人充分信任的小村落里，互信是最基础的”道理“。但是将其运用在个人原子化的现代社会中，就会导致被骗。（小村落里骗人代价沉重，xx是个骗子的名声传开就无法继续生存了。但是现代社会都是见一面就结束，骗人不会产生之前的那种代价。）


幸存者偏差（经验=一个样本）
民间道理多由可讲述的幸存案例生成，天然带有幸存者偏差与选择偏差。事后归因的道理包含更多失败者沉默、路径依赖者沉默、运气成分。它们提供的是“某次成功的方法”，而无法保证在什么条件下都可成功。
星座，生肖，占卜，算卦都属于这一种。不过多展开。


综上种种问题，当然还有更多问题。
复杂社会系统通常由大量变量共同作用，若是混沌系统，更是混入了大量随机性，而一句经验总结往往忽略了绝大多数条件。人们在初次接触某个道理时，往往并不知道它成立的前提条件，因此很容易在不适用的情境中错误使用。
道理体系同理，它看似庞杂，包罗万象，实则总有几条基础公理站不住脚，或者无法解释，比如将理论立于人性本善/人性本恶，佛说/神说。
因此，道理并不可靠。
2.2”不会出错“
不可靠，但是什么都能解释，并且”不会出错“，这是如今“道理”畅行的原因。例如你去找人占卜明天的运势，占卜说你明天有灾厄，那准不准呢？于你而言有则灵验，没有则成功避开，结果是什么，占卜都没出错。
当然这种”不会出错“是有代价的——会导致它不会通过事实来修正理论体系。
这里依然列举几个常用的手段，让道理立于不败之地。


定义模糊
“成功”“幸福”“强大”“有出息”这类词没有操作性定义，评价口径随时可变；时间窗口也不明确（“早晚会”“总有一天”），于是永远不会迎来失败判决。你没有成功只是时间不够，或者你已成功。


封闭结构
一旦出现反例，如努力一生，最终并未成功。就追加免疫条款：你不够努力、方法不对、心不诚、德不够、缘分未到……系统会把任何反证重新解释成对自身的支持或“你没达到前提”，从而立于不败之地。有个很典型的例子就是宗教，若实现了：证明神/因果有效。若未实现：解释为“你不够虔诚/神在考验/神自有安排”


乱增实体
如无必要，勿增实体，本能解释描述的现象，非要加上诸多创造出来的词汇，去强加因果。如“气场”“磁场”“命数”“天意”等机制缺乏可重复测量的中介变量，导致它只能靠叙事自洽。比如你缘分未到，功德不满——这些事情无从验证。


综上种种问题，都可归为”不会出错“——因为不可能出错，所以无法进步。
（碎碎念：”不会出错“=不可证伪，即不科学）
3.知识简述
这里把“知识”限定为基于实证的科学知识，也就是能够被观察、测量、检验，并且在合理条件下可被重复验证的结论。知识不是一句更高级的道理，尽管有相似之处。
要说知识的公式的话，应该是：知识=数据+数学。即观测到了什么，确认可复现，用数学语言精确的表达出来。这种特性让知识在任何符合条件的情况下都适用——比如物理学，全球统一。并不分西方的物理学还是东方的物理学。
让我们看例子：
物理学里的“两个铁球同时落地”——质量并不决定下落速度。化学里的铁在空气中逐渐变红，是因为铁与氧气和水发生氧化反应，生成水合氧化铁，也就是常说的铁锈。生物学里的遗传信息储存在DNA分子中，通过复制和表达传递给下一代。
心理学/神经科学：从神经科学的视角，解析真正有效的学习方法|大脑是个预测机器 - Techleaf；记忆会受到暗示、情绪和语境影响。
经济学与行为经济学：人类在决策时并不是完全理性的，而是受到信息、时间和认知能力限制；人们对损失的反应通常强于对同等收益的反应。
社会学：人们的选择往往受到朋友、家庭和群体规范的影响；教育机会、收入水平和社会流动往往受到家庭背景和制度结构的影响，而不仅仅是个人能力。
受过义务教育的人，大多对上述物理、化学、生物中的一些基础知识并不陌生。这些知识长期通过课堂、考试与日常经验进入我们的认知框架，逐渐成为我们理解世界的一部分。相比之下，心理学、行为经济学、社会学等关于人类行为与社会运行的现代实证研究，却很少被系统地纳入大众教育与日常常识之中。另一方面，就是大多数人有了科学知识却没有科学素养，思考问题的时候依然依

1 view04:54

LinuxDo 新帖推送

标题: 空有一堆token，不会使用怎么办？
作者: #xx3
板块: #搞七捻三
编号: 1712391
帖子: https://linux.do/t/topic/1712391
时间: 2026-03-09 13:00:18
摘要:

如图所示，我一个小白不知道这些token要怎么用，我搭了个new-API，但是不会配置

2 views05:02

LinuxDo 新帖推送

标题: AI 浪潮下，中国传媒大学一口气砍掉翻译、摄影等 16 个本科专业和方向
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号: 1712395
帖子: https://linux.do/t/topic/1712395
时间: 2026-03-09 13:01:49
摘要:

AI 浪潮下，中国传媒大学一口气砍掉翻译、摄影等 16 个本科专业和方向 - IT之家

2 views05:02

LinuxDo 新帖推送

标题: 24小时100m token了
作者: #叼毛佬
板块: #搞七捻三
编号: 1712405
帖子: https://linux.do/t/topic/1712405
时间: 2026-03-09 13:04:37
摘要:

向高水平佬u看齐

2 views05:08

LinuxDo 新帖推送

标题: mac mini还有望降价吗
作者: #Jinsin
板块: #搞七捻三
编号: 1712417
帖子: https://linux.do/t/topic/1712417
时间: 2026-03-09 13:07:32
摘要:

之前国补+各种优惠叠加2k左右就能拿下一台mac mini
最近macbook的屏幕坏了+硬盘不够，就想要搞一台mac mini玩一玩，顺便还可以玩玩大龙虾
各大平台转了一圈，发现基本都要4k左右了，国补好像也没有了
二手的价格也因为龙虾长了不少
想问问各位佬，现在还有没有什么渠道和优惠可以买到mac mini

2 views05:08

LinuxDo 新帖推送

标题: 元宇宙最新位置
作者: #回忆
板块: #搞七捻三
编号: 1712423
帖子: https://linux.do/t/topic/1712423
时间: 2026-03-09 13:09:43
摘要:

一觉醒来发现右上角变了，要走向国际越来越壮大了 

还以为元宇宙没了，找了半天才发现在左边这个more这里，以防有跟自己一样找不到的

1 view05:10

LinuxDo 新帖推送

标题: GPT-5.4 到底还能不能说人话
作者: #jan pi kule ala
板块: #搞七捻三
编号: 1712428
帖子: https://linux.do/t/topic/1712428
时间: 2026-03-09 13:11:05
摘要:

用了我之前写的 如何让 GPT-5.x 说人话（以OpenClaw小龙虾为例） ，小龙虾还是无法正常说话 
彻底没救了，OpenAI的后训练绝对是把中文玩崩了

1 view05:13

LinuxDo 新帖推送

标题: 左大臣公益站额度重置
作者: #fengsanle
板块: #福利羊毛
编号: 1712435
帖子: https://linux.do/t/topic/1712435
时间: 2026-03-09 13:13:38
摘要:

cdk.linux.do
  

  
    

LINUX DO CDK

  Linux Do 社区 CDK 快速分享平台 - 让分享变得更简单


  

  
    
    
  

  


映射对应关系
现在增加了限速 每分钟30次
依旧可以使用大龙虾和claude

1 view05:15

About

Blog

Apps

Platform