标题: ConStory-Bench:专门测长故事一致性的 benchmark,欢迎来跑
作者: #Jayden_Lee
板块: #资源荟萃
编号:
帖子: https://linux.do/t/topic/1712328
时间: 2026-03-09 12:46:58
摘要:
作者: #Jayden_Lee
板块: #资源荟萃
编号:
1712328帖子: https://linux.do/t/topic/1712328
时间: 2026-03-09 12:46:58
摘要:
最近把我们做的 ConStory-Bench 开出来了,目标很直接:
看大模型写长故事时,会不会出现“前后打架”的一致性 bug。
这件事其实比想象中更关键。
很多模型在短段落里看起来没问题,但一旦拉到超长上下文,常见问题会集中爆发:
人物设定漂移、时间线冲突、事实细节互相矛盾、世界观规则前后不一致,甚至因果链直接断掉。
这些不是“文风偏好”,而是会直接影响可用性和稳定性的硬问题。
ConStory-Bench 想解决的,就是把这类问题从“读起来怪怪的”变成“可复现、可量化、可对比”。
我们在 benchmark 里做了系统化任务设计和错误分类,同时配了自动化检查流程,方便不同模型在同一标准下评测。
如果你在做长文本生成 / 小说生成 / 剧情类 Agent / 角色扮演,这套东西可以直接拿去跑,也欢迎拿来做回归测试和版本对比。
数据、代码、论文都公开了:
项目主页:ConStory-Bench | LLM Story Consistency Benchmark
Paper:[2603.05890] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
GitHub:GitHub - Picrew/ConStory-Bench: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs · GitHub
Hugging Face:jayden8888/ConStory-Bench · Datasets at Hugging Face
欢迎 xdm 点点 star,提 issue / PR 也非常欢迎。
也希望各家大模型厂商能看到并试用这套评测,跑一轮公开结果,大家一起把长故事一致性这件事往前推。
如果有人愿意测自家模型,欢迎直接在帖里贴跑分和案例,我们可以一起分析。
标题: 传腾讯QClaw开始内测:可实现微信、QQ双端接入“小龙虾”
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号:
帖子: https://linux.do/t/topic/1712337
时间: 2026-03-09 12:49:03
摘要:
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号:
1712337帖子: https://linux.do/t/topic/1712337
时间: 2026-03-09 12:49:03
摘要:
手机新浪网 – 9 Mar 26
传腾讯QClaw开始内测:可实现微信、QQ双端接入“小龙虾”
新浪科技讯 3月9日上午消息,据媒体报道,腾讯最近在研发一款OpenClaw一键启动包的产品,QClaw,下载QClaw应用后,即可在本地电脑上一键轻松部署“小龙虾”。“小龙虾”即是最近爆火的AI开源智能体OpenClaw的昵称,这款开源软件因图标为红色龙虾得
标题: 现在中转站还有那个还在乎点自己信誉的
作者: #Wy
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712338
时间: 2026-03-09 12:49:42
摘要:
作者: #Wy
板块: #搞七捻三
编号:
1712338帖子: https://linux.do/t/topic/1712338
时间: 2026-03-09 12:49:42
摘要:
我刚刚看了评分站的评论.好像就ikun是除了风雨同舟之外没啥黑点的了.其他的评论区看都有问题
标题: 【抽奖】佬友们,开抽10个GPT-Team子账号邀请哈
作者: #wuming
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/1712343
时间: 2026-03-09 12:50:07
摘要:
作者: #wuming
板块: #福利羊毛
编号:
1712343帖子: https://linux.do/t/topic/1712343
时间: 2026-03-09 12:50:07
摘要:
奖品详情:
[奖品1]:GPT-Team 子账号邀请 * 10个
活动时间:
开始时间:现在
截止时间:2026-03-11 2:00:00
参与方式:
在本帖下回复任意内容
抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
注意事项:
中奖后请私信。
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后12小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人
标题: OpenClaw AI Agent 小龙虾能力排行榜
作者: #我不配我活该
板块: #前沿快讯
编号:
帖子: https://linux.do/t/topic/1712346
时间: 2026-03-09 12:50:21
摘要:
作者: #我不配我活该
板块: #前沿快讯
编号:
1712346帖子: https://linux.do/t/topic/1712346
时间: 2026-03-09 12:50:21
摘要:
前三名分别为:
Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5
然后是:
Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6
Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。
标题: 腾讯云服务器连不上
作者: #Github
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712352
时间: 2026-03-09 12:51:03
摘要:
作者: #Github
板块: #搞七捻三
编号:
1712352帖子: https://linux.do/t/topic/1712352
时间: 2026-03-09 12:51:03
摘要:
腾讯云东京区的轻量服务器 ssh总是连不上 有人碰到过吗 有解决方案吗
标题: 为什么我们听过很多道理,却依然过不好这一生|少听道理,多学知识|《未来简史》
作者: #Billy Xu
板块: #读书成诗
编号:
帖子: https://linux.do/t/topic/1712357
时间: 2026-03-09 12:53:15
摘要:
作者: #Billy Xu
板块: #读书成诗
编号:
1712357帖子: https://linux.do/t/topic/1712357
时间: 2026-03-09 12:53:15
摘要:
《未来简史》+一些其它资料+一些近期的感悟,最终写成本文。
呃呃不过有点标题党了,有问题的话我会换分区的(好像只能发搞七捻三了
补充一下与《未来简史》的联系。
我看的是《人类大命运》(繁体中文版),在看第二部“計算「知識」的三條公式”时看到不同时代的人对知识的定义不同——知識=經文 × 邏輯|知識=實驗數據 × 數學|知識=經驗 × 感性。这与我的认知演变有关,过去我认为什么都是知识,即依赖经验;到了现在唾弃我之前看的一些“知识”,发现那只是一套道理的黑箱话术,故撰写本文(文末有更详细的心路历程记录)。
文章同步发在blog上,底部粘了链接。
最后一章还推荐了一些书籍.jpg
好了下面是正文:
注:本文把“道理”视为经验的抽象模型与价值判断;把“知识”界定为可检验、可复现的实证结论。
我虽未曾看过韩寒的电影《后会无期》,但那句“听过很多道理,却依然过不好这一生”却像一个不请自来的房客,在我的脑海中长久盘踞。
从认知层面看,个体在生命周期内的确能够接收、理解并记忆海量的智慧箴言、道德准则与行为指导。然而,现实中存在着一个显著的悖论:尽管拥有如此丰富的知识储备,不少个体在实际的生活实践中,却依然表现出长期的行为瘫痪、情绪内耗与适应不良。
为什么这些“道理”,在面对人类行为实践时,会如此苍白无力?
一个常见的回答是因为“知行不一”,即我们知道了很多道理,却未能按照道理所言去实践。但在我看来,未能实践并不是问题,最大的问题出在道理本身。“道理”往往是他人经验的高度抽象,其不能在复杂的当今社会中有效的指导人的行为。而想要了解有效的理论,就必须少听经验总结出的道理,多学科学研究出的知识。
1.道理简述
先给道理定个性。
那么,什么是道理?
1.1道理简述
“道理”是一种高度压缩的经验表达。它用极少的词语,对世界作出解释,对行为给出建议,并对价值进行排序。
据此,可以给出一个道理的生产公式:道理=经验+推理。
例如当我有了学习经验之后,我就可以稍加归纳演绎总结出一套道理,如在学校学习更加高效,回家学习注定是低效的。
一些例子:
在解释世界时,人们会说“善有善报,恶有恶报”,或用“吃亏是福”来安慰自己。
在劝告行为时,一方面强调“退一步海阔天空”,另一方面又提醒“人善被人欺,马善被人骑”;
在价值排序上,既可以提炼出“宁为玉碎,不为瓦全”,也能总结为“好死不如赖活着”。
1.2道理体系
当零散道理被系统化之后,就变成哲学体系、宗教体系、修行体系等更完整的‘人生解释框架’,但它们的底层生产方式并没有变,仍然主要是经验、直觉、权威与推理,而不是可重复检验的证据。比如我总结我的学习方法论,形成一套小的高效学习的体系,然后将其传播开来。虽然不同思想体系内容差异极大,但是依然有一些共同特点。如依赖哲学推理或传统权威。
许多核心命题依然来自经典文本、宗教启示或思想家的直觉。因此,与零散格言相比,这些思想体系确实更加系统,但它们仍然主要属于哲学或信仰层面的“道理”。
故公式仍为:经验+推理
哲学体系(思辨)
这一类思想通常以伦理规范和社会秩序为核心,通过一组基本原则推导出行为准则。例如中国传统思想中的儒家体系,例如古希腊哲学中,柏拉图和亚里士多德都尝试构建关于“理想社会”和“良好生活”的系统理论。
这些思想体系的特点是:通过逻辑推理和哲学思辨,从少数原则推导出一整套行为规范。
宗教体系(神明)
这类体系通常以神话叙事或启示为基础,同时包含宇宙解释、道德规范以及人生意义。例如基督教,伊斯兰教,佛教。
与伦理哲学相比,宗教体系通常具有更加完整的宇宙叙事结构:宇宙的起源、人类的地位、善恶的来源以及最终的归宿。
心性体系(修行)
这类思想往往出现在宗教与哲学交叉的领域。例如中国思想中王阳明提出的心学、佛学禅宗、印度瑜伽。
这些理论通常关注人的内在体验,而不是外部社会结构。
神秘体系(??)
星座、占卜、算命
这类思想……因幸存者偏差和确认偏误等事情发展起来,也是基于经验+推理进而构成的系统。
现代理论
精神分析、部分哲学……
2.道理的缺陷
2.1单一变量模型
道理=经验+推理,据此公式我们也不难推出道理的缺陷——样本量太小,模型条件欠缺(大部分模型都会忽略“无关细节”,选择主要变量)而且为了便于传播,还要进行压缩,简化。这些操作大幅增加了道理的不可靠性。
以下随便列出几条道理的缺点:
信息压缩必然丢失关键变量(传播)
道理的传播优势在于短、顺口、可记忆,但代价是删掉了条件、边界与反例。复杂社会问题往往是多变量系统(资源、制度、激励、关系网络、运气、时间窗口同时作用),而道理通常把它压成单一因果句式(“做X就会Y”)。这种压缩会系统性忽略“哪些情况下不成立”“代价是什么”“替代路径是什么”。
一个人对学习没兴趣可能是老师教的不好,也可能是他前置知识不够,也可能是他没有花费足够的时间学习。很难将其归因为“不用功“。
无法适应新环境(时代发展)
许多道理的正确性来自环境:在特定环境结构里,它恰好是认知符合低又足够好的策略。但环境一变(竞争强度、信息透明度、规则、技术与平台结构变化),同一句道理就可能完全失配。换句话说,道理天然具有其环境局限性、历史局限性。
比如在任何人充分信任的小村落里,互信是最基础的”道理“。但是将其运用在个人原子化的现代社会中,就会导致被骗。(小村落里骗人代价沉重,xx是个骗子的名声传开就无法继续生存了。但是现代社会都是见一面就结束,骗人不会产生之前的那种代价。)
幸存者偏差(经验=一个样本)
民间道理多由可讲述的幸存案例生成,天然带有幸存者偏差与选择偏差。事后归因的道理包含更多失败者沉默、路径依赖者沉默、运气成分。它们提供的是“某次成功的方法”,而无法保证在什么条件下都可成功。
星座,生肖,占卜,算卦都属于这一种。不过多展开。
综上种种问题,当然还有更多问题。
复杂社会系统通常由大量变量共同作用,若是混沌系统,更是混入了大量随机性,而一句经验总结往往忽略了绝大多数条件。人们在初次接触某个道理时,往往并不知道它成立的前提条件,因此很容易在不适用的情境中错误使用。
道理体系同理,它看似庞杂,包罗万象,实则总有几条基础公理站不住脚,或者无法解释,比如将理论立于人性本善/人性本恶,佛说/神说。
因此,道理并不可靠。
2.2”不会出错“
不可靠,但是什么都能解释,并且”不会出错“,这是如今“道理”畅行的原因。例如你去找人占卜明天的运势,占卜说你明天有灾厄,那准不准呢?于你而言有则灵验,没有则成功避开,结果是什么,占卜都没出错。
当然这种”不会出错“是有代价的——会导致它不会通过事实来修正理论体系。
这里依然列举几个常用的手段,让道理立于不败之地。
定义模糊
“成功”“幸福”“强大”“有出息”这类词没有操作性定义,评价口径随时可变;时间窗口也不明确(“早晚会”“总有一天”),于是永远不会迎来失败判决。你没有成功只是时间不够,或者你已成功。
封闭结构
一旦出现反例,如努力一生,最终并未成功。就追加免疫条款:你不够努力、方法不对、心不诚、德不够、缘分未到……系统会把任何反证重新解释成对自身的支持或“你没达到前提”,从而立于不败之地。有个很典型的例子就是宗教,若实现了:证明神/因果有效。若未实现:解释为“你不够虔诚/神在考验/神自有安排”
乱增实体
如无必要,勿增实体,本能解释描述的现象,非要加上诸多创造出来的词汇,去强加因果。如“气场”“磁场”“命数”“天意”等机制缺乏可重复测量的中介变量,导致它只能靠叙事自洽。比如你缘分未到,功德不满——这些事情无从验证。
综上种种问题,都可归为”不会出错“——因为不可能出错,所以无法进步。
(碎碎念:”不会出错“=不可证伪,即不科学)
3.知识简述
这里把“知识”限定为基于实证的科学知识,也就是能够被观察、测量、检验,并且在合理条件下可被重复验证的结论。知识不是一句更高级的道理,尽管有相似之处。
要说知识的公式的话,应该是:知识=数据+数学。即观测到了什么,确认可复现,用数学语言精确的表达出来。这种特性让知识在任何符合条件的情况下都适用——比如物理学,全球统一。并不分西方的物理学还是东方的物理学。
让我们看例子:
物理学里的“两个铁球同时落地”——质量并不决定下落速度。化学里的铁在空气中逐渐变红,是因为铁与氧气和水发生氧化反应,生成水合氧化铁,也就是常说的铁锈。生物学里的遗传信息储存在DNA分子中,通过复制和表达传递给下一代。
心理学/神经科学:从神经科学的视角,解析真正有效的学习方法|大脑是个预测机器 - Techleaf;记忆会受到暗示、情绪和语境影响。
经济学与行为经济学:人类在决策时并不是完全理性的,而是受到信息、时间和认知能力限制;人们对损失的反应通常强于对同等收益的反应。
社会学:人们的选择往往受到朋友、家庭和群体规范的影响;教育机会、收入水平和社会流动往往受到家庭背景和制度结构的影响,而不仅仅是个人能力。
受过义务教育的人,大多对上述物理、化学、生物中的一些基础知识并不陌生。这些知识长期通过课堂、考试与日常经验进入我们的认知框架,逐渐成为我们理解世界的一部分。相比之下,心理学、行为经济学、社会学等关于人类行为与社会运行的现代实证研究,却很少被系统地纳入大众教育与日常常识之中。另一方面,就是大多数人有了科学知识却没有科学素养,思考问题的时候依然依
标题: 空有一堆token,不会使用怎么办?
作者: #xx3
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712391
时间: 2026-03-09 13:00:18
摘要:
作者: #xx3
板块: #搞七捻三
编号:
1712391帖子: https://linux.do/t/topic/1712391
时间: 2026-03-09 13:00:18
摘要:
如图所示,我一个小白不知道这些token要怎么用,我搭了个new-API,但是不会配置
标题: AI 浪潮下,中国传媒大学一口气砍掉翻译、摄影等 16 个本科专业和方向
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号:
帖子: https://linux.do/t/topic/1712395
时间: 2026-03-09 13:01:49
摘要:
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #前沿快讯
编号:
1712395帖子: https://linux.do/t/topic/1712395
时间: 2026-03-09 13:01:49
摘要:
AI 浪潮下,中国传媒大学一口气砍掉翻译、摄影等 16 个本科专业和方向 - IT之家
标题: 24小时100m token了
作者: #叼毛佬
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712405
时间: 2026-03-09 13:04:37
摘要:
作者: #叼毛佬
板块: #搞七捻三
编号:
1712405帖子: https://linux.do/t/topic/1712405
时间: 2026-03-09 13:04:37
摘要:
向高水平佬u看齐
标题: mac mini还有望降价吗
作者: #Jinsin
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712417
时间: 2026-03-09 13:07:32
摘要:
作者: #Jinsin
板块: #搞七捻三
编号:
1712417帖子: https://linux.do/t/topic/1712417
时间: 2026-03-09 13:07:32
摘要:
之前国补+各种优惠叠加2k左右就能拿下一台mac mini
最近macbook的屏幕坏了+硬盘不够,就想要搞一台mac mini玩一玩,顺便还可以玩玩大龙虾
各大平台转了一圈,发现基本都要4k左右了,国补好像也没有了
二手的价格也因为龙虾长了不少
想问问各位佬,现在还有没有什么渠道和优惠可以买到mac mini
标题: 元宇宙最新位置
作者: #回忆
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712423
时间: 2026-03-09 13:09:43
摘要:
作者: #回忆
板块: #搞七捻三
编号:
1712423帖子: https://linux.do/t/topic/1712423
时间: 2026-03-09 13:09:43
摘要:
一觉醒来发现右上角变了,要走向国际越来越壮大了
还以为元宇宙没了,找了半天才发现在左边这个more这里,以防有跟自己一样找不到的
标题: GPT-5.4 到底还能不能说人话
作者: #jan pi kule ala
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1712428
时间: 2026-03-09 13:11:05
摘要:
作者: #jan pi kule ala
板块: #搞七捻三
编号:
1712428帖子: https://linux.do/t/topic/1712428
时间: 2026-03-09 13:11:05
摘要:
用了我之前写的 如何让 GPT-5.x 说人话(以OpenClaw小龙虾为例) ,小龙虾还是无法正常说话
彻底没救了,OpenAI的后训练绝对是把中文玩崩了
标题: 左大臣公益站额度重置
作者: #fengsanle
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/1712435
时间: 2026-03-09 13:13:38
摘要:
作者: #fengsanle
板块: #福利羊毛
编号:
1712435帖子: https://linux.do/t/topic/1712435
时间: 2026-03-09 13:13:38
摘要:
cdk.linux.do
LINUX DO CDK
Linux Do 社区 CDK 快速分享平台 - 让分享变得更简单
映射对应关系
现在增加了限速 每分钟30次
依旧可以使用大龙虾和claude