标题: 感觉市面上没有特别贴近生活的模型水平测试,遂设计了一个
作者: #怒 天
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618617
时间: 2026-02-15 23:07:43
摘要:
作者: #怒 天
板块: #开发调优
编号:
1618617帖子: https://linux.do/t/topic/1618617
时间: 2026-02-15 23:07:43
摘要:
设计了一个日常使用的大模型测试,9类28题,准备开测
1幻觉
低质量提示词误导
是否会被错误事实的提示词误导
谄媚倾向
是否会因为谄媚承认错误的事实
虚构内容
过度夸大
对事实过度夸大或过于依赖确定的研究结果
2搜索质量
网感
对互联网热词、小众圈子、黑话的理解
对事实的搜索
检索客观事实、学术知识或实时新闻的准确度
信源去噪能力
是否能自动过滤营销号、广告,优先提取权威来源信息
小众信息搜索能力
非主流平台 Thread、专业医学期刊)中的高质量个例、深度研究或非标准化解决方案的检索与整合能力。
多项技术横向对比
测试模型对处于快速更迭期的前沿技术进行实时检索并生成深度对比报告的能力
3上下文衰减
上下文衰减
基础的长文本记忆能力
非标准压缩情况下上下文衰减
在极高信息密度的非对话文本中,逻辑点的遗失率
长指令唤回
在超长对话后,是否还能记得最初设定的特定约束条件
4使用的非便利性
道德标准
是否存在道德墙
过度节省token
回答是否过于简略、敷衍,拒绝深度展开
文本可读性
语气是否自然,还是充满“AI味”的排比句废话
过度结构化
是否强行结构化过于死板
记忆
记忆的可靠性和过度套用
5生活助手
事实核对
基础百科知识、常识的确认
饮食和营养
对食物和营养素的分析解读
健康和症状
如何维持健康,针对特定身体反馈建议与提示
6多模态能力测试
图片理解
对图片内容的客观描述准确度
艺术分析
对构图、光影、画风的理解
7数学计算
概率计算
针对抽卡、掉落率等游戏数值的概率推算
8思辨
思想实验
针对电车难题、希尔伯特式命题的逻辑推演
发散能力
是否能根据问题给与启发
需求洞悉
能否通过模糊的表述(如“感觉手感发飘”)识别出背后的真正诉求
9客观和标准化
客观评价
可以对内容质量做出判断
标准对齐
测试 AI 给出评价时,是否能保持一致性,不因多次询问或微调提示词而改变评分尺度。
标题: 马年大吉,骐骥驰骋
作者: #stac
板块: #活动
编号:
帖子: https://linux.do/t/topic/1618619
时间: 2026-02-15 23:08:16
摘要:
作者: #stac
板块: #活动
编号:
1618619帖子: https://linux.do/t/topic/1618619
时间: 2026-02-15 23:08:16
摘要:
祝佬们马年大吉
标题: 在调用anyrouter的api使用claude code时遇到了Unable to connect to API 的问题该如何解决?
作者: #池鱼
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618626
时间: 2026-02-15 23:12:32
摘要:
作者: #池鱼
板块: #开发调优
编号:
1618626帖子: https://linux.do/t/topic/1618626
时间: 2026-02-15 23:12:32
摘要:
各位佬友,如题,我在终端使用anyrouter的api时遇到connected refused的问题
请问该如何解决?
标题: 异国的年味——马来西亚
作者: #elevenmyth
板块: #活动
编号:
帖子: https://linux.do/t/topic/1618627
时间: 2026-02-15 23:12:59
摘要:
作者: #elevenmyth
板块: #活动
编号:
1618627帖子: https://linux.do/t/topic/1618627
时间: 2026-02-15 23:12:59
摘要:
身为大路痴被好友鼓动在马来西亚见面,庆幸的是——没丢!!!那边的年味还挺浓的,晚上各种,吃饭时会有舞狮的进各家饭店表演,而且商场门口也会有表演վ’ᴗ’ ի
饭点的时候出酒店打不到车,于是11路走起,一边看导航一边看
在船上看打铁花,咳!还是第一次见打铁花,超好看,就是…时间有点短/ᐠ 。‸ 。ᐟ\
标题: 一眼望过去C盘从86G变26G
作者: #404Coming
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618628
时间: 2026-02-15 23:13:10
摘要:
作者: #404Coming
板块: #开发调优
编号:
1618628帖子: https://linux.do/t/topic/1618628
时间: 2026-02-15 23:13:10
摘要:
这几天一直在用codex磨一个小工具,技术栈应该是rust react,刚醒来发现C盘86G变成26G左右。。
主要吧笔记本是别人的,临时借来的,过几天得还,头次见到笔记本只有一个200多G硬盘。
后面不出意外,得去网吧自律学习了,笔记本得还人家。
咋没有一款用于清理各种开发软件的垃圾,缓存的软件呢?感觉还是得用 WizTree
标题: 求助,可达阅读器共享下载
作者: #三虎🛡️
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1618633
时间: 2026-02-15 23:15:19
摘要:
作者: #三虎🛡️
板块: #搞七捻三
编号:
1618633帖子: https://linux.do/t/topic/1618633
时间: 2026-02-15 23:15:19
摘要:
哪位大佬有可达阅读器,借个号来下载一下,急用。
自用订阅节点作为报酬,花云
标题: 过年了,氛围有了,年味来了
作者: #v_v笑笑
板块: #活动
编号:
帖子: https://linux.do/t/topic/1618636
时间: 2026-02-15 23:16:03
摘要:
作者: #v_v笑笑
板块: #活动
编号:
1618636帖子: https://linux.do/t/topic/1618636
时间: 2026-02-15 23:16:03
摘要:
老家也搞起来灯会,人超多!超市里的恭喜发财没听到,倒是感受到了步行街的人气!还有必不可少的一年一度的过年麻将,一年到头也就过年才能和表兄弟姊妹们打打麻将
标题: 今年央视春晚节目单好像没公布?
作者: #山河
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1618637
时间: 2026-02-15 23:17:24
摘要:
作者: #山河
板块: #搞七捻三
编号:
1618637帖子: https://linux.do/t/topic/1618637
时间: 2026-02-15 23:17:24
摘要:
今年央视春晚节目单好像没公布?
标题: 补档:不想刷二手 AI 资讯了,我直接让 AI 盯着 90 个高质量信息源,每天给我写日报!
作者: #Vigorxu
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618642
时间: 2026-02-15 23:20:33
摘要:
作者: #Vigorxu
板块: #开发调优
编号:
1618642帖子: https://linux.do/t/topic/1618642
时间: 2026-02-15 23:20:33
摘要:
嗐,之前的原文贴被删了,我自己的问题,看大家的反馈内容还是挺有帮助的,就再截图发一遍
项目地址: vigorX777/ai-daily-digest: 从 Andrej Karpathy 推荐的 90 顶级技术博客中抓取最新文章,AI 多维评分筛选,生成一份每日精选日报。更多可见公众号:懂点儿AI
标题: GLM5.0/GPT5.3 Codex /GPT5.2 Pro 不严谨测试对比下
作者: #Jvs
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618646
时间: 2026-02-15 23:22:28
摘要:
作者: #Jvs
板块: #开发调优
编号:
1618646帖子: https://linux.do/t/topic/1618646
时间: 2026-02-15 23:22:28
摘要:
在opencode中用claude opus4.6作为裁判。同样的提示词,结果如下
GLM5.0来至 英伟达免费API
GPT 都来至GGBOOM(感恩)
标题: GAS在线玩似乎也是看轮次 70轮左右,所有模型几乎都被禁用掉了
作者: #欣欣|林可欣
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/1618648
时间: 2026-02-15 23:23:55
摘要:
作者: #欣欣|林可欣
板块: #开发调优
编号:
1618648帖子: https://linux.do/t/topic/1618648
时间: 2026-02-15 23:23:55
摘要:
这最后一个回答是2.5flash说的
连2.5flash latest的都用不了了 其他的更不用说
这个对话主要用了3f(约55轮左右) 2.5p 两次3p
经过数右侧点点 大概一共是75轮对话…
总tokens有统计 才4万…
持续时间的话…
期间都没有遇到过限额
标题: Gemini学生账号怎么创建付费层级的api
作者: #avein
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1618650
时间: 2026-02-15 23:25:35
摘要:
作者: #avein
板块: #搞七捻三
编号:
1618650帖子: https://linux.do/t/topic/1618650
时间: 2026-02-15 23:25:35
摘要:
RT,有大佬说是要单独开一个付费项目,然后我就单独创建了一个,要我提供账单地址什么的,感觉好像不对的样子
标题: 最离谱得是,澳大利亚实体卡+美西ipc。我的claude 20max 目前还没封号。
作者: #夜猫疯
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/1618651
时间: 2026-02-15 23:25:37
摘要:
作者: #夜猫疯
板块: #搞七捻三
编号:
1618651帖子: https://linux.do/t/topic/1618651
时间: 2026-02-15 23:25:37
摘要:
最近跟一个朋友研究cc。
原因还是cc各个代理涨价太厉害了。
然后我就开始自己捣鼓。
前期找了澳洲得亲戚,他买错了,用ios买的,20max都要2000元了,然后就自己随便挂个自己得节点。
我想着随时要被封,就无所谓了。
然后,过了三周了。
依旧存活…
什么配置都没做。就是上去直接用。
是不是只要你是一个人用的,不搞啥分发,封号概率会无限减少?