标题: [长文手敲] 我们需要什么样的模型——论模型智能的博弈
作者: #白芸汐
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047153
时间: 2026-04-24 17:17:55
摘要:
作者: #白芸汐
板块: #搞七捻三
编号:
2047153帖子: https://linux.do/t/topic/2047153
时间: 2026-04-24 17:17:55
摘要:
内容简介
当人工智能从研究走向产业,我们真正需要的到底是哪一种“模型智能”?在现实世界中,模型能力早已超越单一维度的技术问题,转而在工程可落地性、制度合规性、以及真正智能能力之间形成了一种长期博弈。
我们究竟在追求什么样的“智能”?
很多人第一次接触人工智能模型的时候,都会陷入一种很朴素的判断方式:
谁的分数高,谁就更聪明。(不服来跑个分?跑不过我就去塞钱,还跑不过我就说你们用的不是满血模型)
于是各种排行榜就成了“模型世界的高考成绩单”。MMLU、HumanEval、GSM8K…每隔一段时间就会有一个新的榜单出现,随之而来的模型发布也往往只做一件事:
把上一代模型按在地上摩擦 3~5 个百分点。
如果你只看这些榜单,很容易产生一种错觉,模型正在稳定地、持续地、线性地变聪明。(我会稳稳地增长,然后用参数量接住你)
但只要稍微接触一点真实的工程系统,你很快就会发现一件事情:
模型在排行榜上赢得很漂亮,并不意味着它在现实世界里也能赢。
有些模型在 Benchmark 上像学霸一样稳定输出(毕竟早就把测试题偷偷背进训练集里了,说的就是你llama4),一旦进入真实业务流程,就开始展现出一种非常神奇的超能力——把简单问题复杂化。
比如:
明明只需要返回一个标准 JSON,它却顺便给你写了一篇带起承转合的抒情小作文。(球球了,我这是代码接口,不是新概念作文大赛)
明明只需要调用一个工具,它却给你设计了一个详尽的三年商业战略计划。
明明只需要回答“是”或“不是”,它却开始悲天悯人地分析人类文明的未来走向。
高分低能这一块儿,Llama 4 已经用血淋淋的现实给大家充分展示过了。发布前榜单秒天秒地,发布后落地一塌糊涂,最后连 Yann LeCun 自己在接受采访时都承认,当时团队“稍微修饰(fudged)了一下跑分结果”(真的只是修饰吗 ),直接导致整个 GenAI 团队被小扎边缘化,最后直接干没了。
这时候,一个非常现实的问题就摆在了桌面上:
“聪明”这件事,在现实世界里其实是有很多套并行标准的。
有一种聪明,叫 论文里的聪明。(只要
标题: 以防你不知道,ds官方人员有教程教你AIRP
作者: #wm(猫猫头大帅哥的饲主)
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047154
时间: 2026-04-24 17:18:05
摘要:
作者: #wm(猫猫头大帅哥的饲主)
板块: #搞七捻三
编号:
2047154帖子: https://linux.do/t/topic/2047154
时间: 2026-04-24 17:18:05
摘要:
我说官方也在玩酒馆有没有懂的)
victorchen96/deepseek_v4_rolepaly_instruct: 对于DeepSeek-V4角色扮演的特殊控制指令的说明
标题: 怎么没怎么讨论GLM5.1?
作者: #SC zfdf
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/2047158
时间: 2026-04-24 17:18:12
摘要:
作者: #SC zfdf
板块: #开发调优
编号:
2047158帖子: https://linux.do/t/topic/2047158
时间: 2026-04-24 17:18:12
摘要:
Opus太贵了, 找了个GLM5.1.
感觉能力比opus还强为什么感觉没人用一样
标题: 【开源项目】有效解决反重力retry问题
作者: #aspirin
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/2047162
时间: 2026-04-24 17:18:54
摘要:
作者: #aspirin
板块: #开发调优
编号:
2047162帖子: https://linux.do/t/topic/2047162
时间: 2026-04-24 17:18:54
摘要:
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
我的帖子已经打上 开源推广 标签: 是
我的开源项目完整开源,无未开源部分: 是
我的开源项目已链接认可 LINUX DO 社区: 是
我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
思路是做个本地号池去轮询 也不算反代吧 目前测试看不封号 用的很流畅
首先就是需要很多个号 一个号503 就立马切到另一个号再去请求
对 就是需要先有很多个号去支持轮询 目前现在ultra母号也不算太贵 开个母号 开5个白号(经测试 带半价资格号的retry概率很低)6个号一起去轮询 目前用起来是很流畅的
欢迎各位佬指出问题 我也是个纯小白
Github:GitHub - aspirin0418/aspirin-ant: Antigravity Refresh Token 代理管理 — 多账号 Token 代理与额度监控工具 · GitHub
标题: JD Coding Plan 自取,快来
作者: #rich999
板块: #福利羊毛
编号:
帖子: https://linux.do/t/topic/2047173
时间: 2026-04-24 17:19:31
摘要:
作者: #rich999
板块: #福利羊毛
编号:
2047173帖子: https://linux.do/t/topic/2047173
时间: 2026-04-24 17:19:31
摘要:
新人刚到,发点小福利~
这边 JD Coding Plan 的额度还挺充足,给大家用几天。
如果有帮助的话,欢迎回帖或者点个赞,感谢各位大佬支持
Key base64: cGstYWQ2ZDc0NDktNGJjNS00MDJhLTk3YTYtNjEwZjNiM2M5ODQ5
标题: claude和codex需要落地是家宽吗
作者: #z3r0x01
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047175
时间: 2026-04-24 17:19:40
摘要:
作者: #z3r0x01
板块: #搞七捻三
编号:
2047175帖子: https://linux.do/t/topic/2047175
时间: 2026-04-24 17:19:40
摘要:
佬们,想搭建一个反代自用,想稳定一点,落地的ip有什么特别的要求吗?
标题: L站T袖的装备效果
作者: #木刀野哲
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047177
时间: 2026-04-24 17:20:04
摘要:
作者: #木刀野哲
板块: #搞七捻三
编号:
2047177帖子: https://linux.do/t/topic/2047177
时间: 2026-04-24 17:20:04
摘要:
生图生了一张。
标题: bitwarden(Vaultwarden)普通人能看懂的(大概吧)自建教程!
作者: #我是小鸭头
板块: #文档共建
编号:
帖子: https://linux.do/t/topic/2047184
时间: 2026-04-24 17:20:34
摘要:
作者: #我是小鸭头
板块: #文档共建
编号:
2047184帖子: https://linux.do/t/topic/2047184
时间: 2026-04-24 17:20:34
摘要:
可能有佬发过了?但是发一个简单版的,不需要域名,只要服务器即可(好像还有cf版,但我没看)
准备设备/工具
1,你需要一台可以访问互联网的服务器/搭载Linux操作系统的电脑(系统推荐ubuntu,服务商推荐)
2,你需要一个SSH连接工具
3,你的Linux系统应当在发行商维护范围内,若不在,出现故障请自行寻找解决方法
介绍
Bitwarden是一款广受欢迎的开源密码管理器。它的主要作用是帮助你安全地生成、存储和管理各种网站及应用的密码与敏感信息。
特别安全,天王老子来了你不泄露密码也看不了
自部署可以不用花官方的订阅哦,而且速度更快
安装1Panel
运行
bash -c "$(curl -sSL https://resource.fit2cloud.com/1panel/package/v2/quick_start.sh)"
输入2,回车
输入回车,y
后面也是一直回车
显示这个就安装1panel成功了!打开外部地址访问,输入上面的用户和密码,点击登录
点击应用商店-搜索"Bitwarden"-点击安装
勾选端口外部访问后,点击确认
显示这个就代表成功了
因为官方强制要求SSL证书,所以还得反代,点击:应用商店-OpenResty-安装-确认
等待安装完成后,打开网站-证书-自签证书
点签发证书
输入你的IP地址,点确认
点击网站-网站-创建
按照图片修改后,点击确认
访问:你的IP地址:你刚才填的端口(我填的是3000,所以是IP地址3000)
就成功了!像官方网站一样去操作它吧
插件/客户端也只需要更改一下地址(自定义地址)到你自建的就可以了
标题: 求 aws claude 直连资源
作者: #linyous
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047186
时间: 2026-04-24 17:20:57
摘要:
作者: #linyous
板块: #搞七捻三
编号:
2047186帖子: https://linux.do/t/topic/2047186
时间: 2026-04-24 17:20:57
摘要:
4.6 - 4.7 sonnet 和 opus 量大稳定,合作的私聊联系
标题: 大佬们 怎么给项目里面的一个Agent 调用呢
作者: #派大星
板块: #搞七捻三
编号:
帖子: https://linux.do/t/topic/2047189
时间: 2026-04-24 17:21:19
摘要:
作者: #派大星
板块: #搞七捻三
编号:
2047189帖子: https://linux.do/t/topic/2047189
时间: 2026-04-24 17:21:19
摘要:
大佬们 比如我现在一个java项目 我想要加一个图片处理的agent 调接口的时候 让agent去处理这个图片 生成对应的数据 然后后端再去处理这个数据 这样可以吗
有啥好用的工具 或者 自己搞个Agent呢
标题: 日本手机号可以组合英国信用卡订阅Claude/ChatGPT么
作者: #格拉维提
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/2047198
时间: 2026-04-24 17:23:14
摘要:
作者: #格拉维提
板块: #开发调优
编号:
2047198帖子: https://linux.do/t/topic/2047198
时间: 2026-04-24 17:23:14
摘要:
目前手上有一个090的日本SIM。朋友留英归来,手上有英国信用卡。想着两个人或者再拉几个朋友来拼车开ChatGPT或者Claude之类。
标题: 今天发现了Vibe coding的时候一个坑点!!!!!!!!
作者: #dodo220199
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/2047200
时间: 2026-04-24 17:23:26
摘要:
作者: #dodo220199
板块: #开发调优
编号:
2047200帖子: https://linux.do/t/topic/2047200
时间: 2026-04-24 17:23:26
摘要:
Codex有聊天缓存,如果自己擅自更改代码而不是使用Codex更改的话,它会按照自己之前的代码版本,进行代码恢复!!!这个问题在改bug的时候尤为致命,想想自己花了一下午时间把逻辑修好了,晚上用codex没有注意,接着改需求,然后发现它改完了之后,bug又恢复了!!!!这种情况该有多崩溃啊!!!
解决办法的话也比较简单
你可以提前给提示词:“你先读取当前项目代码,然后基于最新代码进行需求开发”。
或者你直接把这个规则约束丢进AGENTS.md里,然后开发之前让它读一下,接下来就不会有问题了,昨天碰到这个问题,直接崩溃改bug改到凌晨3点
标题: 佬们,求个Hermes基础配置教程
作者: #MStar
板块: #开发调优
编号:
帖子: https://linux.do/t/topic/2047209
时间: 2026-04-24 17:24:23
摘要:
作者: #MStar
板块: #开发调优
编号:
2047209帖子: https://linux.do/t/topic/2047209
时间: 2026-04-24 17:24:23
摘要:
佬们,求个Hermes基础配置教程,没用过OpenClaw,mac端下完之后一头雾水