LinuxDo 新帖推送
185 subscribers
253K photos
315K links
Download Telegram
标题: MLS-Bench
作者: #🐟
板块: #资源荟萃
编号: 2164288
帖子: https://linux.do/t/topic/2164288
时间: 2026-05-12 22:58:35
摘要:
arXiv.org





MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building...

Modern AI progress has been driven by ML methods that are generalizable across settings and scalable to larger regimes. As large language models demonstrate advanced capabilities in reasoning, coding, and engineering tasks, it is increasingly...













[!abstract]+
现代人工智能的进步是由可跨环境通用并可扩展到更大体系的人工智能方法推动的。随着大型语言模型在推理、编码和工程任务中展现出先进的能力,了解它们是否能够发现这些方法而不仅仅是应用现有方法变得越来越重要。我们介绍了 MLS-Bench,这是一个用于评估人工智能系统是否能够发明可推广和可扩展的 ML 方法的基准。MLS-Bench 包含横跨 12 个领域的 140 项任务,每项任务都要求代理改进 ML 系统或算法的一个目标组件,并证明这种改进可在受控环境和规模中推广。我们发现,当前的代理仍远未可靠地超越人类设计的方法,而且工程式的调整对它们来说比真正的方法发明更容易。我们进一步研究了测试时间缩放、自适应计算分配和上下文提供对代理发现性能的影响,并对其行为进行了案例研究。我们的分析表明,瓶颈不仅在于提出新方法,还在于规划、验证和扩展新方法所需的科学洞察力。仅靠更多的搜索、计算或上下文并不能消除这一瓶颈。我们建立并维护了一个社区平台,用于累积和比较迭代,并在此 https://mls-bench.com/ 上发布数据和代码。
标题: 绷不住了...最近机场不稳还卡,我以为就这样忍忍,然后我的X和google都被风控了
作者: #relax
板块: #搞七捻三
编号: 2164312
帖子: https://linux.do/t/topic/2164312
时间: 2026-05-12 23:04:03
摘要:
我不敢登录其他号了,有一种登录一个风控一个的感觉,我还以为机场不稳就不稳,最多也就延迟和卡
标题: 薅了Grok 3个月试用的兄弟们你们能取消订阅吗
作者: #boomlookoom
板块: #搞七捻三
编号: 2164321
帖子: https://linux.do/t/topic/2164321
时间: 2026-05-12 23:05:14
摘要:
特喵了绑卡后想取消都取消不了,天天催收,世界真是个巨大的草台班子 发邮件也不回的。兄弟你们都是怎么取消的
标题: 各位佬,有没有适合企业的知识库推荐啊
作者: #coinback
板块: #开发调优
编号: 2164327
帖子: https://linux.do/t/topic/2164327
时间: 2026-05-12 23:06:17
摘要:
闭源或者开源的都行,领导让我们研究腾讯的ima,不知道还有其他好用的知识库吗
标题: 当话题有新回复时,当前界面上的种子用户图标会消失
作者: #欣欣|林可欣
板块: #运营反馈
编号: 2164350
帖子: https://linux.do/t/topic/2164350
时间: 2026-05-12 23:11:28
摘要:
本来应该是这样的:

当底下有新人回复:

整个页面会浅刷新一下 然后所有相关图标都没了
标题: cyber这个东西让gpt的体验变差了
作者: #ypcbj
板块: #搞七捻三
编号: 2164356
帖子: https://linux.do/t/topic/2164356
时间: 2026-05-12 23:12:58
摘要:
自从gpt启动cyber后,我都不敢随便用gpt了,动不动就弹cyber。我跟别人共享的cpa。我都担心把号搞封禁了。只能用deepseek才能爽用。
标题: opencode和codex哪个好用?
作者: #那个商同学
板块: #开发调优
编号: 2164364
帖子: https://linux.do/t/topic/2164364
时间: 2026-05-12 23:14:25
摘要:
佬友们,已有GPT订阅,在OpenCode中和Codex中哪个使用效果更好呢
标题: DeepLX API流量分布排名
作者: #𝓕-𝓓𝓻𝓸𝓲𝓭
板块: #搞七捻三
编号: 2164377
帖子: https://linux.do/t/topic/2164377
时间: 2026-05-12 23:17:39
摘要:
https://linux.do/t/topic/2144293
标题: 如果你遇到快手给你发通知说「看视频能赚1万金币」,请不要怀疑,这是真的
作者: #欣欣|林可欣
板块: #搞七捻三
编号: 2164387
帖子: https://linux.do/t/topic/2164387
时间: 2026-05-12 23:20:54
摘要:
从没信过,今天闲的也是闲的点了一下,结果看了个30秒的广告,界面闪了一下。看到还是82个金币(也不知道哪来的),我就以为又是骗我的(最高可得1万金币这一块),结果点进金币界面一看
到账了
因为经常断签,赔进去的金币比得到的还多,所以不再签到,领宝箱的更有可能触发~
标题: 求助佬们,有必要某鱼买个github学生包不
作者: #mrguzi
板块: #搞七捻三
编号: 2164394
帖子: https://linux.do/t/topic/2164394
时间: 2026-05-12 23:22:12
摘要:
听说现在申请收缩了,想白嫖点vps啥的,有的搞不
标题: 跪求4851或者4589过Kiro pro教程
作者: #inian
板块: #福利羊毛
编号: 2164408
帖子: https://linux.do/t/topic/2164408
时间: 2026-05-12 23:23:53
摘要:
求美4859或者澳4851百分百过pro,详细教程,过了一天了,成功很少。跪求大佬!
标题: L站邀请码,需要的看正文,不需要的可以忽略帖子哈
作者: #ricerug
板块: #搞七捻三
编号: 2164458
帖子: https://linux.do/t/topic/2164458
时间: 2026-05-12 23:29:04
摘要:
站内经常看到求码的,送给有需要的佬。
查看最新的回复,在最新留言下面第一个回复的给一个。
贴子还在就一天一个。
标题: 历史两个多月,终于把我理想中的远程 vibe 工具打磨差不多了
作者: #dechen
板块: #开发调优
编号: 2164459
帖子: https://linux.do/t/topic/2164459
时间: 2026-05-12 23:29:12
摘要:
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

我的帖子已经打上 开源推广 标签: 是
我的开源项目完整开源,无未开源部分: 是
我的开源项目已链接认可 LINUX DO 社区: 是
我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
以上选择我承诺是永久有效的,接受社区和佬友监督: 是

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出




github.com






GitHub - a9gent/mindfs: Access your personal AI agents and workstation...

Access your personal AI agents and workstation data anywhere, anytime through MindFS.












我的刚需

必须可以远程随时随地vibe
主流agent都要支持
agent电脑上的文件访问
远程时能随时拉起历史session继续
必须自托管,没有relay我用ip:port一样可以访问
能远程添加本地/github/空白项目/worktree
app锁屏通知提醒任务完成

缘由
去年vibe停不下来,试过各种远程vibe的姿势,都很让人抓狂,包括 happy 这种。
年初只有一个模糊的想法,主要诉求就上面几点,改了很多版,才逐渐把交互稳定下来。
这个月搞了个内测群,收了一些反馈,问题也基本收敛。
得意的几点设计

输入框蓝点左滑新建 session
统一上下文,一个 session 中随时切换 agent,特别适合互相 review 的。
文件和会话双向关联:文件被那些 session 修改,session 修改了那些文件。
独立relay:定制的 relay服务器,作为远程vibe 的可选项。
抽屉会话,随时弹出/收起,这点在文件和 session 之间切换时特别方便。

界面预览






核心场
标题: 投奔到了deepseek...
作者: #aixiaoji_dev
板块: #搞七捻三
编号: 2164491
帖子: https://linux.do/t/topic/2164491
时间: 2026-05-12 23:32:03
摘要:
现在GPT的订阅被封的死死的、日抛商也基本上没货了、Trae国际版Outlook邮箱收不到验证码,个人域名的邮箱已经炸了、TraeCN又加上了每日限制(“今天先到这里也不错。好好休息下,明天再继续吧~”)、现在彻底投奔到了DeepSeek的API,Flash版本足以应对我的日常,个人感觉还行,虽然API随用随付没订阅,但总比没有好
标题: 反代Claude或Gpt是否稳定
作者: #Tianyi
板块: #开发调优
编号: 2164524
帖子: https://linux.do/t/topic/2164524
时间: 2026-05-12 23:39:16
摘要:
如题咨询下。由于公司不给用代理工具, 所以好像唯一能解的方案是不是只有走反代。 cpa 这些都装好了,但是看着说claude 反代露头就秒,也有点玄学, 咨询下是否还有其他路子