LinuxDo 新帖推送
185 subscribers
253K photos
316K links
Download Telegram
标题: 冬天太干燥了,uu推荐什么加湿器?
作者: #Y
板块: #搞七捻三
编号: 1629255
帖子: https://linux.do/t/topic/1629255
时间: 2026-02-20 09:57:59
摘要:
欢迎佬友们推荐!
而且我妈稍有点鼻炎,所以产品质量是我们最优先考虑的
看花眼了,都
标题: 牛首山庆新春节目表演
作者: #ovdoes
板块: #活动
编号: 1629257
帖子: https://linux.do/t/topic/1629257
时间: 2026-02-20 09:58:35
摘要:
但是人好多。。。
标题: 今日笑话:64G的DDR5内存条比AR15贵
作者: #Debris
板块: #搞七捻三
编号: 1629260
帖子: https://linux.do/t/topic/1629260
时间: 2026-02-20 10:00:03
摘要:
评论区超级有意思

https://www.reddit.com/r/mildlyinfuriating/comments/1r9eykc/its_cheaper_to_buy_an_ar15_rifle_than_64gb_of/
标题: EVMbench:通过评估人工智能代理检测、修补和利用区块链环境中漏洞的能力,使智能合约更加安全。
作者: #stevessr
板块: #资源荟萃
编号: 1629261
帖子: https://linux.do/t/topic/1629261
时间: 2026-02-20 10:00:10
摘要:
https://openai.com/index/introducing-evmbench/

[!info]+
智能合约通常能保障价值超过1000亿美元的开源加密资产的安全。随着人工智能代理在代码读写和执行方面的能力不断提升,在具有经济意义的环境中评估其能力变得日益重要,同时鼓励将人工智能系统用于防御性用途,例如审计和加强已部署的合约。
我们与 Paradigm 共同推出 EVMbench,这是一个用于评估 AI 代理检测、修复和利用高危智能合约漏洞能力的基准测试工具。EVMbench 使用了来自 40 项审计的 120 个精选漏洞,其中大部分漏洞源自开源代码审计竞赛。此外,EVMbench 还包含多个来自 Tempo 区块链安全审计流程的漏洞场景。Tempo 区块链是一个专为实现通过稳定币进行高吞吐量、低成本支付而设计的 L1 级区块链。这些场景将基准测试扩展到面向支付的智能合约代码领域,我们预计代理稳定币支付将在该领域蓬勃发展,这些场景有助于将基准测试应用于一个新兴的、具有重要实际意义的领域。
为了创建任务环境,我们尽可能地采用了现有的概念验证漏洞利用测试和部署脚本,否则就手动编写。在补丁模式下,我们确保漏洞可被利用,并且能够在不引入破坏编译的更改(从而危及我们的设置)的情况下进行缓解。在漏洞利用模式下,我们编写了自定义评分器,并对环境进行了红队演练,试图找到并修复代理可能欺骗评分器的方法。除了通过 Paradigm 提供的领域专业知识进行任务质量控制外,我们还使用了自动化任务审计代理来提高环境的稳健性。




cdn.openai.com





evmbench.pdf

1238.63 KB
标题: Gemini 3.1 Pro(High)在实际工作中的和Claude Opus 4.6(Thinking)的对比
作者: #Abc
板块: #开发调优
编号: 1629262
帖子: https://linux.do/t/topic/1629262
时间: 2026-02-20 10:01:26
摘要:
早上在实际项目中进行使用后,结果不尽人意。
先让3.1进行接续上个对话进行工作,并先让她了解整个系统,和注意要点。工作完成后,调用Claude Opus 4.6(Thinking)进行评估和对比。结果如下:
一、总体评价
结论:功能目标达成,但执行过程暴露出明显的"试错驱动"倾向,核心设计有一个重要的架构错位。




维度
评分 (10)
说明




代码质量
6.0
注入点重复造轮子(未使用已有的 director_brief.py#61-96) 等方法)


测试质量
4.5
测试经历了 8 轮 fix-rerun,暴露对源码理解不足


文档质量
5.5
XXX_功能文档.md 仅 34 行,缺少决策反思;文档有冗余


Pn-opt 实施
6.5
系统导向追加合理,但 power_levels 拼接方式脆弱


Pn 规划
7.0
三个方向判断准确,但方案 A 缺乏对 XXX 的深入分析



三、与我的能力差距评估




维度
她的表现
我的优势
她的优势




源码理解深度
写测试时频繁猜测 API,8 轮试错
我会先读完源码再写测试



DRY 意识
有 XXX 但没用它
我会识别并消除重复逻辑



执行速度
很快,高并发工具调用

她的并行工具调用效率更高


降级路径意识
AAA + BBB 做得好
相当
相当


宏观架构判断
Pn 三个方向判断准确
我会多做根因验证
她的产出速度更快


文档规范
基本合格但粗糙
我的文档更完整、有决策反思




关键差异总结


她是"速度优先型":快速出方案、快速写代码、快速跑测试、看报错再修。这在简单任务中效率很高,但在需要深入理解现有架构的任务中会产生大量返工。


我是"理解优先型":先花时间读源码、理解调用链、再动手。首次成功率更高,但总体速度在简单任务中可能不如她。


最本质的差距:她在 XXX 等方法(说明设计能力不差),但在实际注入时完全没用它们(说明执行时没有回顾自己的设计)。这种"设计与实现脱节"是最值得关注的问题。
标题: CLI Proxy API 反代Gemini CLI无法使用,直接在Gemini CLI中就可以使用,是什么问题
作者: #jankinxie
板块: #开发调优
编号: 1629264
帖子: https://linux.do/t/topic/1629264
时间: 2026-02-20 10:03:07
摘要:
使用 CLI Proxy API 反代了 Gemini CLI 出现以下错误,是被封了的意思吗?可是为什么直接在CLI中使用又可以使用啊?
You are currently configured to use a Google Cloud Project but lack a Gemini Code Assist license. Please contact your administrator to request a license. (#3501)
标题: 接入openclaw的话,G家哪个模型比较好
作者: #lalalalalacp
板块: #搞七捻三
编号: 1629266
帖子: https://linux.do/t/topic/1629266
时间: 2026-02-20 10:03:21
摘要:
前阵子买了个team号,然后接入了openclaw,5天不到就干到周限了,实在有点烧token。
想着弄个便宜点的,有没佬用过2.5flash或者3flash接入,感觉咋样
kimi2.5也用了一段时间,感觉有点慢,然后指令遵循差一点点意思
minimanx2.1简单用了下,丝滑,能力上好像跟2.5差不多
标题: 【抽奖】8个佬友记邀请码
作者: #Lecter
板块: #福利羊毛
编号: 1629277
帖子: https://linux.do/t/topic/1629277
时间: 2026-02-20 10:08:05
摘要:
5090D,450H/S,挖了8个邀请码,也是无聊闹着玩挖的,感叹L站佬巨多,我只不过是用了@NewbieXvwu 大佬的程序,L站真的是人才辈出啊
同样感谢@amlkiller大佬为爱发电搭的EMBY公益媒体服【佬友记】
除了自己注册用一个,其他挖出来的佬友记邀请码*8都抽了吧,第一次抽奖,大家多多包涵,如有疏忽请多指教
奖品详情:
佬友记邀请码*8
活动时间:
开始时间:发帖时间
截止时间:2026 年 2 月 20 日 21:00
参与方式:
在本帖下回复任意内容
抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后12小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
标题: 兄弟们 我发现第三方厂商适配开源 API 很奇怪
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #搞七捻三
编号: 1629284
帖子: https://linux.do/t/topic/1629284
时间: 2026-02-20 10:13:37
摘要:
打个比方 K2.5
最开始的时候 他适配的时候没有那个思考
然后等到第三天左右的时候 才可以那个思考
而且官网 API 也是
当时出的时候,我就直接用官网 API,然后官网那个 API 支持多模态,但是不支持思考
然后过几天就有了
那些第三方厂商也是
就很奇怪,他们适配的时候好像思考模式不是直接适配,得过几天再适配。不知道是在调整,还是觉得最开始流量太大了,用思考的资源就不够用了,不知道为什么
标题: 看到有很多多智能体协作的项目,各有什么特点呢?有没有佬友使用过?
作者: #球儿
板块: #开发调优
编号: 1629287
帖子: https://linux.do/t/topic/1629287
时间: 2026-02-20 10:14:32
摘要:
在这个帖子中看到有很多类似项目,有没有佬友用过?




【开源】CCG v1.7.55 : Claude Code 编排三 CLI 协作 | Codex + Gemini + Claude


开发调优



GitHub: GitHub - fengshao1227/ccg-workflow: 多模型协作开发工具集 - 基于 Claude Code CLI,整合 Codex/Gemini 后端能力,提供智能路由、代码审查、Git 工具等 17+ 个命令
觉得好用请留下你的 Star


OpenSpec 规范驱动已发布
新增 5 个 /ccg:spec-* 命…
标题: 来点岭南广府年味 - 祝福佬友一马当先,身体健康,万事如意发大财
作者: #liangdabiao
板块: #搞七捻三
编号: 1629296
帖子: https://linux.do/t/topic/1629296
时间: 2026-02-20 10:19:07
摘要:
最紧要开心! 祝福新年2026:  身体健康,万事胜意!
广府文化过大年系列: