LinuxDo 新帖推送

标题: 冬天太干燥了，uu推荐什么加湿器？
作者: #Y
板块: #搞七捻三
编号: 1629255
帖子: https://linux.do/t/topic/1629255
时间: 2026-02-20 09:57:59
摘要:

欢迎佬友们推荐！
而且我妈稍有点鼻炎，所以产品质量是我们最优先考虑的
看花眼了，都

2 views01:58

LinuxDo 新帖推送

标题: 牛首山庆新春节目表演
作者: #ovdoes
板块: #活动
编号: 1629257
帖子: https://linux.do/t/topic/1629257
时间: 2026-02-20 09:58:35
摘要:

但是人好多。。。

2 views01:59

LinuxDo 新帖推送

标题: 今日笑话：64G的DDR5内存条比AR15贵
作者: #Debris
板块: #搞七捻三
编号: 1629260
帖子: https://linux.do/t/topic/1629260
时间: 2026-02-20 10:00:03
摘要:

评论区超级有意思

https://www.reddit.com/r/mildlyinfuriating/comments/1r9eykc/its_cheaper_to_buy_an_ar15_rifle_than_64gb_of/

2 views02:01

LinuxDo 新帖推送

标题: EVMbench：通过评估人工智能代理检测、修补和利用区块链环境中漏洞的能力，使智能合约更加安全。
作者: #stevessr
板块: #资源荟萃
编号: 1629261
帖子: https://linux.do/t/topic/1629261
时间: 2026-02-20 10:00:10
摘要:

https://openai.com/index/introducing-evmbench/

[!info]+
智能合约通常能保障价值超过1000亿美元的开源加密资产的安全。随着人工智能代理在代码读写和执行方面的能力不断提升，在具有经济意义的环境中评估其能力变得日益重要，同时鼓励将人工智能系统用于防御性用途，例如审计和加强已部署的合约。
我们与 Paradigm 共同推出 EVMbench，这是一个用于评估 AI 代理检测、修复和利用高危智能合约漏洞能力的基准测试工具。EVMbench 使用了来自 40 项审计的 120 个精选漏洞，其中大部分漏洞源自开源代码审计竞赛。此外，EVMbench 还包含多个来自 Tempo 区块链安全审计流程的漏洞场景。Tempo 区块链是一个专为实现通过稳定币进行高吞吐量、低成本支付而设计的 L1 级区块链。这些场景将基准测试扩展到面向支付的智能合约代码领域，我们预计代理稳定币支付将在该领域蓬勃发展，这些场景有助于将基准测试应用于一个新兴的、具有重要实际意义的领域。
为了创建任务环境，我们尽可能地采用了现有的概念验证漏洞利用测试和部署脚本，否则就手动编写。在补丁模式下，我们确保漏洞可被利用，并且能够在不引入破坏编译的更改（从而危及我们的设置）的情况下进行缓解。在漏洞利用模式下，我们编写了自定义评分器，并对环境进行了红队演练，试图找到并修复代理可能欺骗评分器的方法。除了通过 Paradigm 提供的领域专业知识进行任务质量控制外，我们还使用了自动化任务审计代理来提高环境的稳健性。


  

      cdn.openai.com
  

  
    

evmbench.pdf

  1238.63 KB

2 views02:01

LinuxDo 新帖推送

标题: Gemini 3.1 Pro(High)在实际工作中的和Claude Opus 4.6(Thinking)的对比
作者: #Abc
板块: #开发调优
编号: 1629262
帖子: https://linux.do/t/topic/1629262
时间: 2026-02-20 10:01:26
摘要:

早上在实际项目中进行使用后，结果不尽人意。
先让3.1进行接续上个对话进行工作，并先让她了解整个系统，和注意要点。工作完成后，调用Claude Opus 4.6(Thinking)进行评估和对比。结果如下：
一、总体评价
结论：功能目标达成，但执行过程暴露出明显的"试错驱动"倾向，核心设计有一个重要的架构错位。




维度
评分 (10)
说明




代码质量
6.0
注入点重复造轮子（未使用已有的 director_brief.py#61-96) 等方法）


测试质量
4.5
测试经历了 8 轮 fix-rerun，暴露对源码理解不足


文档质量
5.5
XXX_功能文档.md 仅 34 行，缺少决策反思；文档有冗余


Pn-opt 实施
6.5
系统导向追加合理，但 power_levels 拼接方式脆弱


Pn 规划
7.0
三个方向判断准确，但方案 A 缺乏对 XXX 的深入分析



三、与我的能力差距评估




维度
她的表现
我的优势
她的优势




源码理解深度
写测试时频繁猜测 API，8 轮试错
我会先读完源码再写测试
—


DRY 意识
有 XXX 但没用它
我会识别并消除重复逻辑
—


执行速度
很快，高并发工具调用
—
她的并行工具调用效率更高


降级路径意识
AAA + BBB 做得好
相当
相当


宏观架构判断
Pn 三个方向判断准确
我会多做根因验证
她的产出速度更快


文档规范
基本合格但粗糙
我的文档更完整、有决策反思
—



关键差异总结


她是"速度优先型"：快速出方案、快速写代码、快速跑测试、看报错再修。这在简单任务中效率很高，但在需要深入理解现有架构的任务中会产生大量返工。


我是"理解优先型"：先花时间读源码、理解调用链、再动手。首次成功率更高，但总体速度在简单任务中可能不如她。


最本质的差距：她在 XXX 等方法（说明设计能力不差），但在实际注入时完全没用它们（说明执行时没有回顾自己的设计）。这种"设计与实现脱节"是最值得关注的问题。

2 views02:02

LinuxDo 新帖推送

标题: CLI Proxy API 反代Gemini CLI无法使用，直接在Gemini CLI中就可以使用，是什么问题
作者: #jankinxie
板块: #开发调优
编号: 1629264
帖子: https://linux.do/t/topic/1629264
时间: 2026-02-20 10:03:07
摘要:

使用 CLI Proxy API 反代了 Gemini CLI 出现以下错误，是被封了的意思吗？可是为什么直接在CLI中使用又可以使用啊？
You are currently configured to use a Google Cloud Project but lack a Gemini Code Assist license. Please contact your administrator to request a license. (#3501)

2 views02:04

LinuxDo 新帖推送

标题: 接入openclaw的话，G家哪个模型比较好
作者: #lalalalalacp
板块: #搞七捻三
编号: 1629266
帖子: https://linux.do/t/topic/1629266
时间: 2026-02-20 10:03:21
摘要:

前阵子买了个team号，然后接入了openclaw，5天不到就干到周限了，实在有点烧token。
想着弄个便宜点的，有没佬用过2.5flash或者3flash接入，感觉咋样
kimi2.5也用了一段时间，感觉有点慢，然后指令遵循差一点点意思
minimanx2.1简单用了下，丝滑，能力上好像跟2.5差不多

2 views02:04

LinuxDo 新帖推送

标题: 【抽奖】8个佬友记邀请码
作者: #Lecter
板块: #福利羊毛
编号: 1629277
帖子: https://linux.do/t/topic/1629277
时间: 2026-02-20 10:08:05
摘要:

5090D，450H/S，挖了8个邀请码，也是无聊闹着玩挖的，感叹L站佬巨多，我只不过是用了@NewbieXvwu 大佬的程序，L站真的是人才辈出啊
同样感谢@amlkiller大佬为爱发电搭的EMBY公益媒体服【佬友记】
除了自己注册用一个，其他挖出来的佬友记邀请码*8都抽了吧，第一次抽奖，大家多多包涵，如有疏忽请多指教
 奖品详情：
佬友记邀请码*8
 活动时间：
开始时间：发帖时间
截止时间：2026 年 2 月 20 日 21:00
 参与方式：
在本帖下回复任意内容
 抽奖规则：
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
 注意事项：
本活动将在活动截止时间后关闭回帖，以确保公正性。
中奖者将在活动结束后12小时内在本帖公布，并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与，祝您好运！如有任何疑问，欢迎随时联系抽奖发起人。

3 views02:10

LinuxDo 新帖推送

标题: 兄弟们我发现第三方厂商适配开源 API 很奇怪
作者: #𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷
板块: #搞七捻三
编号: 1629284
帖子: https://linux.do/t/topic/1629284
时间: 2026-02-20 10:13:37
摘要:

打个比方 K2.5
最开始的时候 他适配的时候没有那个思考
然后等到第三天左右的时候 才可以那个思考
而且官网 API 也是
当时出的时候，我就直接用官网 API，然后官网那个 API 支持多模态，但是不支持思考
然后过几天就有了
那些第三方厂商也是
就很奇怪，他们适配的时候好像思考模式不是直接适配，得过几天再适配。不知道是在调整，还是觉得最开始流量太大了，用思考的资源就不够用了，不知道为什么

3 views02:16

LinuxDo 新帖推送

标题: 看到有很多多智能体协作的项目，各有什么特点呢？有没有佬友使用过？
作者: #球儿
板块: #开发调优
编号: 1629287
帖子: https://linux.do/t/topic/1629287
时间: 2026-02-20 10:14:32
摘要:

在这个帖子中看到有很多类似项目，有没有佬友用过？
  
    
    
    
      【开源】CCG v1.7.55 : Claude Code 编排三 CLI 协作 | Codex + Gemini + Claude 
  

开发调优
    
  
  
    GitHub: GitHub - fengshao1227/ccg-workflow: 多模型协作开发工具集 - 基于 Claude Code CLI，整合 Codex/Gemini 后端能力，提供智能路由、代码审查、Git 工具等 17+ 个命令 
觉得好用请留下你的  Star 


 OpenSpec 规范驱动已发布 
新增 5 个 /ccg:spec-* 命…

3 views02:16

LinuxDo 新帖推送

标题: 来点岭南广府年味 - 祝福佬友一马当先，身体健康，万事如意发大财
作者: #liangdabiao
板块: #搞七捻三
编号: 1629296
帖子: https://linux.do/t/topic/1629296
时间: 2026-02-20 10:19:07
摘要:

最紧要开心！ 祝福新年2026：  身体健康，万事胜意！
广府文化过大年系列：

2 views02:21

About

Blog

Apps

Platform