linux.do
21K subscribers
115K photos
195 videos
115 files
247K links
linux.do最新话题和热议话题
Download Telegram
Harness 工程的最终理解——如何让AI大模型正常工作


先叠个甲,由于这个目前没有任何定义,相对来说比较敏感,本文仅为个人经验总结,不具备任何学术或名词篡夺。

模型使用:deepseek-v4-flash-high[1m]

BTW,关于harness的内容这就是最后一篇,不会再写关于harness的任何内容了,后续就看各人能力能出什么作品了。
书接前文:Harness工程的二次理解——弥补大模型的缺陷

通俗理解

大家近半年来,关于harness的言论想必听了少说两万字起了(我自己也写了差不多快1万字了),避免理解不到位,请大家暂停忘掉他家言论,先听我说。

Harness的通俗理解其实就一句话,如何让AI大模型代替自己【完整】地做一件事。

举个例子,我是一名程序员,程序员的工作包含:需求接收、需求理解、初设、详设、架构、编码、单测、集测、部署、归档,这差不多就是程序员工作时的全生命周期了。相信各位单拎任意一个环节出来,自己+AI大模型,都能胜任单项工作,可毕竟自己的工作并不是其中一项,而是需要一整个串联起来,才算是一项工作。那就再深度尝试点,写一个agent专职其中一个工作细节,再写一个agent leader,管理这些职责agent,是不是就搞定了。在理想情况下,这确实是可以,可是工作从来就是不是顺风顺水的。

卡点一 逆流程化操作

单测之后的bug,如何回到上一个节点让编码来修复。

这个问题相对来说比较简单,我们在单测agent最后,加上一句“如果发现有bug,就拉起编码agent来修复”,这样其实就解决了这个问题。可是有这样一问题,单测如何知道这是个Bug?编译、打包异常这肯定是Bug,可除此之外的问题呢,又如何定义为问题?

卡点二 角色该怎么定义

这个问题问出来,大家感觉可能就有点难回答了,这时大家应该有点感觉了,好像让AI大模型来代替我们工作并不是写个提示词就完了。

这时我们要解决这个问题,就需要想想,人和AI大模型在工时的区别是什么,我认为有以下几点:

AI大模型是无状态的,人是有状态的
AI大模型是不具备全局意识的,人是具备全局意识的
AI大模型的3Q是不可成长的,人的3Q是可成长的

我个人总结大致为以上三点,我们来对症下药。这里说得这么吓人,甚至感觉都快扯上哲学了,不过对于我们这帮老coder们,原因找到了,解决起来就很简单了。

不过为了方便大家能够更好地理解 ,我这里再举个例子,方便大家套概念。

原先我们传统编程时代,使用RESTful接口时,要保证接口是无状态的。但是接口总跟业务相关,业务就跟用户相关,而我们又不能为每个用户设计一个接口,所以我们就做了一层设计,接口传入认证凭证或userId,后台通过AOP技术或filter/interceptor技术等等,设计一个全局缓存层,当识别到接口有这个参数传入,将特有标识转化成全量信息存入线程变量中,这时,进来的是一个无状态的接口请求,到服务端运行时,就是一个具备全局视野的请求对象,服务端很清楚,是哪个用户在处理什么业务,他的权限是什么,他的用户状态是不是可用的等等,业务在处理时,顺其自然的就知道这时应该怎么处理才是正确的。

好的,回到原有话题,角色该如何定义。这时我们也明白了,角色要知道全局才能知道对错,不光是单测角色,即使是编码角色也应该是知道全局,要不然怎么就知道这个编码就是一定是对的呢。而大家都知道,不管是编码也好,还是测试也好,都是依赖需求和架构来实现和验证的,所以我们需要将需求和架构结果转存为一份文件,放在某个目录,列为共识,在需求、架构等启发性角色提示将结果存进该目录,在编码、测试等认知型角色去读取。

写到这都快赶上一篇软考架构的论文了,可是还有内容要写,有点累。

到这里,我们清楚了在harness中,角色怎么定义才是有效,流程怎么回溯,那到这里,我们可以完整的使用agent的形式实现需求接收、需求理解、初设、详设、架构、编码、单测、集测、部署、归档这些角色,他们既有全局视角处理当前职责,又有方式可以回溯,不过随着流程化内容越来越复杂化,一个新问题的诞生了。

一段时间之后,我们在不断完善上述agent的能力和流程时,最终发现,一个agent的流程化内容居然还要比职责内容要长,聪明的传统coder们,这时脑子里就已经蹦出来一句话了,这逼东西怎么耦合这么严重啊。肯定随之就出来一个经典面向对象设计的方法了,这特么要走单一职责啊,高内聚、低耦合啊。

为了防止其它行业的牛马们看不懂,这里再做一个通俗的解释,好比我们开个饭馆,有一个大的储物柜,一开始只卖热干面,就只放热干面,后面为了吸引更多客户,又增产卖细粉,这个柜子就变成又放热干面又放细粉了,但是店里面忙起来的时候,两个师傅经常去柜子拿粉面的时候,一次只能一个师傅拿,这样效率不高,于是就再准备了一个柜子,一个放粉,一个放面,两个师傅拿东西不冲突,效率提高,就是这个意思 。

好的,回到正题,来到harness的最后一步,AgentFlow

卡点三 AgentFlow

好了,一个harness的所有元素我们都已经有了,各个职责agent,共识目录,我们现在要做的工作是把这些职责agent的流程化理清楚,比如编码完了应该测试,测试完了有问题就回到编码,没有问题就再走下一步,我们只需要把流程化梳理清楚,也是定义成一个agent,只不过这个agent的角色为team leader,也就是代表的你本人,其它职责agent全部为subagent,是你本人的具体工作逻辑,而在这个subagent下,你可以为了让agent更好的做某个事,给加skill、mcp、tool等,而在整个harness之外,你想再做一些异步的事,就是加hook。

----------------------

ADVANCE

这里为高级内容,看不懂也没关系,工程化相对来说比较简单的就完成上面内容即可,这里为复杂工程化的优化。

上面所有的内容,已经能够解决所有的简单工程化的工作了,但是承着工程化的复杂化,就会暴露出来一个问题,上面只是简单的将各个agent的流程化内容剥离出来而已,甚至这步工作都可以不做了,只是为了后续更好的优化和维护,剥离出来更好调控。

当流程复杂化后,这个角色的内容将会被无限拉长,拉到过长后,会导致文件部分内容为AI大模型忽略,这是我们不想看到的,一旦内容忽略,等于流程缺失,恒等于工程失败。

前面我们提到了共识目录,这时我们也需要在agentFlow也要用起来,我们需要把所有流程化进行结构化抽象,比如:当前节点,子节点,子节点中再包含子节点进入条件,子节点入参,这里就是走BPMN的那一套了(关于BPMN的的资料可自行查阅,这里不再扩展),然后将agentFlow的职责转为更好的维护这个流程文件,把流程描述以树状或有向无环图的形式表达清楚,把流程式维护进流程文件存进共识目录中,这里就正式变成一个无状态流程agent,而不是简单的流程化描述,通过加载流程共识文件,即可知道工程全局,然后交给大模型,发挥AI大模型的逻辑能力,自动处理下一步。

到这里,就是真正的让AI大模型继承自己的工作思想,代替自己完整地完成一项工作。

话尾

大家可能担心,因为AI大模型的能力越来越强,自己的可替代性也会越来越高,我个人理解其实完全不需要担心。

在工程化理论里,有一个经典四级公民理论,一等、二等、三等、四等,我们以往的日常工作其实就是位列于四等公民,然而由于AI大模型的出现,我们可以操作AI大模型,代替我们成为四等公民,而我们将自动上升为三等公民,负责脑力工作,起管理作用。

我们当时被聘用是因为我们的专业性,我们现在的不可替代性就会自动上升为专业能力管理,我们当时的专业性是可以用专业性完成上级领导的下发的任务,我们如今的专业性是可以管理一帮跟我们一样的专业性智能体完成领导下发的任务,并且效率更快,质量更高。

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: coldingcode)
反代是什么意思,用来干啥的

在论坛里看到经常有提到反代,有没有了解的佬友,解释下这是什么操作啊,用来干啥的

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: wpthad)
减肥期蔬菜能用果蔬粉代替吗

各位佬友好 之前我因体重的问题而困扰了很久 所以最近一段时间就下定决心开始减肥 我最开始的身高是182 体重接近184斤 算是比较肥胖了 然后我就在网上搜索了一些减脂的方法 因为我最近学业上也挺忙的 没时间去大幅度的运动 然后就只能在饮食上来减 最开始的几天 每天中午是一大碗水煮蔬菜(菠菜、西兰花、生菜、豆芽啥的,学校麻辣烫里有啥蔬菜我吃啥)蛋白质 碳水的啥的还能坚持几天 今天是第9天 但是逐渐开始吃不下去蔬菜了 已经达到闻到那个水煮菜的味道就想反胃吐的地步了 然后在网上看到果蔬粉能代替蔬菜 但是又看到很多说果蔬粉是智商税 里面虽然有膳食纤维 但是淀粉 糖的啥含量也比较高 所以想请教一下各位佬友 果蔬粉真的是智商税吗 或者说还有其他东西可以平替蔬菜吗 🥲 🥲 🥲
顺带附一下我每天的三餐 佬友可以指正一下
早上:2块全麦脆2个蛋清1个全蛋一小把蓝莓和一盒牛奶
午餐:一碗60g荞麦面➕️60g去皮鸡腿➕️一大碗蔬菜(之前)➕️一盒牛奶➕️少许蓝莓
晚餐:60g去皮鸡腿➕️一根黄瓜

11 个帖子 - 6 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Akmusi)
Word 加载项 啥时候出个GPT或gemini

尝试了 ChatGPT for Excel 很好用,要是来个Word的那就太棒了,没准还能翻译文档

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Goout)
free号雅虎邮箱和iCloud注册哪个更稳

想买几个free号用一下,问问外面卖的free号雅虎邮箱和iCloud注册哪个更稳,活的就一些

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: pap)
ai应用开发模型选择

学校老板想让我开发一个ai应用的软件,我去年听说工业界比较认可QWEN系列的模型我就一直基于这个开发磨洋工做到了现在,但是时间太久了今天老师又问我用的啥模型疑似新模型太多他又开始不满意了。想问一下佬友们目前开发ai应用的话使用什么开源模型最好用?

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 会出现)
让cc-switch支持codex模型映射

作为资深ccs党、codex党、缺token党,日常可能需要在不同的公益站切换。但不同站点的模型支持或许会不一样,比如有的站只能5.5,有的站只能5.4,有的改名成了gpt-5.4-cx等。ccs支持对claude模型进行映射,这让日常codex的我馋哭了

翻看PR列表发现,PR #916已经实现了这个功能,无奈作者太忙无力维护,于是直接让codex根据最新release合并PR#916后编译即可,编译完成后可以在src-tauri\target\release里找到binary,可以直接执行或者替换原来的ccs

ccs会在编辑供应商下面出现Codex模型映射,还可以根据reasoning effort进行映射,保存即可

经测试5.4可以正常访问anyrouter的5.5模型,需要注意这只是模型映射,不能改变端点

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 否极泰来)
Xiaomi Mimo PRO 月度套餐(已使用额度 40,324/700,000,000)

抽奖主题: 闲置的 Xiaomi MiMo Pro 月度套餐

🏆️ 奖品详情:

奖品:
Xiaomi MiMo Pro 月度套餐 (URL+APIKEY 非小米账号)
已使用额度 40,324/700,000,000
6月1日到期

:three_o_clock: 活动时间:

开始时间:2026-05-14 发帖时间起
截止时间:2026-05-14 23:59:59

📝 参与方式:

在本帖下回复符合新的抽奖规则回复规范即可。

🔍️ 抽奖规则:

每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
中奖者一名

⚠️ 注意事项:

本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。

期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: uncacesar)
codex 有没有类似在idea 可以每次修改进行审查的插件,他现在一次性生成太多文件 都不想一个一个看

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: CaroLe)
佬友们,马上520了,都准备送女朋友或者老婆啥呢

婚后好几年了,每天带娃都占了不少精力,有没有什么实用类的或者高情绪价值类的礼物呢?

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: a4a5s5)
我为什么点不了赞了

佬们,这是什么情况?
1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Near)
Telegram必备的搜索引擎,极搜JISOU帮你精准找到,想要的群组、频道、视频、音乐

👉 t.me/jisou?start=a_7387292324
codex怎么做到多个窗口同时运行

我看别人有说可以用多个账号同时蹬,但是codex程序不是只能开一个吗,想问一下佬们具体应该怎么实施

7 个帖子 - 7 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: gchkongcheng)
你们的 Claude Code 都用的什么Playwright mcp

现在有个问题 playwright 每次都会打开一个全新的浏览器,这些我都能理解。但是网络问题总是不好让它解决, 例如我有一个http://127.0.0.1:1081的代理, 我怎么让 playwright 能坚持用这个代理,访问浏览器???

claude code 的playwright mcp 很顽固,怎么配置它都不生效。

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: rwecho)
NGINX 曝严重远程代码执行漏洞 CVE-2026-42945

这公司运维不得修死了,快乐周末没了
7 个帖子 - 7 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: camille520)
一起动起来!!!已瘦20斤

1个月左右,体重从78kg 减到了68kg
每天只吃一顿饭🍚

8 个帖子 - 8 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 后山人)
gpt free 号现在可以用gpt5.5了?

逛帖子看到Elysiver上了gpt5.5模型,想着把axonhub里面的渠道来更新一下,顺便在cherrystudio上试用一下。结果axonhub路由到了CPA的gpt5.5了,后面一看竟然可以用。所以意味着free号也能5.5用了嘛?啊哈!

6 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Dream Stone)
关于国产手柄的一些个人看法

这两天服役四年的xbox手柄右肩键有断触的情况,加之近期听闻国产手柄今时不同往日,遂入手了几个目前nga+b站推荐的国产手柄。我是主玩3A加一些大世界二游(鸣环),因此对于什么额外按键、高回报没有需求,更在意模具手感和震动效果,以我xbox series作为标准对比,这些手柄整体上我对于他们的表现是不太满意的,感觉都是有优点但又在一些地方恶心你一下的感觉,具体如下:

1. 致动终极传奇
看各个b站up推荐说性价比极高。优点是震动反馈不错,但缺点就太多了,实际上手后主要的问题是小作坊品控堪忧,进游戏马上发现左摇杆漂移,自动觉醒器灵,而且还不是固定的是偶发,网上一查各种品控问题已被大家诟病很久了。设计上手柄扳机比较轻,额外的肩键做得比较靠近,加之我手比较小(16~17cm),导致我按的时候可能会误触扳机;背键有两个看起来不可拆卸的圆球型按键,位置还挺靠上,对于我这种不需要背键的来说有点卡手。给的替换配件做工注塑线有点明显,没有配套的电脑驱动,只能手机下载app改配置,需要来回切换蓝牙进行修改和测试,手机app也做得比较简陋。
300+的价位给我的体验不是很好,除非你有比较强的动手能力和试错精神,否则不建议入手。
2. 黑武士5
手感最像xbox的一款,颜值尚可,要是能把顶部的头皮屑去掉我能加两分。外置摇杆阻尼调节好评。微动的abxy按键有点晃,手感不太行;我这款还中奖了,右扳机对比左扳机手感很肉。震动上一言难尽,以最近的新游戏异环来说,放技能的感觉只能说如有,我还以为是我电没充满呢。十字键偏高,从xbox转过来有点不太适应。
300+价位,评价是差强人意,如果能给这手柄洗个头我感觉印象还能更好一点。
3. 八爪鱼5
看模具应该是和黑武士一个款的(错误的我发现右肩键附近模具没贴合刮到我食指了),但是重量不是一个量级,拿在手里挺扎实的。颜值个人觉得不如去屑黑武士(喜欢简约的),小屏幕虽然有趣但是周边的镜面设计导致很容易变成指纹收集器。摇杆我是第一次玩到回弹的摇杆,这里的回弹指把摇杆拉到底以后他回位时会有明显的弹性震动,音效上类似"duang"的感觉,还挺好玩。abxy我认为是我用过的最舒服的按键,对比黑武士的晃荡,这个就是非常紧实,给人的感觉就是按键定位准确。背键没有黑武士那么脆,对我来说正好(我很少用背键,按到的时候它存在感越低越好)。震动的话和黑武士差不多,半斤八两。
接下来说下我认为重量级的,这个手柄的菜单键和功能键位置尼玛诗人?看起来是为了小屏幕所以没地方了只能放上边,完全没考虑人体工学和手感。右边我大拇指还能勉强往上摸摸暂且不提,左边你那按键和摇杆位置是在一条线上的,正常玩的时候要按功能键只有三个选项:

天赋异禀直接大拇指从摇杆正上方跨过去按
从下方推动一部分摇杆去按
直接玩到一半放下手柄按
我相信设计师一定是第一类人,否则这么逆天的设计我是没法理解的。
400+价位,评价是钝角,我真的很喜欢这个的abxy但是这个菜单键是真的难绷。模具没贴合刮手也是。

目前看国产的这几个,我认为是完全没达到社区里说的除了震动外全方位碾压xbox的水平。今天还会到手两个八位堂的,之后体验完后我再继续更新。

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Jarao)