linux.do
21.1K subscribers
118K photos
195 videos
116 files
251K links
linux.do最新话题和热议话题
Download Telegram
大家不觉得chatgpt说话很恶心吗?

问它点技术问题就开始用一些装腔作势的句子,油得一P 🤮看的人反胃。废话连篇,半天说不到重点,一句话里有半句都是类似免责声明的话。

设置“个性化”也完全没用,说着说着就回到默认状态了。有时候看它说话想给它来几拳 🙃

奥特曼已经把它调废,没办法做到正常叙述了。语句逻辑通顺流畅、没有病句,这种小学语文最基本的要求它都做不到了。

94 个帖子 - 77 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: Kuld)
Xiaomi MiMo 罗福莉就Token Plan定价发言:”全球算力跟不上代理创造的 token 需求。真正的出路不是更便宜的 token,而是协同进化。“

之前就在猜测,小米 Token Plan 定价较高,反而是因为他们在贴近成本定价,而其他家便宜其实都是“便宜赚吆喝”,但是小米目前不想赚这个吆喝。

https://x.com/_LuoFuli/status/2040825059342721520

132 个帖子 - 80 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: 塔林西亚)
(重新开贴)国产coding plan速率测评(暂速率,其他自动化评测开发中)

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:

● 我的项目是免费使用的,无收费(变相收费、赞助)部分:
● 我的帖子已经打上 公益推广 标签:
● 我的项目属于个人项目,与公司或商业机构无关:
● 我的项目不存在QQ、TG等群组引流:
● 我的项目不存在非运营必要的网站引流:
● 我的项目不存在为他人推广、AFF:
● 我的项目无关联的商业项目:
● 我的站点存在登录,并已接入 LINUX DO Connect:
● 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
● 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出

----------------------

背景

书接上文,龙虾 Agent 泛滥,国内 AI 逐渐从免费转向收费,并且有向 Token Plan 转变的倾向。

正值此时刻,本人自费购买了国产几乎所有 Coding Plan。

----------------------

📋️ 已覆盖平台

----------------------

✅️ 当前评测状态

✅️ 速率拨测自动化:采用中间值计算,可信度高,真实反映用户体验速率

----------------------

🚧 后续更新计划

1. 前端优化:支持用户评价显示
2. 公益在线对话:将除拨测外的保留资源开放,供大家公益使用
3. 自动化多维评测:前端 / 写作 / 上下文 能力评测

以上计划均在规划中,即将上线

----------------------

🔗 拨测站点

为国内服务器,不用翻,后续完善后我再放海外(主要因为不是每个厂家都支持海外调用)coding.15o.cc

Coding Plan Benchmark

----------------------

💡 声明

从始至终没有要求过任何资金捐赠,仅有使用过元景(无法购买)的朋友捐赠过 Key(目前已失效)。

41 个帖子 - 25 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: hlool)
harness engineering 时代,程序员的价值在于定义问题

2025 年是 reasoning 之年,也是 agent 之年。以 Claude Code 为首的 coding agent,展现出了让程序员绝望的能力。

2024 年秋天我还在字节时,AI coding 还没有那么普及,RAG 还是很新的技术。那时候,我还是把代码粘贴到网页端的 ChatGPT 里来解决问题;如果输出太长,还要分几次才能输出完。内部的服务全是各种 RPC 调用,光是捋清楚逻辑就已经很难了,更别提让 AI 读懂上下文了。当时的 AI coding 看起来还很鸡肋,Trae 也是大概半年后的事情了。再往前,到 ChatGPT-4 时代,程序员看待 AI coding 还像 Tom 看到机器猫一样,觉得这玩意儿替代程序员还早得很;而在 ChatGPT-3.5 时代,AI 还只有情绪价值,扮演个猫娘还行,coding 更是无从谈起。没想到 AI 的能力是指数级上升的,短短三年,沧海桑田。

我最早接触的 coding agent 工具是 VS Code 的 Copilot。那时候它还主要是 Tab 补全,后面因为 Trae 免费,我转向了 Trae;直到 2025 年下半年,我才开始高强度使用 Cursor。第一次用到 Anthropic 模型的时候,简直惊为天人,从此爱不释手,告别古法编程。后来我在小红书上看到有人说 Claude Code 比 Cursor 强一大截,但因为一直没有廉价的 Claude Code API,所以一直没有尝试。直到 2026 年春天,我才开始逐渐从 Cursor 转向 Claude Code。CC 就像海洛因,沾上就戒不掉了。

我曾经像绝大多数程序员一样傲慢,认为 context engineering、rules、skills、MCP 都只是对 prompt engineering 的包装,不过是为了公司股价炒作出来的概念罢了。不就是自然语言吗,搞这么多名词干嘛?直到 Harness Engineering 时代,我才开始重新审视这些概念,意识到以前的认知错了。定义问题是什么,是一件十分重要的事情:LLM 为什么不能交付生产级别的代码?因为它没有生产环境的约束。而上述这些技术,本质上都是通过各种手段给 LLM 定义问题的边界、分解目标,并减少幻觉的影响。

在我自己接近两年的 AI coding 经验中,也不断面临 Harness Engineering 想要解决的这些问题:LLM 总是一口气写一堆代码,然后把上下文耗光,最后留下来一堆垃圾。Harness Engineering 基本上就是为了解决这个问题。简单来说,就是将大的目标拆解成一个个小的、可交付的目标,然后进行 coding-testing,直到一个个小目标被交付,再逐步集成,最终实现大的目标。这和软件工程里瀑布模型的思想是一样的。

在讨论 LLM 是否能达到 AGI 之前,我想先说两个我自己的观点。首先,LLM 的 next-token prediction 只是表象;在 latent space 里,LLM 已经规划好了内容,next-token prediction 只是 output stream。其次,Harness Engineering 不能简单地被认为是对 prompt 的包装,它是传统软件工程思想在 AI coding 时代下的实践。

其实本文并不打算深入讨论这个问题。我的观点大概是:语言本身是对物理世界的 projection,只学习语言达不到人类级别的 AGI。这就好比人类作为三维生物无法理解四维世界一样,上限被锁死了。另外,即使达不到 AGI,LLM 所展示出来的能力也已经足够颠覆人类社会了。

LLM 的吞吐远高于程序员手动 coding 的速度。在这种情况下,coding 似乎不再是 bottleneck,程序员的护城河似乎一夜之间崩塌了。于是自媒体开始疯狂渲染:程序员要完蛋了。国内外互联网行业的裁员潮,似乎更印证了这一点。无论是美国的 Meta、Oracle,还是国内的各种中小互联网企业,都在疯狂裁员。但我觉得,目前的裁员潮更多还是公司本身的问题。像 Meta 在元宇宙上烧掉的几百亿美元,还有 Oracle 因为疯狂建设服务器集群把现金流榨干,至少目前的大规模裁员,更多还是因为公司经营不善导致的。

实际上,互联网的裁员,本质上是互联网的需求走到头了。毕竟移动互联网已经 15 年了,该开发的需求基本上也都开发完了。像 Alibaba 为了继续讲故事,甚至不惜一切代价 all in 外卖这个没什么油水的行业;大量互联网巨头都在开超市、搞餐饮,实在是没故事可讲了。如果不是 LLM 续了一波命,或许 2023 年就要开始大规模裁员了。就像疫情延缓了楼市暴雷的进程一样,LLM 延缓了互联网裁员的进程。

回到 AI coding 本身,经常有人会吐槽:“AI 哪有你说的那么牛,我做个 xx,AI 搞得一团糟。”这时候就会有 NPC 回复:“那是因为你没用 Opus 4.6 / GPT-5.4。”或者,“那是因为你 prompt 给得不精确。”前者暂且不谈,不同基模的能力差距确实很大;而后者所强调的,其实就是定义问题的能力,这也是 Harness Engineering 所强调的边界问题。

打个比方,Opus 4.6 就像赤兔,Claude Code 就像马镫和缰绳。如果骑手不能正确使用马镫和缰绳,那这匹马只会撂挑子,结果南辕北辙。同样的模型,在一个 CS 专业大一新生和一个有 10 年开发经验的 Java 老兵手里,效果能一样吗?前 LLM 时代的开发经验,就像冷兵器时代的技巧;而在火器时代,10 岁的小孩和 30 岁的成年人射出的子弹同样致命,但成年人的各种经验和认知,会让他运用火器时比小孩子更致命。

将“给我做一个淘宝的竞品”输入给 LLM,它只能在上下文耗光后给你一堆报错的代码;“帮我优化这个 kernel”,通常 LLM 甚至会在不用 NCU profiling 的情况下就开始瞎写,最后只能 discard all。如果 LLM 的使用者本人连什么是链表、队列,什么是关系型数据库、消息队列都不知道,那他大概率只能得到一堆屎山。的确,有很多人 vibe coding 出了一些很有意思的项目,这也是 vibe coding 时代的特点:code is cheap, show me your idea。

但即使是 OpenClaw 这样的爆品,现在也会因为技术债和认知债太严重,导致 GitHub 仓库里堆满了 issue 和 pull request 而无法维护。大量垃圾逻辑代码把海量 context 塞进上下文里,烧光 token。AI coding 能解决一切问题吗?我看未必。

理解问题在哪里、定义问题的边界,是后 Harness Engineering 时代程序员的核心价值。Coding 的范式确实被极大地改变了。以前我们上 Stack Overflow,查阅各种文档,RTFM、STFW;现在我们把日志丢给 LLM,问一句:“这是为什么?请用中文回答。”Coding 的门槛被极大地降低了,但这不代表不再需要 coding。我觉得,在这个时代,No Silver Bullet 依然成立。自然语言的模糊性决定了,真正有价值的人,依然是那些能定义问题的人。

Agent 目前只是在 coding 领域的商业化比较成功,而全世界的程序员大约只有 2500 万人。全世界有 80 亿人,真正对 token 有较大需求的,只有这几千万人。电影《战争之王》片头,尼古拉斯·凯奇说:
“这个世界上有 5.5 亿支枪,差不多每 12 个人就有 1 支。唯一的问题是:怎么让另外 11 个人也武装起来。”
现在的问题是,如何把 token 卖给剩下的 80 亿人?

这将是一个巨大的工程。如同资本主义发展早期阶段“羊吃人”一样,现在是“GPU 吃人”;但在不远的未来,LLM 将会创造海量的需求,同时生产力也将会得到极大提升。我们应该相信,生产力的进步总是好的,社会的进步也是螺旋上升的。

35 个帖子 - 23 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: liuyao)
Telegram必备的搜索引擎,极搜JISOU帮你精准找到,想要的群组、频道、视频、音乐

👉 t.me/jisou?start=a_7387292324
明天生日了, 能求佬们的一句生日快乐吗

马上快30了, 今年的唯一人生进度就是刚买了人生第一辆车, 工作上还是无所事事, 不知道是不是普通人都是这样的

206 个帖子 - 202 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: yzfung)
CPA无法批量上传JSON文件了吗

RT 请教大佬们
我以前还可以CTRL+A批量上传呀
5 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: monobo)
第一次摔车(

佬们,放学路上第一次摔车,旁边还有一辆小车,本来想换挡超过去的,结果一升牙盘,链条卡兹卡兹响一下,踏板和链条直接卡住不动了,直接失控然后摔倒。幸好我是往右边人行道摔的,且速度不快,不然就被小车爆头了QVQ
(俺很菜的)

199配的眼镜飞出去了,镜片掉了一个,发现居然一点划痕都没有owo

10 个帖子 - 8 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 『H₂O₂』)
【Harness Engineering】怎么都在说 Harness Engineering,什么是 Harness Engineering

最近一段时间 Harness Engineering 这个名词在 Agent 圈子里面绝对是 No.1
一个词的发明从来不是莫名其妙的,而是大量的生产实践,经验总结,得出了一定的现象规律,人类再加以命名。

但是一个术语诞生的时候,大家其实对其研究没有那么深厚,又或者因为竞争激烈,很多人在同一个时间对类似的现象都有研究,词语的界限就没有那么明确。
Agent 大家都已经很熟悉了,但在一年之前,拖拉拽的工作流,n8n 其实也被偶尔称作 Agent,现在大家都统一了以工具调用与环境交互的自主决策系统才叫 Agent,固定节点的都统一为工作流了
我总结了近期头部 AI 公司内部的大量实践,以及若干开源项目,希望能够准确定义一下 Agent 中的 Harness Engineering 到底是个啥?

----------------------

Harness Engineering – 马具工程 :distorted_face:

我翻找了一些资料,大多数说法都认为 Mitchell Hashimoto(米切尔·桥本)是第一个提出“Harness Engineering”概念的人。

他是 HashiCorp 的联合创始人、Terraform 的创作者。2026 年 2 月 5 日,他在个人博客中首次明确命名并系统阐述了这个理念(第 5 步:“Engineer the Harness”) 他的核心定义非常简洁:“每当发现 Agent 犯错,就花时间设计一个解决方案,让它永远不再犯同样的错误。”
六天后,OpenAI 发布工程报告《Harness Engineering: Leveraging Codex in an Agent-First World
3月24日,Anthropic 也发布针对 Harness Engineering 的研究博客

后面,这个词病毒式传播,大家都说 Claude Code 的 Agent 设计是 Harness Engineering 的典范。

总的来说:
Harness Engineering 是围绕 LLM 模型构建,并优化其持续运行过程的工程实践;它负责定义模型如何获取上下文、如何与工具和环境交互。更具体的内容还可以包括,定义模型如何被任务编排与状态管理、如何验证结果,以及如何长时间运行,从而把模型变成可稳定交付结果的 Agent。


可以从下面三层来理解:

通用 harness 层:和具体项目相对弱相关,属于 agent runtime / framework 能复用的部分。比如大多数 agent 都基于终端与环境交互,因此 tool loop 设计考虑了:权限系统、记忆、线程持久化、context compaction、hooks、任务调度、客户端协议。Agent CLI 大多是这一层。(“你在终端环境,你要基于这些工具完成任务”)
项目 harness 层:和具体项目 / 产品强相关,但仍然不是业务功能本身。比如 AGENTS.md、仓库知识布局、架构边界、lint 规则、质量标准、依赖选择原则、文档索引、设计参考、技术债追踪。OpenAI 文章的核心创新其实很大一部分都在这层。OpenAI 推荐把仓库变成整个系统的完整历史记录,并且分门别类,让 agent 能读到所有文档,但按照任务执行需要选择性的读取文档(渐进式披露),并基于这些充分的信息执行计划、遵守结构规则。(“做任务的时候要遵循这些规则,先这样再那样”)
任务/运行 harness 层:和当前这次具体工作强相关。比如 Anthropic 为了逼迫 Claude 生成特别有创意的好的产品,专门搞了两个模型对抗;为了持续执行,不遗漏任务点,设计了 planner 生成 spec、为了让 Claude 不要草率交付,设计了跨 session 文档交接、以及 QA prompt、Playwright 检查脚本。这一层涉及到具体工作部分了,但它仍然是在定义任务如何被执行与验证,不是任务具体内容本身。(说实话有些过于特定的设计意义不大,偏向于一通操作猛如虎,实际战绩 0/5)

三层由通用到最细枝末节,可以看作是不同切入点,但目的都是为了设计一个系统,给模型划定轨迹路线,让 Agent 执行任务的时候被 “稳稳地接住” 😂

个人观点:

通用 Harness 层其实已经在各大模型里面内置了,因为训练的时候已经是这样交互逻辑,大家用的时候已经习以为常了。(难道 Agent 能够不与终端交互,超出计算机范畴,从屏幕出来直接扇你一巴掌?)
OpenAI 的 Harness 最具参考价值,因为他的作用范围较广,在不同工程项目你都可以借鉴。并且最值得学习的点是:设计强制执行的检查控制 Agent 交付的产物。说白了就是测试或者代码风格检查器,但是其实效果特别好。
最后就是针对各个任务,细枝末节的板块你可以奇思妙想搞各种 Agent 搭配,组合,Handoff。但是 Harness Engineering 的目标是朝向 Agent 更高的自动化,更长的全自动工作时长,与人类随时随地过多介入是相悖的。

佬友们智慧与汗水的结晶(相关项目):

【通用 harness 层】Coding CLI 的实践(系列):深入浅出 Claude Code(一):从源码理解 CLAUDE.md,重写你的配置
【通用 harness 层】Multi-Agent,Human in the loop 非常新颖的实践: 【开源】强烈推荐管理 Codex/CC 的无限画布工具!
【通用 harness 层】Coding CLI 的实践(系列):【长期贴】 Claude-code-workflow(CCW) --使用技巧分享-自认为最工程化的harness workflow
【项目 harness 层】SPEC文档,依赖、分层代码检查与CI测试,Playwright端到端:【OpenASE】可以关掉你的 IDE 和终端了。聊几句,提几个工单,睡觉的时候也能交付代码
【项目 harness 层】帮助你形成自己的 SPEC: https://linux.do/t/topic/1445627
【任务/运行 harness 层】明确任务拆解,Sub-Agent Spawn,一句话,让 codex / claude code 创建成千上万个子agent

由此:harness 是互联网公司重新发明的新词还是有独特的创新之处?

6 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: BosaBosa)
【Deep Resarch心得分享】佬友们,闲鱼淘宝上三十多块一年的gemini官网的pro值得买吗?

看到有些类似的帖子,发这个帖子主要是想知晓更多佬使用gemini之类的心得,和购买建议,稳定性的完善。Gemini官网的Pro貌似就比aistudio的多了些使用次数和Deep Research,萌新求问有没有专业的佬分享下自己的使用心得?Deep Research的上限有多高?大家平时用来做些什么任务捏?

12 个帖子 - 8 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 遐蝶)
较容易获取信用卡的方式

我认知范围内只推荐招商银行,不要求社保,但是要求钉钉。这个相较于社保容易的多,比如大学生大四、大五实习、研究生一般都会有。还是兼职,一般长一点的兼职都会给,自己可以找找。其次不要填写自己学生,出门在外,身份都是自己给的。办卡人只会确认钉钉的姓名是不是你,其他不会去确认。其次不要用花呗等东西,用了你就别去办了,人家银行可以查到的,你要是用了,审核会严格的多。

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: NOEL_VERMILLION)
佬,请问使用sub2api的密钥,codex需要在本地电脑打开机场吗

每次使用codex,api登录,一直都全程打开机场,导致有的网站使用不了,请问不用打开机场可以用codex吗。佬

4 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 胡学长)
被claude code删除文档无力狂怒emo落泪后得后续补救

claude opus,我X你先人 搞七捻三
[image] 曹!!!!!!!!!!!!!!!!!!!!!!!

文件没能救回来。
草泥马!!!!!!!!!!!!!!!!!!!!!!!!!
千万不要没有隔离就开YOLO。
以下是一个补救hook,供参考。
准备延毕
 {
"hooks": {
"BashSubmit": {
"command": "bash",
"args": ["-c", "if echo \"$CLAUDE_BASH_COMMAND\" | grep -qE '\\brm\\b|\\bdel\\b|Remove-Item'; then echo
'[BLOCKED] 文件删除操作需要用户确认' >&2; exit 1; fi"]
}
}
}


1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 萨米沐浪)
opencode出新模型?

出新的模型了吗?这个是哪家的呀

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 胡哥)
网页端ai推荐(gpt,gemini,claude三选一)

想知道佬们如果用网页端ai的话,一般用的那家的呢.现在国外三家的都掉了,想搞一个稳定的网页端.
应该选择那一家呢,有什么好的渠道呢

6 个帖子 - 6 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: GeoSyntax)
AI为什么这么占C盘空间!!

😐️我用AI去做一些东西,但是过不了多久c盘就莫名其妙少好几十G,AI会有很多配置文件一系列的东西占内存,而且之前用的Cursor还有Claude留下的配置文件夹也不会删干净
想问一下佬们怎么管理自己的C盘空间的,包括C盘里一些奇奇怪怪的文件夹和火星文一样 🥲

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 素吟风)
分享一个能使用 VEO模型制作视频的接口

不知何时失效 速度蹬

api_url:http://156.67.29.80:8000

api_key:han1234

可用模型如下
gemini-2.5-flash-image-landscape
gemini-2.5-flash-image-portrait
gemini-3.0-pro-image-landscape
gemini-3.0-pro-image-portrait
gemini-3.0-pro-image-square
gemini-3.0-pro-image-four-three
gemini-3.0-pro-image-three-four
gemini-3.0-pro-image-landscape-2k
gemini-3.0-pro-image-portrait-2k
gemini-3.0-pro-image-square-2k
gemini-3.0-pro-image-four-three-2k
gemini-3.0-pro-image-three-four-2k
gemini-3.0-pro-image-landscape-4k
gemini-3.0-pro-image-portrait-4k
gemini-3.0-pro-image-square-4k
gemini-3.0-pro-image-four-three-4k
gemini-3.0-pro-image-three-four-4k
imagen-4.0-generate-preview-landscape
imagen-4.0-generate-preview-portrait
veo_2_1_fast_d_15_t2v_portrait
veo_2_1_fast_d_15_t2v_landscape
veo_2_0_t2v_portrait
veo_2_0_t2v_landscape
veo_2_1_fast_d_15_i2v_portrait
veo_2_1_fast_d_15_i2v_landscape
veo_2_0_i2v_portrait
veo_2_0_i2v_landscape
veo_3_1_t2v_fast_portrait_4k
veo_3_1_t2v_fast_4k
veo_3_1_t2v_fast_portrait_ultra_4k
veo_3_1_t2v_fast_ultra_4k
veo_3_1_t2v_fast_portrait_1080p
veo_3_1_t2v_fast_1080p
veo_3_1_t2v_fast_portrait_ultra_1080p
veo_3_1_t2v_fast_ultra_1080p
veo_3_1_i2v_s_fast_portrait_ultra_fl_4k
veo_3_1_i2v_s_fast_ultra_fl_4k
veo_3_1_i2v_s_fast_portrait_ultra_fl_1080p
veo_3_1_i2v_s_fast_ultra_fl_1080p
veo_3_1_r2v_fast_portrait_ultra_4k
veo_3_1_r2v_fast_ultra_4k
veo_3_1_r2v_fast_portrait_ultra_1080p
veo_3_1_r2v_fast_ultra_1080p

(祝我早日上2级)

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Jaky)
冰佬的邀请码1个 自取

91834277e7234bca8998df72f0804bbd 用了回复一下

码没有问题 😶‍🌫️
2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Scallions_)
抽一个GLaDOS 60天会员码

(话题已被作者删除)

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Merrick)