linux.do
19.8K subscribers
49.9K photos
115 videos
57 files
135K links
linux.do最新话题和热议话题
Download Telegram
闲聊一下,说说自己最近对codex skills manus等一系列2025年下半年已经发生2026年将要发生的推断

主要是涉及到目前AI代理中出现的一个新特性,名为skills,该特性翻译为“技能”,主要是把一串规范和工具包装成可复用功能,让模型调用。但是就是基于这个特性,我突然发现这可能和今年下半年市场对agent产品热情熄灭、Manus被Meta收购(Manus自己也急着出售)有关。不知道我的推测是否合理,佬友可以听我讲述一番。

skills这项功能绝对是颠覆性的,在Claude推出它时大伙都低估了它的能力。第一是工具调用,Claude code等支持skills的AI代理本身就可以使用,Window、Linux终端持有的命令,执行的代码脚本例如.py、.sh脚本,而skills内部则是编写触发后内部的流程规划。而2025年下半年的模型基座能力提升,终于是触摸到长链路任务的复杂规划能力,skills本质就是规划任务能力的体现。skills中包含的各类情景,例如出现错误应该如何操作、获得响应应该如何返回、等待时长通过什么得知,这都是写在skills内部的。而且模型还会基于情景进行纠错,继续任务task的流程直至交付完善。

Manus急着卖大概率是发现市面上的确模型基座已经快具备长链路任务规划能力和情景纠错能力了,他们的工具本质上是个多Agent交互系统,基于上下文工程+文件系统+沙箱组成了一整套自循环场景,而skills也是一种自循环场景,两者在功能性上实际上是相同的。甚至skills在交付能力上更大于Manus,因为内部不需要那么多Agent反复迭代,导致长链路任务的幻觉,所以Manus这类产品已经被技术迭代了。大厂都不复刻Manus大概也是清晰地知道这类产品只是玩具,市场并不需要那么不稳定的工具。

另外就是我自己的感知,2026年开始模型厂商都会开始卷长链路的自动化流程任务,完全自动循环实现的落地交付,这种情形是最接近我们未来设想的AGI的愿景。只要通过想要的落地交付物,AI就能通过链路规划的任务自动实现结果的交付,通过基座强大的纠错机制,人类就可以放弃理解黑盒中的实际业务,只要知道开头和结尾就行。所以说Manus急着卖自己,2025年的下半年Manus的技术就已经属于落后的了。在Codex中的GPT5.2基座就已经有长链路规划和自动纠错能力,他们测试后恐慌的急着找出路,通用agent的这条路,终究是被模型厂商轻松超越了。

目前最大的恐慌就是下半年语言没啥优势了,2026年我推测真正富有架构能力且有认知结果推断能力的工程师才能活下去,再比较语言能力的强弱估计都没啥意义了。属于程序员的失业潮应该快了。我不敢想,只要自己想要,通过skills、流程分析、自动规划,加分支纠错,场景测试,最终落地,就能实现一个商业化的产品。我调试代码写代码干嘛呢?跳过中间直接落地,就像炼金术一样。

因为我推测skills的能力后,突然发现AI离操作现实应用也不远了。AI通过curl就可以触发接口,而现代互联网都是各种REST风格的API接口,只要得知这些接口内容就可以组合成一套链路复杂的任务流,去实现以前想都不敢想的能力,例如航空分析、商业化的调研。抓取一些被设有爬虫保护的网站,就算不知道这些接口,也可以通过chrome devtools、MCP浏览器工具去获取,甚至写playwright抓取页面元素。还有像数据库操作、Docker操作、SSH远程的服务器操作,这些只要能获得细节内容再编制成skills,就能实现自动化分析,产生实际想要的页面结果、实际的产品。

我现在愈发觉得skills就是一个产品,只是他们包裹在现在的Claude code、Codex等各类AI代理中。不在意中间流程只想知道交付,把skills包装成一个绘图工具,内部编写使用OpenAI格式或者Google格式,去访问对应的能实现功能的小香蕉api端点,剩下等待就是出图,把他包裹在一个Web页面上,它就是一个出图网站。业务流程的具体实现需要用到哪些代码,无非是工具链路需要给它一些实际情景:等待响应、获取返回、得到结果如何包装,以及一些编辑好的工具,这不都是写在skills里的吗?与其说是技能包,不如说就是打包的一整套交付流程。

如此强大的功能,都得益于GPT5.2那夸张的执行能力。在Codex里面GPT5.2甚至能工作22个小时不被阻断,持续性到交付。例如n8n之流,我看在2026年上半年就会迎来死亡。

7 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: ShiroEirin)

Invalid media: image
准备开发一个AI助理(助手)有什么好的想法可以说说

1.支持邮箱管理
2.信息渠道通知
3.能帮忙自动发帖
4.直接操控浏览器
5.能监控电脑屏幕
6.需要支持后台并发运行(类似于豆包手机)
7.对文件整理那些文件修改生成文档那些就不必多说了
8.自动对git连接进行docker部署 包括对项目请求
9.双mcp模式 有mcp接口 也可对接mcp
10.基于浏览器的自动化测试
11.能自己后台运行脚本curl等白名单命令

最重要的就是环境隔离大部分的我已经实现了
可以和大家说一下想法 其实软件实现非常之容易(skills+agent)

8 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: 诺河)
请求账户注销/封禁

如题,未找到自助注销账户的功能,请求管理注销/封禁

20 posts - 9 participants

Read full topic

via LINUX DO - 最新话题 (author: shinya)
问一下有没有佬推荐一下适合沉浸式翻译的 api 服务,中转站或者官方的都行

之前用 openrouter 的模型,感觉体验还可以,就是价格有点高,主要是都没有谷歌翻译那么快,所以有没有佬推荐一下自己在用的 api 服务 😃

3 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: Tooom)
今日米池双金,特此发帖庆祝

rt
对此,我只能说
spoiler
58 posts - 45 participants

Read full topic

via LINUX DO - 热门话题 (author: 欧阳淇淇)

Invalid media: image
1
今天领证啦~

山河万里,九载同行;执子之手,共赴朝夕。

144 posts - 144 participants

Read full topic

via LINUX DO - 热门话题 (author: smallmin)

Invalid media: image
如果 AI 图像生成 / 编辑被用来做恶...

看到了这个知乎帖子后有感…
https://zhuanlan.zhihu.com/p/1991118212100798067

简单总结一下,似乎是某个微博上的人发了和很多明星睡觉 / 干其他事的照片,去锤明星。

类似这样的东西。

我不知道这是不是真的,也不关心。但这样的图片可以 用 AI 生成吧?

拿 AI 生成的图片用作退款证据法律证据的事件,现在已经在发生了。
或许法庭可以未来不采用图片数据,商家可以不采信或是采用更严格的流程,但恶意的 AI 生成图片依旧可以发到公开平台引导舆论,进行造谣,抹黑…

----------------------

这样的问题有几种潜在的解决方案。

一种,是让 AI 图像生成模型不生成名人。这个方案随着开源图像生成模型的进展和微调技术的普及,已经失败了。反破限再强,也跟开源模型没啥关系。而且这只能保护名人… 如果是普通人被抹黑呢?被造谣呢?

另一种,是让 AI 模型生成的图自带水印,比如谷歌 nano banana 生成的模型自带隐形 SynthID 水印。但如果开源模型能够做出类似的效果,就有很多 AI 生成图像会没有水印。你不太可能在开源模型上强制加隐形水印,总有人能移除模型中添加水印的部分的。(连 LLM 权重中的反 nsfw 倾向都能给干掉的话,很难想象添加水印的部分会移除不掉)

我认为比较靠谱的,不是标识假的图片,而是标识真的图片。让手机/相机拍的图片有办法验证真实性和完整性。只能是手机厂商让照片自身有办法证明自己的完整性和真实性了。

不检测假的图片,只验证真的图片?反正你验证不了你是真的,我们就默认你是假的。

----------------------

简单研究了一下,发现已经有解决方案了?

有个叫 Content Authenticity Initiative (内容真实性倡议,CAI) 的东西,开发了一套开源的工具链,可以让图片证明自己的编辑历史,并且能够验证所有的图像编辑历史?

密码学,朋友

但这样的倡议,核心难点在拍摄设备的支持和相关工具的普及。大部分的普通人不会主动去使用这类工具,所以成功与否完全取决于手机和相机拍摄的照片是否自带类似功能。

这样的技术被应用到了小米 17 Ultra 的莱卡版… 普通版没有嘛?

虽然现在我们已经可以去下载 CAI 官方提供的相机应用直接尝试,也可以用他们提供的网站进行验证,但现在这个阶段,生态支持看起来似乎比较糟糕…

虽然合作伙伴写了很多,但谷歌没上桌,苹果没上桌,高通上桌了,但他们从 888 那代就上车了,现在怎么没水花呢?如果手机厂商没上桌,只能说这个倡议还有很长一段路要走呢…
verify.contentauthenticity.org

Content Credentials

Introducing the new standard for content authentication. Content Credentials provide deeper transparency into how content was created or edited.

----------------------

随着音频编辑模型的完善,同样的问题也会到音频和视频领域。这个 CAI 似乎也支持音频和视频?不过每个领域我们都要玩一遍这个流程?

4 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: timmm)

Invalid media:
image
image
image
image
image
image
image
记录一次晕厥的经历

如题,
中午空腹吃了很油腻的饭,那一家吃好几次了,于是乎,忍不住非要再去吃一次,然后下午没怎么喝水,吃的基本没怎么消化,到了晚上,胃胀,不出意外的窜西了,然后蹲了一小会感觉身体有点麻并且无力,回去又喝几口温水。这时候突然想到,网上有人催吐这种方法(高中同学也有过,不过我是第一次),于是去卫生间尝试催吐,说不定吐出来就好了,试了一两下没吐出来,干呕了点口水(猜测可能已经消化掉惹),这时候扶着墙,突然无力感加重,去洗漱,然后就开始了,开始视野发黑,呼吸困难,浑身无力,一直大口喘气,这时候我感觉到如果我闭上眼可能就真的见不到明天的太阳了,走出卫生间进入走廊,回我的宿舍,但是这时候已经视野全黑了基本啥也看不清(好像看到似神了 💀),全凭感觉摸门把手,不知道进入哪间屋子了(已经开始神志不清了),人家一直说我走错了,然后问原宿舍位置,最后扶着我送到宿舍门口,我推进门凭感觉摸到座位,趴下眯眼眯了半分钟,这时候才感觉状态逐渐好转,当时一直喘气,一直出汗,脸色苍白,感觉真的快要无了。 😨
网上查了下,貌似是消化不良的debuff加上蹲厕过久,然后又催吐影响神经引发大脑供血不足缺氧导致的状况,也可能是食物中毒叭(但是很久以前吃过几次感觉应该不会) 🫠
大概十分钟左右,脸色恢复些,去买了俩包子和一碗粥当晚餐。 😃
一小时左右后,胃不胀了,状态基本恢复至完全正常,很难想象一小时前还神志不清的走到别的寝室去了 😁
话说喝酒喝的烂醉是不是也是这种状态(没喝过酒) 🤨
各位佬要注意饮食和锻炼啊

3 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: qimao)
半夜被中转站api配置弄的睡不着

用的anyrouter和codex的中转站。然后为什么配置好了,只吃token,但不回消息呢
9 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: qiaoba)

Invalid media:
image
image
MiroThinker 给出的L站评价,你觉得中肯吗?

今天玩了一下MiroThinker
感觉调研起来蛮认真的

一次报告花了快半小时
最后给出的报告如下

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: josenlou)

Invalid media:
image
image
image
image
image
image
image
image
image
image
私信不回偷偷做嘛,你这家伙。。。

应该是前天的凌晨吧,我发了条私信,问了几个问题吧。然后第二天起来发现好像貌似没有回复,我以为没有下文了。

然后今天我上tg,看见了一个艾特,一看,好家伙,原来修复好了然后才艾特我哈哈哈哈,居然悄眯眯的闷头干,哈基xxx,你这家伙。。。。

只能说非常开心,不愧是老合作伙伴了 :distorted_face:

10 posts - 10 participants

Read full topic

via LINUX DO - 最新话题 (author: bohe)
新时代愚公移山+闭门造车

0代码基础 目前正在用Gemini写开发文档+cursor写一个维基类网站 不系统学习的原因是看黑马程序员十五分钟就开始困了 感觉不是自己想学的东西+没有实战感觉累计不到多巴胺 第一轮删库之前连个像样的字典都没有 现在正在被爬虫算法折磨 正在进行单元训练+人工纠错 感觉我自己才是被训练的那个 😭

10 posts - 7 participants

Read full topic

via LINUX DO - 最新话题 (author: Shubing39)
一个全免费的Nano Banana Pro站

刚刚找到的站点
目测没有任何付费端口
注册也只是多了图片是否公开的选项
有兴趣可以看看

Nano Banana Pro

Nano Banana Pro - Free AI Image Editor & Generator

Professional AI image editing and generation tool. Remove objects, change backgrounds, generate images from text - no login required, completely free.

6 posts - 6 participants

Read full topic

via LINUX DO - 最新话题 (author: josenlou)

Invalid media:
image
image
image
大模型的Thinking和Nothinking版本到底有多大差距?

如题,不太明白,这两者之间差距很大吗?

另外问一嘴大模型有统一的命名标准吗?看这个各种大模型各种名字眼花缭乱,有没有网站对这方面做科普的?

4 posts - 4 participants

Read full topic

via LINUX DO - 最新话题 (author: 球儿)
【抽奖】馒头邀请码 *5

抽奖主题: 馒头邀请码 *5

🏆️ 奖品详情:

[奖品1]:馒头邀请码

:three_o_clock: 活动时间:

时间:Mon, Jan 5, 2026 1:00 PM CST→Sat, Jan 10, 2026 1:00 PM CST

📝 参与方式:

在本帖下任意回复。(点个赞就更美好了)

🔍️ 抽奖规则:

每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。

⚠️ 注意事项:

本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后24小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。

期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Ummmmmm)
浅谈一次 cherry-studio 捉虫记录并浅谈它内置联网原理

看之前请为我点赞(我要LCD!)

最近因为 cherry-studio 内置的三大搜索(bing、baidu、google)过于难用于是我开启了捉虫行动。

大家都遇到过这种情况:在 cherry 里问 AI 一个问题然后它通过调用联网搜索的方式回答,但是很操蛋的是内置的三大搜索都几乎不可用,这太操蛋了。

我通过查阅 cherry 的源代码最终理解了为什么三大搜索这么难用,下面举例说明为什么难用

1. cherry 会将AI生成的查询关键词做一些可有可无的处理导致搜索范围变窄(我个人认为这是其中之一的原因,他们这样写肯定有自己的原因),比如会在搜索关键词前面插入当前的日期信息 today is 20**-**-** \r\n 后面插入用户的语言 lang: **** ,这就导致整个搜索关键词变得繁杂冗长,能搜到的内容自然变少了。
2. cherry 通过一个隐藏的窗口获取网页信息,但由于是隐藏的窗口导致加载出来的网页信息和正常的网页有非常大的差异。
3. cherry 获取网页源码的时机有点问题,在页面还有抖动的时候就尝试获取了,这导致有时候获取的是空内容

----------------------

好,那么如何解决呢?首先让我将一下 cherry 是如何搜索的吧。

cherry 负责搜索的模块在接受到 AI 生成的搜索关键词后会对关键词进行一定的处理,处理完成后会开启一个浏览器的窗口访问处理好的搜索链接,当页面加载完成后会获取整个网页内容传递给对应搜索的解析器进行数据提纯,完成这一切后浏览器窗口会将其关闭(当然由于是隐藏的所以你什么也看不见),这时候就完成了搜索,AI 就可以根据返回的内容输出答案。

问题就出现在开启浏览器的过程和获取源代码的时机上面,当我让 cherry 创建窗口获取网页源代码的时候获取的页面是这样的

但是在不显示窗口的情况下获取到的页面是这样的

这时候解决方法就呼之欲出了,这里引用我提交的pr说明
github.com/CherryHQ/cherry-studio

fix(SearchService): 通过启用离屏渲染并修改executeJavaScript执行时机修复bing、baidu、google无法获取搜索内容的bug。 这个bug是因为在electron中隐藏窗口时候获取的页面会与显示窗口时有差异导致的无法获取搜索内容,且原有的did-finish-load会导致窗口内网页的抖动,这进一步导致随机性的无法正常获取搜索内容。 我通过启动离屏渲染确保不显示窗口时页面内容和显示窗口时一致解决无法获取搜索内容的问题,并改用ready-to-show事件确保完全加载完成页面后再获取完整的页面dom,这样即可解决搜索的bug
mainTacKana:main
已打开 08:32PM - 05 Jan 26 UTC
TacKana
+7 -3
通过启用离屏渲染并修改executeJavaScript执行时机修复bing、baidu、google无法获取搜索内容的bug。

这个bug是因为在electron中隐藏窗口时候获取的页面会与显示窗口时有差异导致的无法获取搜索内容,且原有的did-finish-load会导致窗口内网页的抖动,这进一步导致随机性的无法正常获取搜索内容。

我通过启动离屏渲染确保不显示窗口时页面内容和显示窗口时一致解决无法获取搜索内容的问题,并改用ready-to-show事件确保完全加载完成页面后再获取完整的页面dom,这样即可解决搜索的bug

----------------------

最后贴一张修复后的使用效果图,使用内置 bing 搜索(要是能加载后面需要翻页的内容就好了)

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: Neo)

Invalid media:
image
image
image
云贵川西南等地有雨雪 华北黄淮等地的霾天气逐步减弱消散

摘要:

今天白天,全国降水较弱,华北南部至江南北部等地升温明显,浙江、福建、广东北部、广西东部等地出现4℃以上的降温。未来三天,青藏高原东部、西南地区和内蒙古东北部、东北地区等地有雨雪天气,关注对能源供应、设施农业、交通运输、人体健康的影响;江西、福建、广东、云南等地关注森林防火工作;今明日,华北中南部、黄淮、江淮等地关注霾天气对交通、人体健康的影响。

一、天气实况

全国降水较弱

今天白天,全国降水较弱,内蒙古中部、陕西北部等地部分地区出现弱降雪天气。05日14时较04日14时,浙江、福建、江西南部、广东北部、广西东部和南部等地出现4℃以上降温;华北南部、黄淮西部、江淮、江汉、江南北部和贵州、重庆等地出现明显升温。

二、重点天气预报

1.云贵川西南等地有雨雪

未来三天,青藏高原东部、四川盆地南部和西部、贵州中西部、云南东部和南部、广西西部等地有小雪(雨)或雨夹雪。另外,6日至7日,内蒙古东北部、黑龙江、吉林有小雪,局地中雪。

**2.**华北黄淮等地的霾天气逐步减弱消散

5日夜间,华北中南部、黄淮中东部、江淮等地有轻至中度霾,局地重度霾。6日,华北中西部、黄淮中部等地霾天气减弱。7日起,受冷空气影响,上述地区霾天气自北向南逐渐减弱消散。此后一周,全国大部地区大气扩散条件较好。

三、未来三天具体预报

**1月5日20时至6日20时,**新疆阿勒泰和西南部山区、内蒙古东部、黑龙江大部、西藏东南部、青海南部、山西中部、云南东北部等地部分地区有小雪或雨夹雪。四川盆地东南部、西南地区南部、广西西北部、台湾岛等地部分地区有小雨,其中,台湾岛东部等地部分地区有中雨。内蒙古中部、辽东半岛、甘肃西部、陕西北部、河南西部等地部分地区有5~6级风(见图1);渤海海峡有6~7级、阵风8级的偏西风,东海南部海域有6~7级、阵风8级的偏北风,台湾海峡、台湾以东洋面、北部湾、南海中部、东北部和南海西南部海域将有5~7级、阵风8级的偏北到东北风。

图1 全国降水量预报图(1月5日20时-6日20时)

**1月6日20时至7日20时,**新疆阿勒泰地区、黑龙江大部、吉林中东部、青海东南部、川西高原、云南东北部等地部分地区有小到中雪或雨夹雪。云南南部、贵州西部等地部分地区有小雨。内蒙古大部、甘肃西部、宁夏、陕西北部、东北地区大部等地有4~6级风(见图2);南海西南部海域有6~8级、阵风9级的东北风,渤海、渤海海峡有6~7级、阵风8级的偏北风。

图2 全国降水量预报图(1月6日20时-7日20时)

**1月7日20时至8日20时,**新疆阿勒泰地区、内蒙古东北部、黑龙江西部、川西高原、云南东北部等地部分地区有小雪或雨夹雪。云南中部、贵州西部等地部分地区有小雨。甘肃西部、宁夏、内蒙古大部、山西北部等地部分地区有4~6级风(见图3);南海西南部海域有6~8级、阵风9级的东北风,台湾海峡、台湾以东洋面、巴士海峡、南海东部和中西部海域有5~7级、阵风8级的东北风。

图3 全国降水量预报图(1月7日20时-8日20时)

**制作:**马秀梅 霍达 李坤玉 **签发:**陈博宇

天气预报_天气公报

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 42)

Invalid media:
image
image
image
吐槽:一年两度的PETS考试又崩了

正在刷PETS报名考试的网站,我和老婆2个人,她的报好了。我的提交时网站502了。
然后刚才还把我卡出来了,但是现在基本又处于一个不能用的状态。

PETS是公共英语等级考试,相当于社会版的四六级。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: K.Kang)
搞了个新的神经网络架构 Fielix,比 Transformer 学得快,分享一下

闲着没事搞了个神经网络架构,开源出来水一下

GitHub: GitHub - 1600822305/Fielix: A novel neural network architecture featuring Field Effect Propagation, Dynamic Topology, Spiral Memory, and Emergent Position Encoding. Achieves better learning efficiency than Transformer.

简单说就是用"场效应"替代注意力机制,实验下来学习效率比 Transformer 高不少:

实验结果 (27M 参数)

初始 Loss:Fielix 3.0 vs Transformer 7.9
最终 Loss:Fielix 1.66 vs Transformer 2.59
训练速度:慢 2x

缺点是训练慢 2 倍 😂

没精力继续优化了,感兴趣的大佬随便玩

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Fake)
想问一下有没有Claude Code的个人拼车呢?

想找一个 Claude Code的拼车现在还有车吗?

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Keith)
佬们可以帮忙找个账号嘛?

朋友给推荐的一个账号,说是只知道名字
日本的两个男的
好像叫
花臂凉太
可以帮忙找一下吗?
30ldc

3 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: leee)