LinuxDo 新帖推送
182 subscribers
251K photos
313K links
Download Telegram
标题: 闲聊一下,说说自己最近对codex skills manus等一系列2025年下半年已经发生2026年将要发生的推断
作者: #ShiroEirin
板块: #搞七捻三
编号: 1409669
帖子: https://linux.do/t/topic/1409669
时间: 2026-01-06 02:34:47
摘要:
主要是涉及到目前AI代理中出现的一个新特性,名为skills,该特性翻译为“技能”,主要是把一串规范和工具包装成可复用功能,让模型调用。但是就是基于这个特性,我突然发现这可能和今年下半年市场对agent产品热情熄灭、Manus被Meta收购(Manus自己也急着出售)有关。不知道我的推测是否合理,佬友可以听我讲述一番。
skills这项功能绝对是颠覆性的,在Claude推出它时大伙都低估了它的能力。第一是工具调用,Claude code等支持skills的AI代理本身就可以使用,Window、Linux终端持有的命令,执行的代码脚本例如.py、.sh脚本,而skills内部则是编写触发后内部的流程规划。而2025年下半年的模型基座能力提升,终于是触摸到长链路任务的复杂规划能力,skills本质就是规划任务能力的体现。skills中包含的各类情景,例如出现错误应该如何操作、获得响应应该如何返回、等待时长通过什么得知,这都是写在skills内部的。而且模型还会基于情景进行纠错,继续任务task的流程直至交付完善。
Manus急着卖大概率是发现市面上的确模型基座已经快具备长链路任务规划能力和情景纠错能力了,他们的工具本质上是个多Agent交互系统,基于上下文工程+文件系统+沙箱组成了一整套自循环场景,而skills也是一种自循环场景,两者在功能性上实际上是相同的。甚至skills在交付能力上更大于Manus,因为内部不需要那么多Agent反复迭代,导致长链路任务的幻觉,所以Manus这类产品已经被技术迭代了。大厂都不复刻Manus大概也是清晰地知道这类产品只是玩具,市场并不需要那么不稳定的工具。
另外就是我自己的感知,2026年开始模型厂商都会开始卷长链路的自动化流程任务,完全自动循环实现的落地交付,这种情形是最接近我们未来设想的AGI的愿景。只要通过想要的落地交付物,AI就能通过链路规划的任务自动实现结果的交付,通过基座强大的纠错机制,人类就可以放弃理解黑盒中的实际业务,只要知道开头和结尾就行。所以说Manus急着卖自己,2025年的下半年Manus的技术就已经属于落后的了。在Codex中的GPT5.2基座就已经有长链路规划和自动纠错能力,他们测试后恐慌的急着找出路,通用agent的这条路,终究是被模型厂商轻松超越了。
目前最大的恐慌就是下半年语言没啥优势了,2026年我推测真正富有架构能力且有认知结果推断能力的工程师才能活下去,再比较语言能力的强弱估计都没啥意义了。属于程序员的失业潮应该快了。我不敢想,只要自己想要,通过skills、流程分析、自动规划,加分支纠错,场景测试,最终落地,就能实现一个商业化的产品。我调试代码写代码干嘛呢?跳过中间直接落地,就像炼金术一样。
因为我推测skills的能力后,突然发现AI离操作现实应用也不远了。AI通过curl就可以触发接口,而现代互联网都是各种REST风格的API接口,只要得知这些接口内容就可以组合成一套链路复杂的任务流,去实现以前想都不敢想的能力,例如航空分析、商业化的调研。抓取一些被设有爬虫保护的网站,就算不知道这些接口,也可以通过chrome devtools、MCP浏览器工具去获取,甚至写playwright抓取页面元素。还有像数据库操作、Docker操作、SSH远程的服务器操作,这些只要能获得细节内容再编制成skills,就能实现自动化分析,产生实际想要的页面结果、实际的产品。
我现在愈发觉得skills就是一个产品,只是他们包裹在现在的Claude code、Codex等各类AI代理中。不在意中间流程只想知道交付,把skills包装成一个绘图工具,内部编写使用OpenAI格式或者Google格式,去访问对应的能实现功能的小香蕉api端点,剩下等待就是出图,把他包裹在一个Web页面上,它就是一个出图网站。业务流程的具体实现需要用到哪些代码,无非是工具链路需要给它一些实际情景:等待响应、获取返回、得到结果如何包装,以及一些编辑好的工具,这不都是写在skills里的吗?与其说是技能包,不如说就是打包的一整套交付流程。
如此强大的功能,都得益于GPT5.2那夸张的执行能力。在Codex里面GPT5.2甚至能工作22个小时不被阻断,持续性到交付。例如n8n之流,我看在2026年上半年就会迎来死亡。
标题: 准备开发一个AI助理(助手)有什么好的想法可以说说
作者: #诺河
板块: #开发调优
编号: 1409671
帖子: https://linux.do/t/topic/1409671
时间: 2026-01-06 02:41:05
摘要:
1.支持邮箱管理
2.信息渠道通知
3.能帮忙自动发帖
4.直接操控浏览器
5.能监控电脑屏幕
6.需要支持后台并发运行(类似于豆包手机)
7.对文件整理那些文件修改生成文档那些就不必多说了
8.自动对git连接进行docker部署 包括对项目请求
9.双mcp模式 有mcp接口 也可对接mcp
10.基于浏览器的自动化测试
11.能自己后台运行脚本curl等白名单命令
最重要的就是环境隔离大部分的我已经实现了
可以和大家说一下想法 其实软件实现非常之容易(skills+agent)
标题: 请求账户注销/封禁
作者: #shinya
板块: #运营反馈
编号: 1409672
帖子: https://linux.do/t/topic/1409672
时间: 2026-01-06 02:43:40
摘要:
如题,未找到自助注销账户的功能,请求管理注销/封禁
标题: 问一下有没有佬推荐一下适合沉浸式翻译的 api 服务,中转站或者官方的都行
作者: #Tooom
板块: #搞七捻三
编号: 1409675
帖子: https://linux.do/t/topic/1409675
时间: 2026-01-06 02:51:04
摘要:
之前用 openrouter 的模型,感觉体验还可以,就是价格有点高,主要是都没有谷歌翻译那么快,所以有没有佬推荐一下自己在用的 api 服务
标题: 如果 AI 图像生成 / 编辑被用来做恶...
作者: #timmm
板块: #搞七捻三
编号: 1409681
帖子: https://linux.do/t/topic/1409681
时间: 2026-01-06 03:04:30
摘要:
看到了这个知乎帖子后有感…
https://zhuanlan.zhihu.com/p/1991118212100798067
简单总结一下,似乎是某个微博上的人发了和很多明星睡觉 / 干其他事的照片,去锤明星。
类似这样的东西。

我不知道这是不是真的,也不关心。但这样的图片可以 用 AI 生成吧?
拿 AI 生成的图片用作退款证据或法律证据的事件,现在已经在发生了。
或许法庭可以未来不采用图片数据,商家可以不采信或是采用更严格的流程,但恶意的 AI 生成图片依旧可以发到公开平台引导舆论,进行造谣,抹黑…

这样的问题有几种潜在的解决方案。
一种,是让 AI 图像生成模型不生成名人。这个方案随着开源图像生成模型的进展和微调技术的普及,已经失败了。反破限再强,也跟开源模型没啥关系。而且这只能保护名人… 如果是普通人被抹黑呢?被造谣呢?
另一种,是让 AI 模型生成的图自带水印,比如谷歌 nano banana 生成的模型自带隐形 SynthID 水印。但如果开源模型能够做出类似的效果,就有很多 AI 生成图像会没有水印。你不太可能在开源模型上强制加隐形水印,总有人能移除模型中添加水印的部分的。(连 LLM 权重中的反 nsfw 倾向都能给干掉的话,很难想象添加水印的部分会移除不掉)
我认为比较靠谱的,不是标识假的图片,而是标识真的图片。让手机/相机拍的图片有办法验证真实性和完整性。只能是手机厂商让照片自身有办法证明自己的完整性和真实性了。
不检测假的图片,只验证真的图片?反正你验证不了你是真的,我们就默认你是假的。

简单研究了一下,发现已经有解决方案了?
有个叫 Content Authenticity Initiative (内容真实性倡议,CAI) 的东西,开发了一套开源的工具链,可以让图片证明自己的编辑历史,并且能够验证所有的图像编辑历史?
密码学,朋友


但这样的倡议,核心难点在拍摄设备的支持和相关工具的普及。大部分的普通人不会主动去使用这类工具,所以成功与否完全取决于手机和相机拍摄的照片是否自带类似功能。
这样的技术被应用到了小米 1
标题: 记录一次晕厥的经历
作者: #qimao
板块: #搞七捻三
编号: 1409686
帖子: https://linux.do/t/topic/1409686
时间: 2026-01-06 03:12:40
摘要:
如题,
中午空腹吃了很油腻的饭,那一家吃好几次了,于是乎,忍不住非要再去吃一次,然后下午没怎么喝水,吃的基本没怎么消化,到了晚上,胃胀,不出意外的窜西了,然后蹲了一小会感觉身体有点麻并且无力,回去又喝几口温水。这时候突然想到,网上有人催吐这种方法(高中同学也有过,不过我是第一次),于是去卫生间尝试催吐,说不定吐出来就好了,试了一两下没吐出来,干呕了点口水(猜测可能已经消化掉惹),这时候扶着墙,突然无力感加重,去洗漱,然后就开始了,开始视野发黑,呼吸困难,浑身无力,一直大口喘气,这时候我感觉到如果我闭上眼可能就真的见不到明天的太阳了,走出卫生间进入走廊,回我的宿舍,但是这时候已经视野全黑了基本啥也看不清(好像看到似神了 ),全凭感觉摸门把手,不知道进入哪间屋子了(已经开始神志不清了),人家一直说我走错了,然后问原宿舍位置,最后扶着我送到宿舍门口,我推进门凭感觉摸到座位,趴下眯眼眯了半分钟,这时候才感觉状态逐渐好转,当时一直喘气,一直出汗,脸色苍白,感觉真的快要无了。
网上查了下,貌似是消化不良的debuff加上蹲厕过久,然后又催吐影响神经引发大脑供血不足缺氧导致的状况,也可能是食物中毒叭(但是很久以前吃过几次感觉应该不会)
大概十分钟左右,脸色恢复些,去买了俩包子和一碗粥当晚餐。
一小时左右后,胃不胀了,状态基本恢复至完全正常,很难想象一小时前还神志不清的走到别的寝室去了
话说喝酒喝的烂醉是不是也是这种状态(没喝过酒)
各位佬要注意饮食和锻炼啊
标题: 半夜被中转站api配置弄的睡不着
作者: #qiaoba
板块: #开发调优
编号: 1409689
帖子: https://linux.do/t/topic/1409689
时间: 2026-01-06 03:20:52
摘要:
用的anyrouter和codex的中转站。然后为什么配置好了,只吃token,但不回消息呢
标题: MiroThinker 给出的L站评价,你觉得中肯吗?
作者: #josenlou
板块: #搞七捻三
编号: 1409690
帖子: https://linux.do/t/topic/1409690
时间: 2026-01-06 03:23:42
摘要:
今天玩了一下MiroThinker
感觉调研起来蛮认真的
一次报告花了快半小时
最后给出的报告如下