互联网从业者充电站
25.8K subscribers
22.2K photos
987 videos
819 files
13.4K links
互联网从业者专属
内容多为技术、产品、设计、运营等不同话题内容;
目标人群为程序员、设计师、产品经理、运营管理等不同职能。
投稿/合作: @inside1024_bot


内容来源网络
Download Telegram
浅谈这段时间开发 AI Agent 的局限性和难点

1:LLM + Tools 局限性:
- 常见场景:Chatbot 为主的(FuntionCall、MCP)
- 局限性:长链路的延迟和幻觉、多步骤的模型注意力有限、上下文受限、工具规模管理问题、Tools 与模型相互弱化。缺少记忆、规划、流程管理的能力,Agent 状态持久化开发成本高,单次 LLM 处理能力有限,多轮对话上下文太高

2:LLM + Tools + Memory(代表 langchainJS)
- 场景:存储用户对话和个人偏好、以及使用习惯等等个性化场景,成为用户的第二分身。
- 局限性:见第 1 点,缺少复杂流程链路的管理,比如某个节点出现问题、中断、循环问题(比如生成代码)、hunman介入,无法从原来的位置恢复,分支逻辑等等

3:LLM + Tools + Memory + workflow(代表 langgraphJS)
- 场景:类似于 Manus、Genspark 代表等等 Planing Agent
- 局限性:对上下文要求高,需要训练小模型,大量的工具维护与开发,对资源需求很高、还要设计复杂的 AgentState,需要贯穿整条workflow,可能还涉及子图,前后端协议

4:LLM + Tools + Memory + workflow + Protocol(Google Adk + A2A协议)
- 场景:富文本信息流(AI 每条消息可能有长文本、视频、图像、文件等)类似于 Manus、Genspark 信息流。
- 局限性:需要对接与设计 Agent 2 Agent 之间和 富文本 UI 的数据协议,特别是数据流的前后端的时序处理(细节特别多),复杂度和开发成本高,需要训练更多的数据来提升增强每一个环节的效果。

我个人认为第 4 点的难点在于对于复杂业务系统的实现,常见的是代码生成。需要具备指定场景的项目经验,构建架构和模板项目提供样板支撑,才能保证每次生成的效果非常好。且每次涉及Bug调整和修改都有可能进入死循环(参照 cursor / cline)

抛砖引玉,有限的经验分享
1
发现带电脑到咖啡馆办公的效率远远不如一个人安静的坐在家里,总感觉外面的环境太嘈杂了
刚发现 Vercel 另一个好东西 - waitUntil()。

简单来说,就是可以把异步执行的操作放在 waitUntil() 执行,这样既不影响响应的发送,又能在后台完成必须的操作。

想了一下,可应用的场景也不少,比如:
- 日志记录、邮件发送
- 立即响应支付网关 webhook,数据更新放waitUntil执行,因为立即响应了,就会减少重复触发事件的几率
- AI生成图片、视频耗时太长,其实也可以设计成异步的,在waitUntil里面调用第三方API
To C 产品,终究是用产品挣得用户心智;To B 产品,才需要持续不断地“搞定人”。

如果你做的是 To C 产品,且职位没到中管(什么是中管,阿里P10、字节4-2、腾讯总监、百度M3a)就有大量所谓搞定人的事,而不是做用户喜爱的产品、打磨好的用户体验、尝试优秀的技术选型和探索最强模型的能力边界,就足以证明,所在的组织已经在下坡路上了。

你要做的就是低功耗的提升自己,保护好自己的下属们,不要陷入到天天搞定人的深渊里。

爱搞定人,就别干互联网了。

互联网行业就是热爱极致的疯子们创造的。

他们最讨厌的事,就是需要搞定人才能苟活的平庸。
过去决定不了现在,是现在决定过去,你对过去的解读,这是你个人过去的唯一定义权。

你看待过去的角度和态度,才决定了真实的过去是什么。

钢炼的爱德华有卖过惨吗?火影的鸣人是不是应该比任何人都应该黑化?

现实中也一样,很多人有所谓痛苦的过去,依然坚定自己是一个成年人,努力成为自己想成为的人,对自己负责。

而不是张嘴就是原生家庭,童年教育,成长经历。

离开深渊的方式,只有往前走,一条路。
聊天记录是联系人的上下文
1
Shunyu Yao 的那篇《AI 的下半场》放在窗口一周了,刚刚读完…

我理解他核心想表达的意思是:AI 的上半场比拼的是模型与算法(谁能把 ImageNet、MMLU、HumanEval 的分数再抬 2 %,谁就是论文第一作者),下半场我们应该回到产品经理式的思维,该让 AI 去解决谁的、什么真实痛点,再倒推“怎样衡量真正的进步”

如果说上半场的 AI 是 Researcher 和 Engineer 驱动,下半场的 AI 可能就要看各位 PM 的了:如何连接效用与技术

但对 PM 的要求可能会比以往更高,比如能把宏大战略拆成“当下 AI 真能做、做了真有用”的最小切片,并用可量化的技术债清单驱动团队迭代

所以首先应该判断一个需求需要几级 AI 能力(L1-L5),再和团队讨论:我们今天稳定可落到哪一级,差的那几级成本多大,而不是得出粗暴的结论,能做和不能做

不过这个时候提出下半场,是不是说明沿着过去的技术路线收益真的放缓了啊 🤣

—————

题外话:之前大家以为 OpenAI 会一味追求 RL(强化学习),看 Shunyu 的分享看来人家很清楚 Pre-training 的 scaling law

"It turned out the most important part of RL might not even be the RL algorithm or environment, but the priors, which can be obtained in a way totally unrelated from RL.
事实证明,强化学习中最重要的部分可能甚至不是强化学习算法或环境,而是先验知识,而这些知识可以通过与强化学习完全无关的方式获得。"
播客付费会员的卖点,是购买后无需听播客😅
播客三大特点:很好玩,浪费时间,不挣钱
像极了A股
感谢陪伴。
有时候一个团队内部大家都不甚满意的细节设计,碍于资源和时间只能先上线,想着过段时间就把它改掉。结果还没来得及改呢,就被人一股脑不假思索的先抄上去了😂
按理说入行也15年了,对这样的事本应该没啥波澜。但想到新入行的年轻人们,只能接受这样的职业教育,在一次次领导们的“理性”决策中放弃思考,最终说服自己接受这种有毒的工作方式,很难真正成长起来。
我永远不会责怪一线干活的同学,但负责决策的老板们我是真的看不起你们,更大的权力意味着更大的责任,这样的做法对行业不好,对你所服务的组织更是有毒。伟大的产品不是靠抄人家的 bug 抄出来的,你好歹抄点 feature 啊。
Good artist borrow. Great artist steal. Bad artist copy.
互联网行业的大部分工作让人觉得抑郁的原因:离数据太近,离人太远
#自媒体运营频道 #@yunying23

打开想象力
思考你的领域该如何和AI结合
这个博主用Deepseek做了一个能够展示三视图的网站
虽然粗糙,但是够用
还有的博主做了点名系统
卖的都很好
卷需求而不是卷技术
👍3
Fg9bva2TvdAm8_S8kx_q8gUeSK-Pv3.png
281.1 KB
#自媒体运营频道 #@yunying23

小小庆祝一下
又帮一个做供应链的客户跑通了小红书电商
今年3月初开的新店,站内外0基础新品 新链0销量起手,截止到昨天日均Gmv 1万+💰

纯笔记带货,没花广告费,也没搭什么直播间,用最穷的方法见到这个小结果挺开心😄
#自媒体运营频道 #@yunying23

做运营最糊弄的搞法,就是把失败归因到不可证伪的东西上,最典型的就是所谓平台敏感词,流量没起来,就归因为里边有个死字,把死换成寄,还没起来,就说里面有个钱字,又换成米,以此类推,直到浑身打满了补丁,这种认知甚至默契地形成了一种共识。
就平台审核要是这个智商,也就别审了。

当然这里面也不都是运营蠢,有的就是工作智慧,这么一归因,编辑、后期、录音、脚本的饭碗全保住了。

领导也不懂,就这么信了。
民间都说 Windows 留有后门,直到官方以毫不掩饰的方式炸出来。
何同学99年的,今年26岁,这么说吧,如果让罗永浩在26岁的时候,能有何同学这样的名气,罗永浩被骂了,他会血洗所有骂他的人,说不定锤子手机都能做成功...

总体来说,还是何同学太温和了,想看到血流成河,怼吧怼起来
🤡5
#自媒体运营频道 #@yunying23

很多人不知道什么是郑州帮
这个笔记就很典型
谷歌免费一年Pro
开心嚎叫!!5月10号就给GPT Plus取关
4o的制图不及营销的效果 真的很烂
4