superchat 是我写的一个实验性 chatbot,跑在 Emacs 里,接本地大模型。
老觉得它的回复特别缓慢,但没怎么发现。因为我一般是随口在里面问一句,然后就忙别的,等空了之后,再回头来看。
所以,我最近给它加了个 TTFT(首 token 时间)测量,想看看 LLM 响应速度到底怎么样。
第一个数字出来的时候我愣住了——首 token 要等 17 到 76 秒。
76 秒!够泡一杯手冲了,去一趟厕所,删 1000 行代码了!
第一反应是不是我的 Emacs 太慢了,加了几个观测函数,发现预处理只花了 0.008 秒。问题不在客户端
那肯定是 prompt 太长了。一查,164 到 596 tokens,3 到 7 条历史消息。也不长。
两个最大的嫌疑人都不对。我想了很久,决定还是再测一下 Ollama 真实的响应速度。
直接拿 curl 打 Ollama API,对比测试:
• think:true(默认) → TTFT 5.6 秒
• think:false → TTFT 0.31 秒
18 倍。qwen3.x 默认开 thinking,模型在 stream 之前把整条推理链跑完,在我这边看起来就是漫长的沉默。
修复只加了一行参数。修完之后同一场对话的 TTFT 降到了 2.78 到 2.95 秒。
但这整个过程让我想明白一件事。
如果我没有最开始加的那个打点,我可能现在还在怀疑 Emacs 太慢、prompt 太长、网络有问题。在完全错误的方向上消耗自己。
而这恰好是现在做 Agent 的人最缺的东西。
所有人都在讨论怎么让 Agent 更强——新的 model、新的 skill、新的工作流模式。但几乎没人问:**Agent 出了问题,你怎么知道它卡在哪?**
你的 Agent 烧了 200 万 token 完成一个任务,其中有多少是 thinking?有多少是 MCP 工具描述?有多少是重试?
你不知道。你只知道"好慢""好贵"。
Uber 刚把自己全年的 AI 预算在 4 个月内烧光。他们知道工程师的 token 花在哪吗?
Agent 需要更强的可观测性。
老觉得它的回复特别缓慢,但没怎么发现。因为我一般是随口在里面问一句,然后就忙别的,等空了之后,再回头来看。
所以,我最近给它加了个 TTFT(首 token 时间)测量,想看看 LLM 响应速度到底怎么样。
第一个数字出来的时候我愣住了——首 token 要等 17 到 76 秒。
76 秒!够泡一杯手冲了,去一趟厕所,删 1000 行代码了!
第一反应是不是我的 Emacs 太慢了,加了几个观测函数,发现预处理只花了 0.008 秒。问题不在客户端
那肯定是 prompt 太长了。一查,164 到 596 tokens,3 到 7 条历史消息。也不长。
两个最大的嫌疑人都不对。我想了很久,决定还是再测一下 Ollama 真实的响应速度。
直接拿 curl 打 Ollama API,对比测试:
• think:true(默认) → TTFT 5.6 秒
• think:false → TTFT 0.31 秒
18 倍。qwen3.x 默认开 thinking,模型在 stream 之前把整条推理链跑完,在我这边看起来就是漫长的沉默。
修复只加了一行参数。修完之后同一场对话的 TTFT 降到了 2.78 到 2.95 秒。
但这整个过程让我想明白一件事。
如果我没有最开始加的那个打点,我可能现在还在怀疑 Emacs 太慢、prompt 太长、网络有问题。在完全错误的方向上消耗自己。
而这恰好是现在做 Agent 的人最缺的东西。
所有人都在讨论怎么让 Agent 更强——新的 model、新的 skill、新的工作流模式。但几乎没人问:**Agent 出了问题,你怎么知道它卡在哪?**
你的 Agent 烧了 200 万 token 完成一个任务,其中有多少是 thinking?有多少是 MCP 工具描述?有多少是重试?
你不知道。你只知道"好慢""好贵"。
Uber 刚把自己全年的 AI 预算在 4 个月内烧光。他们知道工程师的 token 花在哪吗?
Agent 需要更强的可观测性。
Forwarded from Channel Help
飞机一键启动无需/注册/下载/绑卡
i8国际美女秀: @i8gjzbj
⚽️i8体育用户点击注册 i83511.vip
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡2
ShipAny 用户反馈,ShipAny Next 的性能非常强,在 Cloudflare Worker 运行速度比前两代 ShipAny 快十几倍。🥲
三代 ShipAny 在 Cloudflare 部署使用了不同的适配器👇
1. ShipAny One 用的是 next-on-pages
2. ShipAny Two 用的是 open-next
3. ShipAny Next 用的是 vinext
vinext 是 Cloudflare 官方推出的最新部署适配器,使用了 vite 来构建,部署产物更轻量,在 Cloudflare Worker 运行更快
ShipAny Next 是为 Agent Coding 而设计的 Agent-Native 开发框架,内测了一段时间,用过的都说好👍
等下周 ShipAny 官网重构上线后,再正式发布 ShipAny Next,免费给到 ShipAny Premium 用户
想提前尝试的朋友可以在这里获取:
https://shipany.ai/zh/templates/shipany-next
会员价 1.99 刀。
下周再来展开讲讲 ShipAny Next 的设计思路和实践技巧。✌️
三代 ShipAny 在 Cloudflare 部署使用了不同的适配器👇
1. ShipAny One 用的是 next-on-pages
2. ShipAny Two 用的是 open-next
3. ShipAny Next 用的是 vinext
vinext 是 Cloudflare 官方推出的最新部署适配器,使用了 vite 来构建,部署产物更轻量,在 Cloudflare Worker 运行更快
ShipAny Next 是为 Agent Coding 而设计的 Agent-Native 开发框架,内测了一段时间,用过的都说好👍
等下周 ShipAny 官网重构上线后,再正式发布 ShipAny Next,免费给到 ShipAny Premium 用户
想提前尝试的朋友可以在这里获取:
https://shipany.ai/zh/templates/shipany-next
会员价 1.99 刀。
下周再来展开讲讲 ShipAny Next 的设计思路和实践技巧。✌️
#出海运营秘籍👉@yunying23
俞浩要求员工全员拍短视频,很多人在吐槽。
但其实我很能理解,付费流量越来越贵了。
三只松鼠2025年营收101.89亿,净利润仅1.55亿,光流量费就13.12亿。
实体企业基本上都在为平台打工,苦啊。
小红书这个平台又愿意把免费流量给到小账号。所以很多老板通过小红书矩阵账号拿到了一定的结果。而追觅这个操作相当于员工矩阵,而且平台不太好封禁。
俞浩要求员工全员拍短视频,很多人在吐槽。
但其实我很能理解,付费流量越来越贵了。
三只松鼠2025年营收101.89亿,净利润仅1.55亿,光流量费就13.12亿。
实体企业基本上都在为平台打工,苦啊。
小红书这个平台又愿意把免费流量给到小账号。所以很多老板通过小红书矩阵账号拿到了一定的结果。而追觅这个操作相当于员工矩阵,而且平台不太好封禁。
#出海运营秘籍👉@yunying23
这几天我一直在问我的几个老师,比如没有持续更新的动力怎么办,有竞争对手压力怎么办,
不同的老师给了不同的建议
比如心理咨询师跟我说要保持空杯心态,一切都是学习;
商业老师给的建议目标导向,课题分离,赚钱就是赚钱;
谱姐给的建议是,创业又不是上幼稚园,难道还要人哄着你
我觉得人生确实是要多几个老师,
如果一直保持空杯心态,我知道我自己很容易自卑,太容易对自己不满意,也会影响到我输出;
如果课题分离,把赚钱就当作赚钱,我又会很容易陷入高ego,甲亢;
这两种心态一起砸向我,反而就达到了平衡
至于谱姐说 创业不是上幼儿园, 也真的说到我心里了。
有时候总是想要获得各种各样的帮助,并不是自己真的不会做,就是觉得身边有人帮的时候会不自觉有一些求助心里,实际上是把自己放在弱者地位
只有把自己当强者看,身边的一切才都可以为我主动所用。
这几天我一直在问我的几个老师,比如没有持续更新的动力怎么办,有竞争对手压力怎么办,
不同的老师给了不同的建议
比如心理咨询师跟我说要保持空杯心态,一切都是学习;
商业老师给的建议目标导向,课题分离,赚钱就是赚钱;
谱姐给的建议是,创业又不是上幼稚园,难道还要人哄着你
我觉得人生确实是要多几个老师,
如果一直保持空杯心态,我知道我自己很容易自卑,太容易对自己不满意,也会影响到我输出;
如果课题分离,把赚钱就当作赚钱,我又会很容易陷入高ego,甲亢;
这两种心态一起砸向我,反而就达到了平衡
至于谱姐说 创业不是上幼儿园, 也真的说到我心里了。
有时候总是想要获得各种各样的帮助,并不是自己真的不会做,就是觉得身边有人帮的时候会不自觉有一些求助心里,实际上是把自己放在弱者地位
只有把自己当强者看,身边的一切才都可以为我主动所用。