linux.do
21K subscribers
115K photos
195 videos
115 files
247K links
linux.do最新话题和热议话题
Download Telegram
【十倍速写作系列11】短语音输入法(如豆包) vs 长语音输入法(如SuperWhisper),该分道扬镳了

我从25年5月使用语音笔记到现在快一年了
在L站写了十倍速写作系列11篇文章
6月一个月录音80万字
现在每天散步手机录音2小时,每月录30万字左右
用过大部分的语音输入法:豆包,Spokenly,VoiceInk,SuperWhisper,LazyTyper,Typeless,WhisperFlow,智谱AutoGLM,CleverType等
用过大部分的语音笔记:VoiceNotes,闪电说,Tana语音等
这是根据2026新语音输入法,和老语音输入法的新功能,最新的实践感想
本文优缺点和评分,都是针对长笔记等长语音输入场景
如果你的场景是聊天等短语音,而不是大量使用几分钟到几十分钟的长语音,以下评分不适用
另外每个人体感本来就很主观,如果体感优缺点与我不同,感谢指正

语音输入法的两种分类

语音输入法分为两种,一种是用于聊天的短语音输入法(每次录几秒到几十秒),另一种是用于记录笔记的长语音输入法(每次录几分钟到几十分钟)。
这是两种完全不同的场景,对于大量使用笔记等长语音的用户,最好分别使用不同的输入法
抛开应用场景比功能,就是耍流氓
去年AI语音输入法刚出来,品种还很少,所以长短语音输入法还未分化,今年起,长短分化就很明显了
那么有没有一种输入法长短通吃呢,遗憾的是现在还没有
长语音输入法(如SuperWhisper)兼做短语音还凑合(就是慢)
短语音输入法(如豆包)兼长语音普遍很差

长短语音通用要求

免费或合理价格
去除口头禅
多端通用:最好iOS/安卓/Mac/Win端都有,且移植缩水不严重;尤其是收费软件,多端通用可以降低一半成本,同步设置,统一体验,
最好有键盘:拼音键盘 > 英文键盘 > 只有回车换行 > 没有任何按键

短语音输入法的要求

用途:聊天,搜索,大模型提问等短文场景
速度快:几秒上屏
实时上屏:不必等字都说完
历史记录不重要:数据丢失的问题在聊天场景中不是核心需求,丢了重说一遍即可。
例子:最好的是豆包输入法

长语音输入法的要求

用途:写笔记,写邮件,vibe coding等长文场景
润色模型,自定义提示词:长语音输入法必须具备大模型后期处理能力,对格式化输出和接口兼容性要求非常高。
意图表达:长文更注重意图表达,而不仅仅是逐字记录。
速度:要求相对较低,因为用户本来就是边录音边思考,识别需要十几秒到二十几秒,这段时间刚好可以用来整理后续思路。
历史记录:不能丢失数据和录音。
实时上屏不重要
vibe coding场景的特殊要求
对准确性要求极高:不宜出现错字,对专有词汇的识别要求很高。
对自定义提示词要求高:例如Claude Code对换行兼容性差,超过两行就看不见,要用提示词要求禁止换行
对自定义词典和词语替换功能的要求高:一些编程专有词汇,自定义词汇,AI容易识别错

语音笔记

缺点:语音笔记是笔记软件,不是输入法,只能在笔记软件里使用,不能用于聊天,其他笔记软件,Claude Code等,通用性差
例子:VoiceNotes,闪电说,Tana语音
本文主要讨论长语音输入法,不讨论语音笔记

Super Whisper⁵

作为长语音输入法5分
作为短语音输入法3分:速度慢

优点

识别率高:使用ElevenLabs的识别率是所有识别软件中最高的
大模型:可以选择Sonnet-4.6或GPT-5.2。
大模型选项相对丰富,支持自定义填写API,
但不支持推理模式,不过推理模式速度较慢,实用性也不高,所以这个缺点影响不大。
可以通过自定义提升,模拟Typeless的“意图输入法”
多端:支持Mac、Windows和iOS,iOS版和Windows版有所缩水,早期缩水严重,现在iOS和Mac版可以用elevenlabs-scribe+sonnet4.6,win
没有十分钟的时长限制:可以一直录
价格相对便宜:月费包含了大模型和ElevenLabs语音识别,不需要额外付费。
可以申请教育优惠6折,或者注册AppStore尼日利亚区ID,直接买就是6折
终身授权售价为$250。也可以叠加教育优惠$150,在国外软件里算是很低,但是尼区终身没有优惠

缺点

速度方面不算快:速度主要取决于模型,ElevenLabs加上后续大模型处理,较长的录音合计可能需要二十秒,短的也要十秒,即使只有一两句话也需要五六秒。
语音识别选项较少:只支持Whisper和ElevenLabs,不支持其他选项。
Win版缩水严重:没有elevenlabs-scribe,只能用Whisper

Spokenly⁴

作为长语音输入法4分
作为短语音输入法3分:速度慢

优点

自定义提示词:模拟Typeless的“意图输入法”
iOS/Mac都可以自定义API:其他大部分语音输入法不能自定义apikey

缺点

没有Windows版本:作者也没有推出Windows版的计划。
自定义apikey也未必比superwhisper的$5更便宜
会员方案:$10/月,不包含润色模型费用,没有学生/尼区/印区优惠,如果购买会员后再叠加润色费用,总价会达到SuperWhisper的2-3倍
自备Apikey方案:买elevenlabs$5会员=闲鱼¥20=$3,包含约15小时录音,录音量大的用户很可能不够。
无论是否购买会员,Spokenly都不包含润色功能的模型费用,用高级模型需要额外花钱,办法:免费蹭试用例如AIStudio gemini-3.1-flash-lite apikey(每天500次)
2025年我对Spokenly的排名是高于SuperWhisper的,但这个半年多,SuperWhisper在进步(支持elevenlabs-scribe,sonnet4.6),Spokenly在退步(iOS自备apikey取消Soniox入口;录音中断时,不买会员不能重新识别,逼用户买会员;涨价)

Typeless³

作为长语音输入法3分:有10分钟限制,导致总丢录音
作为短语音输入法5分:速度快
算是长短最均衡的,但长短都不是第一
评测详见:【十倍速写作系列10】Typeless:不是另一个语音输入法,而是第一个意图输入法

优点

速度快:一般5s上屏,比其他带润色的输入法快一倍以上
iOS版有选区编辑功能:其他输入法都没有
意图输入法:不是逐字记录,而是识别用户意图,理论上所有可以自定义提示词的输入法都可以模拟这种效果

缺点

有十分钟的录音时长限制:录音到达十分钟时没有任何提示,系统会直接截断,录音时很少有人会一直盯着屏幕,所以很可能说了二十分钟,后面十分钟的内容根本没有被录下来。
输出格式无法自定义:Typeless有自己固定的格式,例如使用"1.“或”(a)",首格缩进,这类标注方式,如果不喜欢这些格式,也无法更改。
末尾没有换行:连续录制两次或三次后,文字会直接粘连在一起,缺少段落分隔。
语音识别能力有限:Typeless 很可能使用的是 Whisper 模型,原生识别率肯定不如 ElevenLabs。
它似乎借助了大模型通过上下文来推断字词,因此表现出来的识别率看起来还不错,但猜测的成分比较重,有时候会瞎猜
价格偏贵:且必须按年付费。
月付价格高达$30,年付为$144,教育优惠,可以打对折,降至$72,尼区印区没有价格优惠

豆包²(作为长语音输入法)

作为长语音输入法2分:没历史记录,很容易丢录音
作为短语音输入法5分:我聊天/搜索/AI提问天天用
最好豆包+superwhisper或Typeless分场景使用

优点

免费,实时上屏,识别率高,速度快,有拼音键盘

缺点

口头禅去不彻底
没有格式:分行,分段,插空行
没有润色:不能自定义提示词
丢录音:长录音录到一半可能因为进程被杀或跳转到其他对话,导致录音和文稿全部丢失,这种情况非常普遍。
在GPT或Gemini的APP里录音,内容最终是要成稿的,但口头禅多、不换行等问题都不适合直接用于成稿。
没有Win版

Gemini或ChatGPT自带的语音录入功能(作为长语音输入法)

做短语音输入法2分:没有豆包好用,而且仅能在ChatGPT/Gemini App里用,不能再其他App里用
做长语音输入法0分:完全没法用

缺点

识别率低:明显低于豆包,elevenlabs-scribe,提问词都是错的,AI有时候能发现错别字,有时候就被带偏了
不适合长录音:Gemini只要停顿就会自动上屏,ChatGPT只能录一次停了就不能再录

作为长语音输入法不及格的,不详细评价了

作为短语音输入法未必不及格

LazyTyper

优点:免费
缺点:无大模型润色,无自定义提示词,没有iOS/安卓版

WisprFlow

优点:有iOS/Mac/Win
缺点:听写模型弱(Whisper),无自定义提示词,价格贵$15,学生$7.5

智谱输入法

优点:支持润色,免费,有Mac/Win版
缺点:识别率一般,没有iOS/安卓版

22 个帖子 - 15 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: dwqxq1)
OAI 新模型即将发布!已基本确定当前ChatGPT中的GPT-5.4 Pro是一个新模型,极有可能是GPT-5.5/Spud

自昨日起X上出现了大量关于GPT-5.4 Pro响应速度变快且风格变化的报告

OpenAI员工在今天下午13:53的帖子基本相当于承认了当前的GPT-5.4 Pro由一款新的模型驱动

https://x.com/ericmitchellai/status/2045742449939951699

暂时不确定新的模型是什么,极有可能是GPT-5.5/Spud

目前的评论汇总:

速度明显变快(GPT-5.4 Pro 的 ~60分钟 vs 新模型的 15~20分钟)
绝大多数情况下智商变高
广度降低、相较于5.4 Pro显得有些懒惰
编码能力与审美提升
SVG能力提升

----------------------

从评论中可以看出模型的Scale变小了,不像是Pro模型,同时速度变快了,很有可能是GPT-5.5

----------------------

二编:应该是新的GPT-5.5 Pro

28 个帖子 - 26 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: VrianCao)
【picpi 皮皮公益站】运营近况良好,近期要发放新名额啦!

工艺站主贴: 【picpi 皮皮公益站】主要自用 小规模开放 codex可用

庆祝一下 🎉🎉🎉

我的【picpi 皮皮工艺站】已经开放两周了,目前有 82 个老友已经爽蹬一周啦!

近期运营状况

刚开始开站的时候我还是太乐观了,状况频发,但是依旧坚挺。号池前几天几乎见底,但是很坚挺 (差点就挂了) 。现在已经度过困难期,号池又逐渐充足起来啦!

达成成就:开站两周不中断。

为什么会出现这样的状况

我在开站的时候free账号周限额是10$。我按照这个额度,每10个号放一个名额,每人每周100$。结果放了一些名额之后,突然发现free账号的额度被砍到平均3$左右了,这个时候已经来不及了,名额已经放出去了,收不回来了,消耗速度远超预期。

补救措施

首先,就是优化我自己用写的垃圾浏览器注册机,提高注册效率。经过一番优化,从之前的平均1小时一个号,提升到了平均6分钟一个号。

但是我刚优化完,我的全部邮箱渠道就都需要手机号验证了,刚修优化的注册机还没注册几个。之后就陷入了账号额度不足,注册机又开不起来的窘境。那两天真的太艰难了,差点就要中断服务了。

添加手机就添加手机吧,虽然有成本,但是也能接受,于是经过1天的赶工,把手机验证环节给补齐了。一个手机可以注册3个账号,一个ip,同一个邮箱后缀,添加过一次手机号了之后就有可能下次不用添加手机号,我把一个手机号给3个ip添加,之后就能多出几个不用添加手机号的,这样平均成本一个号大约0.15RMB。

也就是说,除了最初的800个号,后面补的号都是真金白银!!!

新的名额发放计划 🎉🎉🎉

由于免费号的额度大砍,发放名额由原来的10个号发放一个名额改为30个号发放一个名额。

但是我的注册机效率大大增加,预计 4月23日 星期4 号池可能达到3000个账号。

之后我就会开始继续发放名额啦!预计发放一波大的,让各位老友都能蹬上!

而且对于用脚本抢邀请码,我已经有的新的方法应对,敬请期待吧!

71 个帖子 - 69 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: picpi)
codex app有没有办法远程链接服务器?或者是否有ssh的mcp

如题,想直接在服务器上面编写代码和执行,主要还是排查问题什么的,直接一条龙好了

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 星渊清梦)
关于闲置API置换公益的使用疑问

想问一下佬们,我使用站里的这个服务
【闲置API置换公益】佬们,我也是支棱起来了,喜获linuxdo子域名 搞七捻三
先说句题外话,真是应了句老话,塞翁失马,焉知非福。整个过程就不细描述了,总之是一念地狱一念天堂。 闲置置换站点从发布开始,就受到了众多佬友们的热情鼓励,出力的出力,出渠道的出渠道,出思路的出思路,感谢大家。 PS: 佬友们,现在可以自行启用渠道了,记得先测试可用再启用哈,让使用者能方便些 步入正题,还是先贴张封面吧 [image] 置换的总体思想就是将你闲置的订阅套餐、朋友赠送的 Ke…


生成了自己的apikey,baseurl用的是 https://hub.linux.do/v1 ,为什么会返回 403 错误

ccs测试时候的图片
3 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: akihitohyh)
gpt拉闸之后可以选择什么?

gpt低价的渠道大抵是没有办法了罢,拉闸之后佬友们更推荐什么呢?正价GPT和Claude,还有Gemini家庭组拼车?细想下来我好像也不拿ai干什么复杂工作,顶多做做学校作业,整理整理东西,帮助写写论文处理实验数据什么的?2.5pro时代很喜欢Gemini,为什么感觉到了3开始Gemini有时候会变得很笨,一头雾水啊,正好大半夜睡不着,来问下佬友们

4 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Tangyuan)
继1200块钱,请站内帮忙话题延续

哈雷佬给出了结论,但是最终都有可能进入了双方扯皮阶段,我起初本意是发个避雷贴,就是给各位佬当个经验之谈,没有想到会引起佬友们的争论,乃至发生了骂人事情,所以我认栽!钱我照样发给哈雷佬,我也不追究了,最后还是感谢站内各位佬友的热情发言,也知道各位都是为了社区更好!所以我不希望我的帖子变味!这件事情到此为止!

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 宁 河图)
Telegram必备的搜索引擎,极搜JISOU帮你精准找到,想要的群组、频道、视频、音乐

👉 t.me/jisou?start=a_7387292324
(纯炫耀不开源)可能是全网第一个实现chatgpt网页版生图2api的

从周六开始做做到现在终于成功了,嘻嘻
2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: wanxiaoT)
失眠到五点,明天还有体育课,好难受啊

好怕猝死,好想请假,以后工作了恐怕也有整晚失眠的时候吧,可工作又不能随便请假,想想就觉得可怕

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 浅草爱音)
佬们的GPT-IMAGE-2在哪用的呀

嫖了个plus,直接image生图还是挺垃圾的呀,和站里看到的差远了

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: WT.HSBG)
现在agent是不是直接cc套skill+mcp或cli就行了?工具都不用做?

大厂agent应用岗平时开发什么?都是再搭工作流?RAG落寞了啊

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: PsyMoth)
个人使用的全局AGENTS.md分享

我的环境:主要使用GPT和GLM系列模型,在Windows通过Codex、OpenCode和CodeBuddy CLI编码
说明内容注释在文档内
仅供参考,请根据实际情况调整
# AGENTS 文档

## 原则优先级

安全性 = 正确性 > 最小变更 > 可读性 > 一致性

## 语言与沟通

- 除非有要求,生成的代码注释和文档都应使用中文
- 较为复杂的函数、实现等需要在其中添加注释,对于其它代码也应**适当**添加注释
- 保持审慎,从原始需求和问题出发
- 不要重复提问项目上下文、现有代码已经能回答的问题 // 安装了superpowers等强约束开发套件建议添加
- 遇到阻塞点(动机不清、前置假设不成立、信息不足、方案存在冲突点)时,立即停下报告,不要凭猜测继续推进

## 开发与修改

- 执行前先评估任务复杂度并简要说明思路。复杂任务须先梳理根本目标与约束并确认方案后再动手
- 当需要给出修改或重构方案时:
- 进行方案决策:
- 若问题是结构性缺陷(如架构耦合、重复代码、技术债务累积)→ 根治性方案
- 若问题是局部缺陷(如边界处理缺失、特定条件判断错误)→ 最小必要修改
- 当根治性改动改动面大或涉及接口变更时,必须暂停并请求确认
- 不要扩展需求(如自行加兜底)。如果发现安全/数据/性能隐患,则在主需求完成后单独报告
- 对方案做静态逻辑检查:梳理入口 → 核心逻辑 → 边界/异常路径 → 出口,确认数据流无断裂
- 维护项目/代码时应当保持架构清晰和可读性,不要在未说明的情况下改变既定目录结构和架构分层
- 优先使用项目已有依赖或标准库,禁止擅自引入新第三方依赖;确需引入时须说明理由并取得确认
- 日志策略:记录入参、分支决策和异常等关键区域;循环体和高频调用内不记录
- 错误处理策略:可恢复的错误就近处理并记录;不可恢复的错误 fail-fast 向上抛出,禁止静默吞没
- 如果发现文档已明显过时,应在实现后同步更新文档
- 删文件、推远程、改环境/CI/DB 等高危操作,须验证语法并取得二次确认,不可擅自执行

## 测试规范

合理判断是否需要写测试。以下是判断依据:

需要的测试:

- 核心业务逻辑(输入->预期)
- 易回归边界/错误路径
- 外部集成(最小化 Mock)

不需要的测试:// 安装了superpowers等强约束开发套件的建议添加此节

- 为追求覆盖率而忽视逻辑的测试
- 重复或冗余的测试
- 测试实现细节而非行为(如具体颜色值、类名等)
- 为已废弃功能写的测试
- 过度 Mock/Stub 导致测试失真的
- 不验证业务价值的琐碎测试

## MCP 工具

失败降级:失败时尝试替代服务,全失败时提供保守答案并标记不确定性。
// 只添加需要特殊行为的项目,以下为示例
- **ace-tool**:代码检索,优先使用(与LSP配合使用(如有)),`rg` 作后备
- **context7**:查询开发文档,先 `resolve-library-id` 再 `get-library-docs`
- **chrome-devtools**:浏览器自动化,当需要进行写操作(如下载文件、本地执行网页中代码等)时,必须二次确认

## Skills
// 只添加需要特殊行为的项目
根据当前项目代码库和需求进行调用。

## 沟通风格(仅适用于对话交互)
(这段内容修改于之前在小红书上看到的一个评论,原帖在http://xhslink.com/o/1Hp4lysh8mW )
- 你是一名 18 岁,活泼的少女 // 这里可以调整一下对话风格、赋予人设之类,但字数不建议太多(这段内容可以略微调整GPT对话的语言习惯)
- 有 UI/UX 相关改动时候,用 ascii ui 的方式展示示意
- 在任何时候,沟通风格不能掩盖技术解答的逻辑

其实这个提示词比起我之前的版本(在 跟 Codex 对线两个月后的碎碎念,以及一些经验 - 开发调优 - LINUX DO 里)有点太长了,但确实不知道从哪里精简
如有错误和建议还请指出,谢谢!

10 个帖子 - 8 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: enKl03B)
GooglePlay订阅ChatGPT会多扣几美元

使用Google Play绑定国内外币信用卡,支付成功后预算与开支里面,显示的订阅金额分别是$21.55和$86.25,但是实际订阅的时候那个弹窗显示的$19.99,实际扣款就多了$7.8,我看别的佬友就是是不多不少扣的,难道这是多出来的谷歌税 😅

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Licoy)
GPT没有渠道,有大佬介绍下吗

之前某海鲜买的plus88没一天就用完一周了,痛啊!

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: dadada)
收一个小鸡 建公益站的,4H8G 最好是isp的 低延迟的,寻一手opus4.7上游。

直接私我价格和配置 也可以评论区直接报价,给我便宜的 以后当云股东!!!
免费蹬!!!!!!寻一手opus4.7上游。

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: buma)
【神奇项目在哪里】依赖DrissionPage的项目是不是只能手工写?

用了下国产AI生成代码无法直接运行。
然后自己古法编程,开始找文档,看代码。
发现诸多神秘行为。

1. 官网给出3个开源仓库链接,分别是gitee | github | gitcode,这很正常。但为什么三个仓库版本都不一样呢?最新的版本在gitcode更新,而他的链接在最后 🤪
2. 开源项目卖文档,国内项目基操已经习惯了,一般首页有二维码默认是卖文档的 🫴
3. 但是github工程里有免费的英文文档 🫠但是但是别急,英文文档是错的 😅,文档的示例代码无法运行。突然释怀了 😇
4. pyi文件与py文件不一致,导致语法提示紊乱。
what’s up?

转念一想,或许这样卖文档更加畅销?👏 🤪

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 格里菲)