linux.do

【十倍速写作系列11】短语音输入法（如豆包） vs 长语音输入法（如SuperWhisper），该分道扬镳了

我从25年5月使用语音笔记到现在快一年了
在L站写了十倍速写作系列11篇文章
6月一个月录音80万字
现在每天散步手机录音2小时，每月录30万字左右
用过大部分的语音输入法：豆包，Spokenly，VoiceInk，SuperWhisper，LazyTyper，Typeless，WhisperFlow，智谱AutoGLM，CleverType等
用过大部分的语音笔记：VoiceNotes，闪电说，Tana语音等
这是根据2026新语音输入法，和老语音输入法的新功能，最新的实践感想
本文优缺点和评分，都是针对长笔记等长语音输入场景
如果你的场景是聊天等短语音，而不是大量使用几分钟到几十分钟的长语音，以下评分不适用
另外每个人体感本来就很主观，如果体感优缺点与我不同，感谢指正

语音输入法的两种分类

语音输入法分为两种，一种是用于聊天的短语音输入法（每次录几秒到几十秒），另一种是用于记录笔记的长语音输入法（每次录几分钟到几十分钟)。
这是两种完全不同的场景，对于大量使用笔记等长语音的用户，最好分别使用不同的输入法
抛开应用场景比功能，就是耍流氓
去年AI语音输入法刚出来，品种还很少，所以长短语音输入法还未分化，今年起，长短分化就很明显了
那么有没有一种输入法长短通吃呢，遗憾的是现在还没有
长语音输入法(如SuperWhisper)兼做短语音还凑合(就是慢)
短语音输入法(如豆包)兼长语音普遍很差

长短语音通用要求

免费或合理价格：
去除口头禅：
多端通用：最好iOS/安卓/Mac/Win端都有，且移植缩水不严重；尤其是收费软件，多端通用可以降低一半成本，同步设置，统一体验，
最好有键盘：拼音键盘 > 英文键盘 > 只有回车换行 > 没有任何按键

短语音输入法的要求

用途：聊天，搜索，大模型提问等短文场景
速度快：几秒上屏
实时上屏：不必等字都说完
历史记录不重要：数据丢失的问题在聊天场景中不是核心需求，丢了重说一遍即可。
例子：最好的是豆包输入法

长语音输入法的要求

用途：写笔记，写邮件，vibe coding等长文场景
润色模型，自定义提示词：长语音输入法必须具备大模型后期处理能力，对格式化输出和接口兼容性要求非常高。
意图表达：长文更注重意图表达，而不仅仅是逐字记录。
速度：要求相对较低，因为用户本来就是边录音边思考，识别需要十几秒到二十几秒，这段时间刚好可以用来整理后续思路。
历史记录：不能丢失数据和录音。
实时上屏不重要
vibe coding场景的特殊要求
对准确性要求极高：不宜出现错字，对专有词汇的识别要求很高。
对自定义提示词要求高：例如Claude Code对换行兼容性差，超过两行就看不见，要用提示词要求禁止换行
对自定义词典和词语替换功能的要求高：一些编程专有词汇，自定义词汇，AI容易识别错

语音笔记

缺点：语音笔记是笔记软件，不是输入法，只能在笔记软件里使用，不能用于聊天，其他笔记软件，Claude Code等，通用性差
例子：VoiceNotes，闪电说，Tana语音
本文主要讨论长语音输入法，不讨论语音笔记

Super Whisper⁵

作为长语音输入法5分
作为短语音输入法3分：速度慢

优点

识别率高：使用ElevenLabs的识别率是所有识别软件中最高的
大模型：可以选择Sonnet-4.6或GPT-5.2。
大模型选项相对丰富，支持自定义填写API，
但不支持推理模式，不过推理模式速度较慢，实用性也不高，所以这个缺点影响不大。
可以通过自定义提升，模拟Typeless的“意图输入法”
多端：支持Mac、Windows和iOS，iOS版和Windows版有所缩水，早期缩水严重，现在iOS和Mac版可以用elevenlabs-scribe+sonnet4.6，win
没有十分钟的时长限制：可以一直录
价格相对便宜：月费包含了大模型和ElevenLabs语音识别，不需要额外付费。
可以申请教育优惠6折，或者注册AppStore尼日利亚区ID，直接买就是6折
终身授权售价为$250。也可以叠加教育优惠$150，在国外软件里算是很低，但是尼区终身没有优惠

缺点

速度方面不算快：速度主要取决于模型，ElevenLabs加上后续大模型处理，较长的录音合计可能需要二十秒，短的也要十秒，即使只有一两句话也需要五六秒。
语音识别选项较少：只支持Whisper和ElevenLabs，不支持其他选项。
Win版缩水严重：没有elevenlabs-scribe，只能用Whisper

Spokenly⁴

作为长语音输入法4分
作为短语音输入法3分：速度慢

优点

自定义提示词：模拟Typeless的“意图输入法”
iOS/Mac都可以自定义API：其他大部分语音输入法不能自定义apikey

缺点

没有Windows版本：作者也没有推出Windows版的计划。
自定义apikey也未必比superwhisper的$5更便宜
会员方案：$10/月，不包含润色模型费用，没有学生/尼区/印区优惠，如果购买会员后再叠加润色费用，总价会达到SuperWhisper的2-3倍
自备Apikey方案：买elevenlabs$5会员=闲鱼¥20=$3，包含约15小时录音，录音量大的用户很可能不够。
无论是否购买会员，Spokenly都不包含润色功能的模型费用，用高级模型需要额外花钱，办法：免费蹭试用例如AIStudio gemini-3.1-flash-lite apikey(每天500次)
2025年我对Spokenly的排名是高于SuperWhisper的，但这个半年多，SuperWhisper在进步(支持elevenlabs-scribe，sonnet4.6)，Spokenly在退步(iOS自备apikey取消Soniox入口；录音中断时，不买会员不能重新识别，逼用户买会员；涨价)

Typeless³

作为长语音输入法3分：有10分钟限制，导致总丢录音
作为短语音输入法5分：速度快
算是长短最均衡的，但长短都不是第一
评测详见：【十倍速写作系列10】Typeless：不是另一个语音输入法，而是第一个意图输入法

优点

速度快：一般5s上屏，比其他带润色的输入法快一倍以上
iOS版有选区编辑功能：其他输入法都没有
意图输入法：不是逐字记录，而是识别用户意图，理论上所有可以自定义提示词的输入法都可以模拟这种效果

缺点

有十分钟的录音时长限制：录音到达十分钟时没有任何提示，系统会直接截断，录音时很少有人会一直盯着屏幕，所以很可能说了二十分钟，后面十分钟的内容根本没有被录下来。
输出格式无法自定义：Typeless有自己固定的格式，例如使用"1.“或”(a)"，首格缩进，这类标注方式，如果不喜欢这些格式，也无法更改。
末尾没有换行：连续录制两次或三次后，文字会直接粘连在一起，缺少段落分隔。
语音识别能力有限：Typeless 很可能使用的是 Whisper 模型，原生识别率肯定不如 ElevenLabs。
它似乎借助了大模型通过上下文来推断字词，因此表现出来的识别率看起来还不错，但猜测的成分比较重，有时候会瞎猜
价格偏贵：且必须按年付费。
月付价格高达$30，年付为$144，教育优惠，可以打对折，降至$72，尼区印区没有价格优惠

豆包²（作为长语音输入法）

作为长语音输入法2分：没历史记录，很容易丢录音
作为短语音输入法5分：我聊天/搜索/AI提问天天用
最好豆包+superwhisper或Typeless分场景使用

优点

免费，实时上屏，识别率高，速度快，有拼音键盘

缺点

口头禅去不彻底：
没有格式：分行，分段，插空行
没有润色：不能自定义提示词
丢录音：长录音录到一半可能因为进程被杀或跳转到其他对话，导致录音和文稿全部丢失，这种情况非常普遍。
在GPT或Gemini的APP里录音，内容最终是要成稿的，但口头禅多、不换行等问题都不适合直接用于成稿。
没有Win版

Gemini或ChatGPT自带的语音录入功能（作为长语音输入法）

做短语音输入法2分：没有豆包好用，而且仅能在ChatGPT/Gemini App里用，不能再其他App里用
做长语音输入法0分：完全没法用

缺点

识别率低：明显低于豆包，elevenlabs-scribe，提问词都是错的，AI有时候能发现错别字，有时候就被带偏了
不适合长录音：Gemini只要停顿就会自动上屏，ChatGPT只能录一次停了就不能再录

作为长语音输入法不及格的，不详细评价了

作为短语音输入法未必不及格

LazyTyper

优点：免费
缺点：无大模型润色，无自定义提示词，没有iOS/安卓版

WisprFlow

优点：有iOS/Mac/Win
缺点：听写模型弱(Whisper)，无自定义提示词，价格贵$15，学生$7.5

智谱输入法

优点：支持润色，免费，有Mac/Win版
缺点：识别率一般，没有iOS/安卓版

22 个帖子 - 15 位参与者

阅读完整话题

via LINUX DO - 热门话题 (author: dwqxq1)

45 views19:17