当写作不再需要“写”,你的思维才能真正获得自由。
你好,这是「AI 内容提效工具箱」系列内容之:免费语音写作工具。
我是大圆,专注「AI 内容提效」的实操经验与工具分享,欢迎关注。
go~
在豆瓣上,一位读者在评价剑飞老师的《语音写作》时话:
“我有很多话想说,但一坐到电脑前,就感觉被什么东西堵住了。”
这或许是所有被写作困扰的人的共同心声。我们的大脑在高速飞转,而手指却在键盘上蹒跚学步。
另一位读者在阅读粥左罗老师的《语音写作》时说:
“他用语音写作的方法,一天能轻松输出上万字,这彻底颠覆了我对写作效率的认知。”
这种惊人的效率反差,其根源正是一种被称为 “语音写作” 的创作方式。
它远不止是“用嘴打字”,而是一场关于思维、表达和效率的深度革命。
《语音写作》
根据剑飞老师和粥左罗老师的方法论与大量实践者的反馈,语音写作的核心价值,在于它精准地解决了传统写作中最深层的几个痛点:
1. 疏通思维堵塞
剑飞老师在书中指出,打字带来的停顿和修改,会不断打断思维的连续性。
语音写作则强制你保持流动的状态。
就像一位读者所形容的,它让你从“挤牙膏式的写作”变成了“开闸放水式的记录”。
当你不再纠结于某个词的精准,而是专注于将内在想法完整地讲述出来时,思维的阀门就被彻底打开,文字成为了思想的自然流淌。
2. 不要精致要高效
我们大多数人之所以写得慢、写得痛苦,是因为在写第一句时,就在用最后一句的标准来审判它。
粥左罗极力推崇语音写作,正是因为它践行了 “最低成本完成初稿” 这一核心理念。
一位实践者分享说:“语音写作让我学会了‘先完成一坨屎,再把它雕琢成艺术品’。”
这种方法让你坦然接受初稿的不完美,将创作过程清晰地分为“生产创意”和“打磨文本”两个阶段,效率由此呈指数级提升。
3. 知识内化与觉察
有趣的是,多位实践者在语音写作带来的最大惊喜并非效率,而是深刻的自我觉察。
剑飞的方法强调,说话的过程本身就是整理思路的过程。当你将自己的想法不加过滤地口述出来,你才能真正“听”到自己到底在想什么,从而理清模糊的概念,甚至发现潜藏的灵感。
这使写作从一种外部任务,转变为一种内化知识、自我对话的成长工具。
如果你也想试试《语音写作》,下一个关键问题就是:我该用什么工具?
工具分享
5年前,有个程序员不想写代码注释,就自己开发了款小工具:按住 Capslock 键,就能用语音快速写注释。
这款工具就是 CapsWriter,这些年我一直在用。
并且长期入驻我的 shell:startup
(Windows开机启动软件列表)。
上图:作者 2020 年的使用教程
这些年,语音写作的工具我大概测试过十来款,从最开始的语音输入法,到后来的AI 大模型语音转文字都用过。
进入正题,我们开始「AI 内容提效工具箱」系列之:
免费语音写作工具推荐
CapsWriter Offline
# CapsWriter-Offline(4.2K):
https://github.com/HaujetZhao/CapsWriter-Offline
# 图形界面包分支:
https://github.com/H1DDENADM1N/CapsWriter-Offline
CapsWriter 的作者后来又开发了一款基于本地开源模型的语音转文字软件,叫 CapsWriter-Offline。
之前的 CapsWriter 用的是阿里云这类平台的语音转文本服务,而离线版本的 CapsWriter-Offline 用的是本地开源服务,核心优势就是完全免费、速度快,还不用担心隐私泄露。
不过它的界面是两个黑色的命令框,非程序员用起来可能会觉得有点难接受。也有其他程序员帮忙把它打包成了安装程序,还加了翻译功能,另外也整合了各种离线模型。这款工具后来被很多程序员推荐,在网上能找到不少相关文章。
上图:命令行版本(可无感隐藏)
上图:打包界面版本
1. 绝对的隐私
CapsWriter Offline 的工作原理是利用你电脑本地的开源大模型进行语音识别。
你的所有录音,哪怕一个字,都不会离开你的电脑。
对于处理商业计划、私人日记或敏感材料的用户来说,这是无可替代的安心。
2. 快速的响应
它的工作模式是“长按快捷键说话,松开即刻出字”。
由于无需等待网络传输,其响应速度是三款中最快的,几乎在你话音刚落的瞬间,文字就已跃然屏上。
这种“零延迟”的爽快感,一旦习惯就无法回头。
3. 高度可定制
支持各种设置、快捷键,以及专有名词(中文、英文)的自定义,能满足你的个性化操作习惯。
比如你平时用语音输入专有名词时,可能会出现“open ai
”这样的情况,这时候只要把常用词自定义到词库里,它就会自动匹配成标准的“OpenAI
”。
再比如,只要说“毫安时
”,就会自动转成“mAh
”;说“二五八
”,自动转成数字“258
”(可开启或关闭)。
这个功能对写作时用到的行业专用名词特别有用。
比如你是化学老师,需要写各种化学名词;或者你是影视自媒体,需要用到各种影视篇名和角色名,这些都能提前保存好。
豆包桌面版
https://www.doubao.com/download/desktop
如果你在寻找一款无需折腾、开箱即用的现代解决方案,那么豆包桌面版无疑是你的首选。
1. 丝滑体验 不打扰
豆包桌面版并非一个单一的语音工具,而是一个功能强大的 AI 助手集合。
它内置的语音输入功能,好用,且不打扰。
不打扰这一点,是我觉得最好用的。
你只需在需要时,使用快捷键唤出一个悬浮的语音按钮,开始说话,文字便会几乎实时地出现在文本框里。
说完后,一个回车键,或一次复制粘贴,刚刚口述的整段文字就已经到了你的 Word、记事本、Obsidian、飞书或公众号后台编辑器里了。
如果只能把文本输入到它的自己的 AI 浏览器输入框里,那我就不会推荐了。
整个过程如行云流水,极大地减少了“操作感”,让你能完全沉浸在“诉说”的状态中。
2. 大厂出品 全免费
作为大厂出品(抖音旗下)的豆包,其稳定性和兼容性有保障,你无需担心插件冲突或突然停止维护的问题。
目前无需支付任何费用,即可享受高质量的语音转写服务。
3. 快速润色 自定义
使用豆包,你得到的不仅是一个语音转文字工具,而是一个集成了AI搜索、翻译、总结等功能的强大工作台。
比如我最常用的方式是,直接用豆包自带工具,把语音转文本的错别字进行修改和润色。
它的小工具支持自定义提示词,这点特别好用。
比如我只想改我写的内容里的错别字,就在提示词里明确约束;要是想让AI根据我讲的内容做大幅度润色修改,也能在提示词里加上相应要求。
如下图,我在工具栏里加了 4 个提示词,应对不同的修改场景:有时候是要对大段文章有个整体梳理,有时候就只是针对某一段话做错误修改。
豆包虽然写文章不咋地,但用它的小功能还是很丝滑的。
LazyTyper
https://lazytyper.com/zh
LazyTyper 走的是一条高度灵活和轻量化的路线。
软件本身非常小巧(小于 10 兆),不占系统资源。
它更像一个为你搭建好的脚手架,具体用什么材料(识别引擎),由你自己决定。
1. 自主可控 更灵活
LazyTyper 最大特点在于,你需要自己接入诸如火山引擎、ElevenLabs 等第三方语音识别服务的API。
这意味着你可以根据自己的预算和对识别准确率的要求,自由选择最适合你的服务商。
- 如果你需要中文语音识别率好的,可以选择火山引擎的豆包;
- 如果你想要对于代码变量名的格式化识别更好的,可以使用 ElevenLabs;
- Groq Whisper、Mistral、AssemblyAI 也各有所长,可以根据任务随时切换。
2. 反应时间 比较长
需要注意的一点是,由于其工作模式通常是“先完整录音,再统一发送识别”,因此它的响应速度是三款中最慢的。
你可能需要说完一整句话甚至一段话后,等待识别后才能看到文字输出,这对于追求思绪实时呈现的用户来说,体验上会打一些折扣。
3. 其他使用 小方法
LazyTyper 会把你说的每句话都记录下来,你不用一直开着它,只要在需要记录重要内容的时候启用,它就能当记事本使用。
综合对比
为了更直观,我们用一个表格来总结:
1/
如果你只想找一款能立刻提升写作效率的工具,请直接安装「豆包桌面版」。它是平衡了易用性、速度和功能的最佳选择。
2/
如果你非常看重数据隐私,或追求极致速度,并且不畏惧一点小折腾,「CapsWriter-Offline」 将给你带来无与伦比的爽快体验。
3/
如果你不想装大软件,且愿意自己配置API,「LazyTyper」 作为一个轻量级备选,能够满足你的基本需求。
结束
别再让打字束缚你的思维。
从现在开始,选择一款工具,开口诉说,让你的创作力如江河般奔流不息。
我是大圆,专注「AI 内容提效」的实操经验与工具分享,欢迎关注。
- 内容工具箱 免费分享
- 好用工具 推荐及教程
- AI实操经验 分享交流
如果你对「AI+视频/图文自动化」感兴趣,欢迎加个好友,一起学习。