首页 网友热议 AI语音输入法 正在偷偷挤走键盘

AI语音输入法 正在偷偷挤走键盘

如果几年前有人跟我说,「你以后写稿可能不怎么需要键盘了」,我大概会把这句话当成一句玩笑。那时候我正处在对机械键盘的迷恋期,研究轴体、键帽、键程,购入过 Cherry、Filco、N…

如果几年前有人跟我说,「你以后写稿可能不怎么需要键盘了」,我大概会把这句话当成一句玩笑。那时候我正处在对机械键盘的迷恋期,研究轴体、键帽、键程,购入过 Cherry、Filco、NiZ、Keychron、3D 打印分体式键盘。 甚至为了提高打字效率,专门学习过双拼输入法 

我的注意力都放在消费的快感上,很少认真想过这样一个问题:

敲键盘,真的是输入的最优解吗?

真正的转折,其实发生在我开始高频使用各种 AI App 的这两年。

第一次真正觉得「语音输入这件事好像值得重视」,是各个 AI App 里那个「语音转文字」按钮变得越来越好用的时候。这些 App 里的语音转写,明显比传统输入法里的语音要聪明得多:它不仅能听清我在说什么,还能自动加上标点,帮我把一些口语化的表达整理得比较书面,甚至在我说得磕磕绊绊的时候,最后呈现出来的那一段文字读起来仍然是顺的。

AI语音输入法 正在偷偷挤走键盘

主流的 AI 几乎都覆盖了语音转文字功能|图片来源:极客公园

更关键的是,它和后面的 AI 是连在一起的——我说完一句话,看到的不只是干巴巴的转写结果,而是 AI 根据这段话给我的反馈和回答。那一刻我第一次有了一个直观的感受: 语音不再只是一个「替代键盘的输入方式」,而是直接接在 AI 交互前面的那一层 

第二个真正改变我看法的,是我在和 AI 打交道的过程中,越来越清楚地意识到:语音比打字流畅得多。

和真人聊天不同,和 AI 交互时,我可以不管错别字、不管格式;也不需要一上来就组织成一段「体面」的文字;甚至可以中途换一个角度,AI 依然能跟得上。

持续一段时间之后,我发现一个很直观的变化:在越来越多的场景里,我不再想「敲一段字问它」,而是更想「按住麦克风直接说」。

01 Typeless 初体验:🆘,它真的听得懂我在说什么

我开始尝试一些语音输入法。

Wispr 算是其中名气最大的一个,但真正用下来,其实很难令人满意。它的转录速度略显拖沓,会有一个较为尴尬的等待时间;中文识别的准确率也算不上理想,尤其是遇到一些专有名词或者中英文混排的场景,经常需要手动修补。

闪电说(原名:代体)走的是本地小模型路线,它几乎把「速度」做到了极致,转写过程几乎是「你刚说完,字就出来了」,而且完全免费。这种即时反馈在一开始确实给人非常强烈的爽感,第一次有了「手跟上脑子」的感觉。

但是也因为本地小模型的原因,它在准确率上就差强人意了。比如中英文混排、技术名词夹杂口语、或者我说话节奏稍微快一点的时候,错误率会明显上升。

我还尝试过一些其他的语音输入法,包括豆包输入法(iOS 端)、微信输入法、Whisper Keyboard,甚至是苹果听写(因为更原生),但它们或多或少都因为一些问题而无法让人完全满意。

最后, 我就注意到了 Typeless,并且最终常驻在了我的电脑中 

AI语音输入法 正在偷偷挤走键盘

我之前曾经简单测试过各个语音输入法,并做了一张四象限图。Typeless 处于第二象限:速度中上,但文字的质量最高。|图片来源:极客公园

如果和之前试过的那些工具相比,Typeless 带来的改变并不在于「速度快了一两秒」,而是在于 它大幅降低了出错和返工的成本 

很多语音输入法的问题根本不在于转录的速度,而是它无法正确识别说话人的意图,只要一两个词识别错了,你就不得不打断思路,回到文字里一点一点修改,整段体验非常脆弱。

Typeless 给我的感觉刚好相反:它似乎真的理解「你想说什么」,而不是「你每个字到底是怎么说的」。哪怕我中途改口、补充、打断自己,它也会尽量在结果里帮我拼出一个完整的、读起来顺畅的版本。

最直观的改变是:我不需要再刻意凑近话筒了。为了更顺畅地和 AI 交互,我之前特地买了一个麦克风放在显示器左侧。因为输入法经常识别不准,我总怀疑是不是距离太远,于是下意识地把头歪向麦克风。

但现在,这种习惯已经自然消失了。

AI语音输入法 正在偷偷挤走键盘

为了不遮挡屏幕,麦克风位于屏幕左侧,因此距离会稍远一些。

这些「理解意图」的能力,在具体功能上体现得很直观。比如说,我随口一句「My shopping list, bananas, oat milk, dark chocolate」,在 Typeless 里看到的,不是一串用逗号隔开的原话,而是自动帮我排好的一份购物清单:前面有标题,下面是 1、2、3 的编号列表。

AI语音输入法 正在偷偷挤走键盘

Typeless 可以把语音转换成带格式的文字|图片来源:极客公园

又比如,我在 Gmail 里选中一段略显随意的英文邮件,只需要对着 Typeless 说一句「Turn it into a professional email」,它会在原地把那段话改写成一封语气、结构都更正式的邮件正文。

AI语音输入法 正在偷偷挤走键盘

Typeless 可以把文字重写成邮件格式

再比如,我复制了一段日文介绍到屏幕下半部分,对着 Typeless 说「翻译成中文」,它会在几秒钟之内给出一段顺滑自然的译文——不是逐字直译,而是能读得进去的那种中文。

AI语音输入法 正在偷偷挤走键盘

Typeless 可以翻译选中的文字

更有意思的一点,是它会根据你当前使用的 App 自动调整语气。如果我在聊天软件里,对它说话可以非常随意,出来的结果也会刻意保留这种口语感;但在工作场景 App 里,Typeless 给出来的文字就会明显正式很多,标点更规整。

AI语音输入法 正在偷偷挤走键盘

根据不同 App 的上下文语境,Typeless 会调整说话的语气

如果站在技术路线的角度看,这个转变背后其实是从传统 ASR 到大语言模型的变化。过去的语音输入,核心任务是识别——把声音转成文字,最好一个字不差。

而现在,大模型可以在同一个流程里同时做识别和理解: 它不只在「听你说什么」,更在「猜你想表达什么」 。实际的直观感受就是:以前我说话的时候要照顾机器,现在更多是机器在试图适应我的表达习惯。我会明显感觉到,Typeless 并不是简单地把我的每一句话「抄」下来,而是连着前后的上下文,一起去判断这段话应该长成什么样。

正因为有这一层模型能力和「语气感知」的变化,Typeless 在我的日常工作流程里,很快就从「可以试一试的新玩具」,变成了一个真正可以排在键盘旁边的位置。

以前我总觉得自己是在「用语音替代打字」,现在回过头来看,这种替代关系反而调转过来了: 键盘更像是一个用来收尾和微调的工具,而大段的内容输入,已经可以放心交给语音和 Typeless 

02 几乎没有「缺点」,但有三点担忧

如果单纯从「工具好不好用」这个角度来评价,Typeless 在我这儿其实很难挑出什么硬伤。识别足够稳,意图理解在绝大多数场景下靠谱,桌面端集成顺滑,免费额度对个人用户来说也够用(每周 4000 词)。

AI语音输入法 正在偷偷挤走键盘

在使用 Typeless 的 20 天中,我总共输入了接近 8000 词,平均每天 200 词

真正令人担心的地方,反而不在产品本身,而在它所处的环境。

第一个担忧是大公司的入场。当你把 Typeless 当成日常工作的核心输入层时,很难不去想象另外一种可能性:如果哪一天,操作系统自己提供了一套同样水准、甚至更强的语音输入能力,而且是系统级的、无处不在的,那我还有多少理由坚持使用一个第三方工具?

从历史上看,很多优秀的第三方工具,最终都被系统抄到一个「八十分好用」的程度,然后慢慢失去了存在感。语音输入这件事,也很有可能走到同样的节点。 例如字节跳动就推出了体验非常优秀的豆包输入法,加之最近讨论很热烈的豆包手机,这种情况是很有可能在不久的将来发生 

第二个担忧是免费本地模型阵营的持续挤压。闪电说这样的工具,哪怕今天体验不算完美,但它不断提醒用户一件事:语音识别其实可以在本地设备上完成,而且零成本。随着硬件继续演进、本地模型持续变强,这一阵营的体验只会越来越好, 用户对「语音转文字这件事本身应该是免费的」这种预期,很难完全逆转 

Typeless 目前用更高的免费额度和更好的整体体验,在一定程度上对冲了这种心理落差,但长远来看,它仍然要回答一个问题:在一个「到处都是不错的免费方案」的世界里,它能一直给用户什么额外的价值,让那 12 美元每个月看起来是值得的。

AI语音输入法 正在偷偷挤走键盘

Typeless的付费套餐为每月12美元,提供无限次的转录|图片来源:Typeless 官网

第三个不算「担忧」,更像是现实的约束,就是 iOS 端的体验。因为 iOS 的系统限制,使用 Typeless 必须跳转 App,这在使用体验上是非常致命的打击。Typeless 想出的应对方案是让麦克风在后台常驻,但这同时又会带来隐私和功耗的问题。

这些问题不是 Typeless 一家可以独自解决的,它需要的是操作系统本身的配合。而这又回到了第一个问题:一旦像苹果这种系统级别的厂商跟进,打击将是致命的。

03 键盘,会被取代到什么程度

回头看这几年自己折腾输入工具的历程,我越来越强烈地意识到一个事实:我们过去为键盘付出的那些努力,很大一部分是在帮一套并不那么「顺手」的设计擦屁股。

QWERTY 布局本身并不是为了人体工学而生,它诞生于机械打字机时代,核心目的是降低卡纸、让金属字杆别那么容易打结。为了照顾机器,我们刻意牺牲了一部分人的效率,然后再用盲打训练、打字课和大量练习,把这种妥协牢牢刻进自己的肌肉记忆里。

AI语音输入法 正在偷偷挤走键盘

最开始的打字机并不是 QWERTY 布局。1873 年,美国人 Christopher Sholes,将常用的字母组合分开排列,降低打字速度,以解决因按键复位机制缓慢而导致的打字卡顿问题,最终形成了 QWERTY 布局|图片来源:Wikipedia

机械键盘、分体式键盘、各种人体工学键盘,本质上都还停留在这种框架之内:我们在既定的格子里,想办法让手指跑得没那么累。

语音则完全是另外一条路。说话这件事,本来就是人类最自然的输出方式之一。我们从小就学会用声音组织情绪和思想,所有的停顿、转折、插话、反悔,都是在这种流动里长出来的。

真正开始高频用语音和 AI 交互之后,我才发现,所谓「自然输入方式」不只是速度快一点,而是它把我从很多不必要的负担里解放了出来: 不用在意是不是每个字都敲对,不用提前把句子构造好,不用为了照顾输入法刻意改变自己的表达习惯。我可以像和人说话一样把一件事情讲清楚,剩下的交给模型去理解、去整理 

Typeless 这一类软件,站在这个趋势上做了一步更激进的尝试。它并不满足于当一个「语音版键盘」,而是很明显地在向系统级能力靠拢:在桌面端,它试图成为一层独立于具体 App 之上的输入层;在 iOS 端,它干脆取消了键盘,把「说话」设定为默认动作。

AI语音输入法 正在偷偷挤走键盘

在 iOS 端,Typeless 做得非常激进,直接取消了键盘输入,仅保留语音输入|图片来源:极客公园

这种野心让我看到了一些想象空间:如果有一天,操作系统层真的接受了「语音优先」的前提,把类似 Typeless 的能力直接做进系统,也许我们今天习惯的很多交互细节都会被改写。

当然,这一切目前都还停留在可能性层面。大公司会不会愿意把这件事做到极致,用户会不会接受一套以语音为主的新习惯,监管和隐私会怎么演化,这些问题谁都说不准。

对我来说,唯一可以确认的,是它已经在「输入效率」这个非常具体的指标上,给出了一个足够有说服力的答案: 在很多场景里,我可以用更短的时间,把更多的信息、更完整的语义输入到电脑里,而且中间少了很多和键盘搏斗的环节 

哪怕最终 Typeless 没能长成一个真正的「系统级存在」,这部分被释放出来的效率和注意力,大概也已经足够说明一件事——输入方式这件事,我们完全有理由重新想象。

AI语音输入法 正在偷偷挤走键盘

AD 麦享生活

网购比价查优惠券就用麦享生活
领打车|外卖红包|美团|抖音团购也用麦享生活
各大应用商店均可搜索安装【麦享生活APP】

文章来源【快科技】,转载请注明出处,本文链接 : https://www.bltcool.com/66027.html
上一篇
下一篇

为您推荐

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部