我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语音输入法 >

史上最强的语音输入法诞生百度是如何做到的

归档日期:06-15       文本归类:语音输入法      文章编辑:爱尚语录

  在昨天,百度输入法“AI·新输入 全感官输入2.0”发布会上。百度输入法正式对外发布了最新杀手锏——AI探索版输入法。

  作为百度眼中 AI 落地的“桥头堡”,百度输入法AI探索版默认将全语音作为默认输入方式,并在丰富输入方式上大开脑洞,围绕表情、肢体等为用户提供了全感官的输入体验。

  在发布会现场,台上是嘉宾的演讲,大屏幕的右侧则是百度输入法的实时同步,我注意到,即便是一些英文单词,也能识别出来。

  简单来说,这个输入法的特点包括以下几点:默认全语音输入、调动表情、肢体等全感官丰富体验。

  比较有意思的是,百度在去年推出过一款默认语音搜索的搜索产品,简单搜索,我当时在文章里就评价道:“谁掌握了语音交互的入口,谁就掌握了比赛的输赢”。

  以产品形态的角度看,输入法也堪称“古董”。从 PC 时代的键鼠,到移动互联网时代的触屏,介质一直在变,但输入法产品的基本逻辑并无显著革新,都是通过点按字符组成字词,输入效率提升已经顶到天花板。

  早已成为一颗参天老树的输入法,如何在 5G、云计算、大数据、AI 技术的浇灌下发出新芽,已经成为老牌输入法厂商面临的新问题。现在看来,百度输入法试图通过AI探索版从“效率”与“温度”两方面给出答案。

  聊起输入法,早年接触电脑的朋友一定还对揣着五笔字根图记忆犹新,五笔的高效率甚至一度让“打字员”成为热门行业。但以百度输入法为代表的拼音输入法迅速崛起,五笔渐渐成为历史。

  背后的逻辑其实很简单,五笔终归是一门新手艺,但汉语拼音近乎普及。而颠覆式创新从未停止,语音之于拼音、手写亦是如此,近乎为零的学习成本带来了“上手更快”。

  这就不难理解,为何百度的“新芽”是一款全盘押注语音的 AI探索版输入法。

  如果说,“上手更快”是语音输入法的共性,那么“识别更快”则是百度输入法 AI探索版的个性。

  早在移动互联网浪潮兴起时,语音识别准确率就已成为各家产品必争指标。在基于 Attention 模型,纷纷提升到 97% 之后,市场却似乎陷入沉寂。

  究其原因,过去语音使用的场景集中在聊天、搜索这两大场景,现在已经逐步拓展到了游戏、购物、娱乐等诸多场景,且使用的频率也越来越高,这就给输入法提出了新的考验。

  其一在于流式解码。以谷歌 LAS 为代表的传统 Attention 模型几乎全部基于整句建模。简单来说,用户需要经历一个整句录制完成-上传服务器-建模分析的过程,输入法在其中充当的角色类似翻译APP,用户需要付出不小的时间成本。

  其二在于长句识别准确率下降。这不得不提到 Attention 模型的核心逻辑:基于整句全局信息,通过机器学习的方法,选择出和当前建模单元最匹配的特征。句子越长,进行特征选择的难度越大。出错的概率越高,错误前后传导的概率也越高。

  识别慢,识别不准,使得语音输入总是不能一步到位,最终成了一个“应急功能”。

  针对这两大实打实的痛点,百度创新性地提出了流式多级截断注意力模型SMLTA。

  看起来相当硬核,但是只要稍加拆分就非常容易理解这项新技术的亮点。首先,核心依然是目前主流的 Attention 模型,但截断、流式、多级、基于CTC & Attention 的四大创新点代表了独特的解决思路。

  一一对应起来就是:先使用CTC算法对连续语音流进行截断,然后对每一个截断的流式语音数据进行建模,以往的整句建模转变为局部语音段建模,同时引入多级Attention 机制,避免 CTC 插入删除错误对系统的影响,实现特征层层递进的精准特征选择。

  简单来说,将以往的整句“切”成了小段进行实时处理,且通过算法解决了失去上下文逻辑导致的误差。

  类比传统方案,百度输入法的 Attention 模型不仅解决了流式解码的低效问题,切分后更小的语音段还有效避免了识别率下降的问题。

  据百度输入法官方披露,这也是第一次有公开报道局部 Attention 建模,有可能超过全局的 Attention 建模的产品。

  流式多级截断注意力模型SMLTA 解决了效率的问题,而在提升易用性上,百度输入法还有另一个杀手锏——混合输入。

  “初代网红”papi酱的成名作之一,便是演绎职场与生活的“上海话+英语”的混合表达。恶搞之于,其实也反映了一个现象,在全球化大背景下,商业文化的冲击会让口语表达更加不拘泥于一个固定范式。老实说,也的确有很多概念难以在普通话中找到一一对应的词语加以概括。

  不得不说,以往的解决方案属于“头痛医头,脚痛医脚”。你说粤语?那么请在设置中切换粤语模式;你说英语?英语模式也有。至于普通话+方言+外语,输入法直接歇菜。

  一方面,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与普通话之间的无差别混合语音输入。

  另一方面,得益于多年的海外布局,百度海外输入法已经支持到 120 门语言,为不少国家由于历史原因造成语言混输习惯的用户提供了更好的体验。

  两大优势一叠加,无论是面向国内的百度输入法,还是面向海外的百度海外输入法,都成了各自市场中目前唯一实现高精度混输入的输入法产品。

  既然从“识别更快”,聊到百度海外输入法,那就不得不提到它的“布局更快”。

  作为输入法,打入国外市场的难度是难以想象的。以传统逻辑,来自目前全世界智能手机综合实力最强的国家,输入法出海最“明智”的方式无非是与厂商合作预装,短时间内便能通过这条“大腿”拿下漂亮的装机量。但与此同时,也会因为品牌在用户认知中的“隐形”而逐渐丧失竞争力。

  显然,百度海外输入法深知其中门道,选择了不走捷径,而是踏踏实实从用户痛点出发,并深入当地文化语境中。

  一方面当然是技术的革新,通过上面提到的智能语音、智能推荐、智能表情三大功能创新,百度得以在重技术、轻人性化的海外市场迅速占领市场。

  另一方面,百度输入法将跳出了输入法的边界,将自己定位为一个创意品牌,与包括 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等在内的知名 IP 跨界合作,实现了输入法市场的差异化。

  以热衷“萌”系画风的日本为例,有将近九成 10-19 岁女性为百度日文输入法Simeji 用户,目前日本市场品牌渗透率已经达到 80%。

本文链接:http://thegoodfrog.com/yuyinshurufa/80.html