罗技和百度AI这对跨界组合,正在重新定义语音输入。

4月13日,全球著名云周边设备供应商罗技推出了一款“语音鼠标”,在百度AI的优先赋能下,用户点击鼠标上的语音键就能进行语音输入,不仅在PC端实现了中英文自由夹杂语音输入,还可以实时进行多种语言的语音翻译。

其实类似的概念并非是罗技首创。早在两年多前就出现了主打“语音输入”的键鼠类产品,诸如“智能鼠标”的概念也被多家品牌借用,但无一成为现象级的爆款产品,PC端语音输入的用户习惯也无从谈起。

百度AI为何要在这个时候进行跨界,并选择牵手罗技这样的市场领导者,背后到底隐藏了什么样的野心?

01 知易行难的语音输入
人类对语音输入似乎有着天生的执念。

早在2000年前后,个人电脑还属于少数人的玩物,IBM推出的软件工具ViaVoice就开始风靡全球。按照IBM的设想,ViaVoice将在人与机器之间担当“翻译”,只要一句话就能编排文本格式、控制桌面、操作程序、发送Email……

虽然IBM解放双手的革命未能如愿,却为整整一代人种下了“动口不动手”的交互理念。比如在2018年的时候,罗永浩推出了宣称是“下一代个人电脑”的TNT,试图将IBM讲述的“美丽童话”从传说变成现实。遗憾的是,老罗的TNT乃至后面推出的“智能鼠标”,都和ViaVoice一样成了被怀旧的对象。

为何语音输入一度成了悬而未决的世纪难题?可以找到三个直接相关的痛点。

一是连续语音输入的“尴尬”。

语音输入并非没有落地的场景,和智能音箱的语音交互、聊天时的语音识别等等,可以说是屡见不鲜的场景,然而切换到办公时长篇幅的连续输入,现有的语音识别模型常常出现“宕机”的问题。

时间追溯2015年,注意力模型已经是语音识别的主流技术,在语音识别的准确率方面有了突破性的进展,但注意力模型大多是基于整句的建模,通过机器学习选择和当前建模单元最匹配的特征,导致句子越长识别难度就越大,出错的概率也就越高,同时还伴随着较长的用户等待时间。

二是远场语音识别的不足。

网上流传着使用TNT工作站的段子:想要在办公室里用语音操作TNT,先要提前喊一声“安静”,让周边的同事自动进入到消声状态,不然TNT可能不知道是谁在说话,语音识别的准确率让人堪忧。

背后牵涉到的是远场语音识别技术,如果目标声源距离拾音器比较远,将导致目标信号衰减严重,加上嘈杂的外部环境制造了太多的干扰信号,最终导致信噪比较低、语音识别性能比较差。我们已经习惯在手机上对着麦克风说话,但不可能以趴在电脑上的姿势对着屏幕进行语音输入。

三是语言混合输入的难题。

即使不考虑长句子连续输入和远场识别的问题,日益进化的语言习惯也一度制约语音输入的普及。就像很多人在工作中常常出现中英词汇混用的情况,或者有时候飚一句方言,都可能难倒识别工具。

尽管一些语音识别工具推出了多种语言的识别模型,可在过去很长一段时间里,需要用户先手动切换至想要识别的语言,比如你想要用四川话进行语音输入,先要到输入法的设置中将语言设定为四川话,说普通话的时候再去切换回来。不仅进一步增加了用户的学习成本,体验也不尽如人意。

在种种待解痛点的制约下,语音输入的想象固然美好,但前提是进行一场技术上的长征。可以佐证的是,微软刚刚以197亿美元的价格收购了Siri背后的语音技术玩家Nuance,计划将Nuance的语音识别技术和旗下其他产品整合,以接棒在技术和场景上落后而被迫默默退场的Cortana。

02 百度AI的三步走战略
而在语音技术的赛道上,百度已经奔跑了十年。

2010年百度正式成立了语音团队,主要研发百度语音识别、语音合成等在内的一系列核心技术,并逐步将百度的语音技术应用于小度智能音箱、百度输入法、小度车载助手、百度智能语音呼叫中心等产品。

不过在PC端语音输入的话题上,百度AI在很长时间里并未追逐“智能硬件”的风口,默默制定了语音技术的三步走战略:

第一阶段,语音识别算法的持续打磨。

为了解决连续语音输入的痛点,百度AI的工程师们在注意力模型的基础上,创新性地提出了流式多级截断注意力模型SMLTA,利用CTC算法对连续语音流进行截断,然后对每一个小段的语音进行建模,把原来整句的建模,变成了局部语音小段的建模。这样用户话音一落就可以拿到识别结果,保证了最佳的用户体验。

同时百度AI还针对语言混合输入进行了算法优化,罗技推出的“语音鼠标”VOICE M380就支持8种语言的语音翻译,首次通过罗技鼠标在PC上实现了中英文自由夹杂语音输入,以及粤语、四川话、东北话、河南话等7种方言免切换混合输入。

第二阶段,一体化的端到端建模技术。

市场上常见的远场语音识别技术,往往将麦克风阵列作为拾音器,然后利用多通道语音信号处理技术增强目标信号。这种先语音增强后语音识别的思路,在一定程度上提高了识别的准确率,但增强目标和优化目标可能并不一致。

百度AI的思路是“语音增强和语音声学建模一体化”的端到端建模,并提出了基于复数CNN的远场端到端建模方案,利用复数CNN 网络挖掘生理信号本质特征的特点,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,避免了由于定位出错而导致识别准确率急剧下降的问题,最终远场语音识别的错误率降低了30%以上。

第三阶段,自研芯片加速产业化落地。

语音输入的隐形制约还有算力和功耗。在语音技术从云端竞争向芯片端延伸的趋势下,算力直接关系着用户体验,但传统芯片的平均功耗在1W以上,算力和功耗的两难,进一步制约了语音输入的应用场景。

在提出端到端的一体化方案后,百度AI将目光瞄向了芯片端。在2019年发布了首款针对远场语音交互研发的鸿鹄芯片,通过端到端的软硬一体化框架,将所有语音交互任务集中到一颗低功耗语音交互芯片上,提取的语音特征直接在云端进行高精准识别。目前鸿鹄芯片的平均功耗只有100mw,完全满足3C产品0.5W的待机标准。

和智能语音同时进化的,还有百度AI的机器翻译,过去十年中在大规模产业化机器翻译模型、海量翻译知识获取、多语言翻译统一框架、机器同声传译等方面进行了系统而深入的研究。特别是基于神经网络的多语言翻译统一框架,在全世界范围内首次实现了203种语言的互译。

百度AI围绕智能语音和机器翻译的战略布局佐证了这样一个事实:技术赛道并非是闭门造车,百度AI对罗技的优先赋能,正是精准把握产业化需求的体现。

03 产业化的大航海时代
消除了用户体验上的痛点,百度AI开启了语音技术的产业化进程。

百度AI和罗技跨界推出主打语音技术的“鼠标”,不失为一次有示范效应的练兵。正如前面所提到的,从IBM的ViaVoice开始算起,语音输入在PC上的应用已经持续了20多年,期间诞生了形形色色的软硬件产品,但未能改变“键鼠”的市场地位,大多数新奇的产品最终被人们选择性遗忘。

百度AI和罗技则为语音输入开启新的篇章。

一方面,目前百度AI的中文语音识别率已经达到98.6%,背后是人机交互效率的再次刷新。比如大多数打字员每分钟输入的字数在80到200之间,而百度AI的语音输入在实验室环境中可以达到每分钟400字,何况语音输入的门槛相对更低,小孩子、老人、视觉障碍人群等特殊人群也可以使用,人机交互的成本和效率都在被拉平。

另一方面,百度AI和罗技的跨界为语音输入找到了新的应用场景:除了单纯的文字输入场景外,还可以用于会议、演讲、采访等场景下的文字记录;语音翻译功能紧紧贴合了当前办公场景中,和外国同事、客户等跨语言沟通交流的需求……相较于20多年前替代键盘的单一诉求,语音输入的价值正越来越多元,应用场景也越来越广泛。

进一步深挖的话,百度AI和罗技的跨界不仅为语音输入的“梦想”画了一个句号,正式推出的“语音输入服务”,也为智能语音的产业化提供了新的思路。

语音技术之所以被频频聚焦,原因在于语音正在逐步改变固有的人机交互习惯,并且已经在家庭、车载等场景中被验证。正如鼠标、触摸屏等曾经引发的浪潮,语音交互大概率将催生出新的生态,而那些无法适应新趋势及时迭代进化的产品,不排除一步步被市场所淘汰的可能。

于是“+AI”渐渐成了行业的热门话题,几乎所有的行业都在思考利用AI降本增效或转型升级。百度代表的人工智能领头羊也逐渐意识到:人工智能的使命不是颠覆或重构一个行业,而是帮助行业找寻新的增长动能。

对应的动作就是百度大脑在6.0时的升级,作为百度AI多年技术积累和产业实践的集大成,百度大脑被定义为中国智能经济的基座,试图通过软硬一体的能力输出,避免合作伙伴们一次次重复造轮子。其中语音能力恰是百度大脑的核心优势之一,每天的调用量早已超过155亿次。

百度AI对罗技软硬一体的优先赋能,和百度大脑加速产业智能化升级的战略不无关系。不同于行业中常见的兜售算法形式的合作,百度AI针对罗技桌面级的场景进行了单独的优化和适配,并选择以软硬一体的方式帮助罗技打造真正的杀手级产品,在产品力和用户体验上形成独一无二的技术壁垒。

而当罗技这样的行业领导者主动拥抱百度AI,也在某种程度上预示着智能语音的产业化开始进入大航海时代。

04 写在最后
百度AI x 罗技的范式,为智能语音的落地撕开了一道口子。

可以预见的是,鼠标绝不会是二者跨界的唯一产品,后续百度AI的智能语音将逐步兼容更多的罗技产品;同时罗技也不会是唯一加入到“+AI”行列的品牌,语音技术在各行各业的应用落地进程正在加速。

借用一句古话来说:“旧时王谢堂前燕,飞入寻常百姓家”。在百度AI持续对外赋能的姿态下,我们的生活正逐步被AI改变。

罗技推出“语音鼠标”,隐藏着百度AI的产业化范式相关推荐

  1. 刚刚,百度AI公布最新进展:Apollo2.0,新课程,设全球研究院

    夏乙 假装发自 Mandarin Oriental 量子位 出品 | 公众号 QbitAI 陆奇和百度团队,刚刚在大洋彼岸的拉斯维加斯,公布了百度AI的最新进展. 核心就两个方面:Apollo(无人车 ...

  2. 深度学习平台——百度AI Studio线上构建

    PaddleDetection的安装和使用以及训练和评估 这里是百度的AI 开发平台:https://ai.baidu.com/ai-doc/AISTUDIO/Tk39ty6ho 目前对于个人来说的, ...

  3. jacob离线语音合成和百度AI在线语音合成

    因为工作需要,所以找了一下文本转语音这方面的资料,jacob和百度AI都有优缺点,jacob不需要联网,但是转换后的语音样式没有,百度AI的语音的样式多,但是需要联网. 如果是条件可以的话,用百度AI ...

  4. 讯飞智能语音鼠标G50:AI语音、转写翻译、记录截图一键搞定!

    随着互联网的发展,智能鼠标已经成为我们生活和工作中不可或缺的组成部分.然而,鼠标滚轮异响.按键失灵.驱动难用.手感不合适等一系列问题仍时有发生,所以选择一款智能鼠标尤为重要,它不仅可以提高我们的工作效 ...

  5. 百度AI语音语义一体化技术 识别的同时进行语义分析

    7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一 ...

  6. 使用百度AI将语音转换成文字(JAVA)

    使用百度AI将语音转换成文字--JAVA 1.安装ffmpeg 2.使用百度AI翻译语音 1.引入dependency 2.将音频转换成文字并写入到文件中. **遇到的问题:** 4.因为需要切割长语 ...

  7. python+百度AI 文字转换成语音

    进入百度AI官网,依次点击:开放能力-> 语音技术 -> 语音合成-> 短文本在线合成-> 立即使用-> 登录 创建应用 先去领取免费的接口,选择语音合成,然后将需要的接 ...

  8. 实现制作萝莉语音包前的准备——百度AI的使用介绍

    创建百度AI 1.创建百度云账号 百度云语音识别: https://ai.baidu.com/tech/speech 2. 点击这里初建应用 登录之后在这里点击创建应用. 3.查看自己 App-ID, ...

  9. 百度ai文字转语音并下载php源码,一种基于百度AI的网页版在线语音包转文字的方法与流程...

    本发明涉及语音识别技术领域,特别涉及一种基于百度AI的网页版在线语音包转文字的方法. 背景技术: 语音识别技术,也被称为自动语音识别Automatic Speech Recognit1n, (ASR) ...

最新文章

  1. Nginx(5)-nginx.conf文件详解
  2. 根据矩阵变化实现基于 HTML5 的 WebGL 3D 自动布局
  3. vmwear导出OVF模板解析(解决ovf导入服务器失败问题,虚拟机版本等)
  4. 服务器不显示磁盘柜,磁盘柜与服务器的关系
  5. redis的key和value限制
  6. 2017年11月01日普及组 I Got a Matrix!
  7. boost::spirit模块实现展示不同容器类型的输出格式化的统一和简单的方法
  8. Web.sitemap网站导航
  9. mysql为什么行数据库_关系数据表中的行称为什么?
  10. pypinyin 获取多音字的拼音组合
  11. 小程序 php转excel,做微信小程序上传数据 数据格式?-微信 上传数据 生成excle
  12. .NET 指南:使用可变数量的参数的成员
  13. 网络和新媒体能申请计算机硕士吗,网络与新媒体专业可以报考公务员吗
  14. 全网首发:sqlite-jdbc在UOS上弹窗提示的解决办法
  15. PC端后台项目的总结
  16. Excel工作表事件(2)- Change事件
  17. 干货 !玩转Linux中的输入输出管理(1)
  18. 高云FPGA系列教程(基于GW1NSR-4C TangNano 4K开发板)
  19. 百问网物联网实战-STM32中断
  20. Android studio包含四个tab微信页面设计

热门文章

  1. 基于steam的游戏销量预测 — PART 2 — 文本分析
  2. GitHub开源了一款程序员摸鱼神器!上班摸鱼还不会被老板发现。。。
  3. APP用户生命周期价值分析与测量
  4. iOS连wifi(修改密码后的wifi)遇到的坑,纯转载
  5. 根据NSDate得到农历的年份(包括生肖) 、月、日。
  6. Yolo 一文看懂目标检测
  7. 网络套接字------IP地址
  8. 高中生参加的计算机奥赛是,电脑奥赛中最寂寥的竞赛 5学生夺牌直通清华
  9. 【TeXstudio】【7】段落,编号与自定义编号——《LaTeX入门》
  10. 查询Mysql版本号的两种方法