一年前, All in AI 的百度在北京发布了百度 AI 输入法,即百度输入法的 8.0 版本。当时,百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之下,百度高级副总裁王海峰、百度语音技术部总监高亮以及百度中文输入法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:

"百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上,未来将会赋予更多 AI 能力,提升人机交互的体验。"

时隔一年之后,1月16日,百度输入法在北京举办“AI·新输入 全感官输入2.0”发布会,这次,百度请来的主持人变成了现象级网综《吐槽大会》当家主持张绍刚,经过一年的打磨和发展,百度输入法AI探索版正式亮相,据介绍, 这是一款默认输入方式为全语音输入,并调动表情、肢体等进行全感官输入的全新输入产品。

雷锋网注:百度高级副总裁王海峰

同时,在语音技术上,百度输入法又取得了一项对全球学术界和工业界都具备重大意义的技术突破——流式截断的多层注意力建模(SMLTA)将在线语音识别精度提升了15%,并在世界范围内首次实现了基于 Attention 技术的在线语音识别服务大规模上线应用。

发布会现场,百度高级副总裁王海峰再一次重申了百度输入法是百度AI落地“桥头堡”的战略定位,也给出了输入法行业的“未来画像”,他认为,虽然目前的输入法产品主要应用于手机端,但未来的输入法将应用于各种智能设备与用户的交互,并走向世界,为全球用户提供更多元的输入方式。

据介绍,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。

概括来说,百度输入法AI探索版功能创新共有三点:新交互、新表达、新探索。

新交互:首次提出流式截断的多层注意力模型(SMLTA)

此次发布的百度输入法 AI 探索版,是一款全语音交互的输入法,其默认输入方式为语音输入。

雷锋网注:百度语音技术部总监 高亮

首先,在线语音识别领域:百度首次发布流式截断多层注意力建模(SMLTA),据介绍,这是中文在线语音识别历史上的两个重大突破:

世界上首次实现了局部注意力建模识别精度超过全局注意力模型;

世界上第一次大规模部署在线语音交互注意力模型。

语音领域 Attention 模型(注意力模型)的提出已有好几年的时间,注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。

其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法。

近几年,不少专家和学者都在语音识别任务中尝试了注意力模型,实验室环境下,相对于传统技术,也获得到了一系列的提升。但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。

针对以上问题,百度语音技术团队提出了 SMLTA 模型(流式多级截断注意力模型 Streaming trancated multi-layer attention),这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。

据介绍,SMLTA模型是基于 CTC 的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进行当前建模单元的注意力建模。

SMLTA 把原来的全局的整句 Attention 建模,变成了局部语音小段的 Attention 的建模。同时,为了克服 CTC 模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择。最终,这种建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统 CTC 模型持平。

这一技术能够解决传统 Attention 模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音相对准确率提升15%,百度输入法在线语音相对准确率依然好于最优竞品15%。

迄今为止,百度语音识别模型经历了从 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代过程,至于这种演变过程所遵循的依据是什么,高亮在接受包括雷锋网(公众号:雷锋网)在内的媒体采访时表示:

迭代过程有一些路径可循,最开始的时候我们用 RNN 做,然后过渡到 CNN,是因为 CNN 并行计算的能力特别强。到后来发现,LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强,因为它有一定的记忆能力。后来引入 CTC,更多的并不是说在模型上的改变,而是把代价函数变了。这样的话,引入尖峰就会预测得更好。这次把这种局部流式的 Attention 又给引进来,等于前后的 Correlation,也就是出来一个字以后,我再打一个字的话,根据前面输入的字来预测后者出现哪个字的准确度会进一步增强。

其次,离线语音输入领域:过去,离线语音与在线语音相比,准确率相差悬殊,体验得不到根本解决。面对这一实际问题,百度语音技术团队优化了输入法上嵌入式识别的 deep peak2 系统,大幅提升了离线语音识别准确率。据介绍,目前百度输入法「离线语音」输入准确率已高于行业平均水平35%。

除此之外,百度输入法还推出了「中英自由说」、「方言自由说」功能,前者可以实现在完全不影响中文语音输入准确率的情况下,高精准的中英文混合语音识输入;后者将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。

新表达:表情、动作成为输入新方式

除了语音输入,百度输入法负责人蔡玉婷在现场还介绍了拍立活、秀场、表情秀社区等新玩法。

“拍立活”功能可以让用户通过自己的动作“驱动”偶像或宠物做出相同表情;发布会现场,百度特意邀请来了网红“发际线哥”演示了该项功能。

“秀场”功能采取图像分割技术,配合360度全景动态素材,可以将人物置身于虚拟场景,增加创作表情时的场景感,用户提供了更加丰富、生活的表达方式。

同时,百度输入法AI探索版开辟了“表情秀”社区,用户可以把自制好玩的AR表情直接分享到社区,被点赞最多的表情制作者会被给予“表情帝”的封号,并会阶段性给予奖励。目前“表情秀”社区已经有多个明星、网红、以及民间高手入驻。

新探索:推出“凌空手写”功能

发布会现场,蔡玉婷介绍了一款百度自主研发推出的“炫酷”功能——凌空手写。雷锋网编辑现场观察到,工作人员在没有任何实体触控点的空中用手指写出了“凌空手写”几个字,接着,又将主持人张绍刚的名字也打了出来。

据介绍,凌空手写是一种全新的文字识别技术,区别于其它正在实验室中的类似技术,它不需要特殊的手写笔,也不需要类似深度摄像头或多目摄像头等硬件支持。只需要最普通的 RGB 摄像头就可以完美支持。

凌空手写采用双神经网络模型的方案:一个是基于灰度图的指尖跟踪模型,另一个是基于多方向特征文字识别模型。

此外,研发团队发现锯齿和连笔在三维空间的手写识别中对识别率影响较大,于是对抗锯齿和连笔消除算法进行了大量优化工作,在多种模型算法的共同加持下,保证了最终识别结果的连续及稳定,整体上接近触屏手写方式的顺滑、流畅,目前整体识别率已达到大规模应用的要求。

目前,百度输入法已经与小天才/小寻手表达成了合作,会输出“凌空手写”能力给智能手表使用。百度输入法AI探索版也增加了该功能,只需说出“小度小度,打开凌空手写”就能开启该功能。

百度海外输入法:推出三大创新功能

雷锋网注:百度海外输入法产品负责人 姜峰

发布会现场,百度海外输入法产品负责人姜锋介绍了海外输入法市场最新进展和三大技术创新。

据介绍,截至目前,百度海外输入法已经扩充到了120门语言,并在全球190多个国家和地区分发。近两年,百度在语音技术上持续发力,陆续上线了日语、英语、印地语、印英混输、西语识别等,并在日本、美国、印度、印尼、泰国、新加坡等地布局了本地团队。现在全球安装量达到一亿,在美国GP商店输入法品类排名第一。

百度海外输入法围绕海外市场痛点做出三大技术创新:

智能语音混输:为了适应某些国家语言混用的特点,百度输入法推出本地语言和英语混输的功能,满足各个国家日常交流需要。

智能推荐:为了解决场景化的问题,百度海外输入法提供智能推荐功能;除了在基础输入层面的技术突破,百度海外输入法基于百度自然语言处理能力,在智能推荐上做了更多的探索,比如表情预测。

AR emoji:百度海外输入法基于人脸识别技术为海外的安卓手机用户提供3D AR表情功能。

同时,百度海外输入法与 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等知名 IP 进行了合作。

雷锋网总结

2018年以来,三大输入法都纷纷打出了AI牌——王海峰前面提到,百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上;搜狗 CEO 王小川也表示将 AI 赋能升级输入法列为搜狗 2018 年度 AI 战略之一,并且输入法不止可以打字,还将承载信息获取和流量分发;科大讯飞最新发布的输入法版本也主打AI语音输入。

语音交互目前已经被行业内普遍视为下一个互联网超级入口,而输入法又具备高频次、强导流、全场景使用的产品优势,AI语音输入,显然已经成为头部厂商对决博弈的新战场,雷锋网曾经在《输入法都打AI牌的年代,讯飞的先发优势还在不在?》一文中提到过,目前输入法市场格局形成了一超多强的局面,搜狗输入法目前市场份额位列第一;百度输入法借AI之力奋起直追;讯飞等输入法也在不断差异化,努力加强个性化特色功能。

目前来看,百度发布的新语音识别模型在技术上取得了非常大的突破,而其推出的各种好玩炫酷的个性化功能也有利于俘获90后、00后等年轻一代用户的喜爱,但搜狗和讯飞在语音识别领域的积累、在整体输入法和语音输入市场占有率方面的优势也对百度输入法造成了强有力的竞争,未来的市场格局如何,仍需市场进一步检验。

相关文章:

百度输入法 8.0 版本上线,王海峰称其是“百度 AI 的桥头堡”

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

百度AI输入法发布全感官输入2.0版本,语音技术取得世界级突破...相关推荐

  1. 百度发布国内首款AI输入法 进入全感官输入2.0时代

    当输入告别键盘,语音.表情.动作都成为输入方式,会是一种怎样的神奇体验? 1月16日,在百度输入法"AI·新输入 全感官输入2.0"发布会上,国内首款真正意义上的AI输入法--百度 ...

  2. C#的textBox输入法是全角输入的问题解决

    问题:当编辑textBox时,会出现全角的输入法,这种对内容的输入有影响,半角和全角要来回的切换比较麻烦. 解决:找到textBox的属性,找到"行为"--->"I ...

  3. 汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术

    文 |余凯文 来源 | 智能相对论(ID:aixdlun) 在人机交互不再满足于"听"时,"说"的环节变得尤为重要,"怎么说"." ...

  4. 百度智能云发布14个新产品 推动互联网基础技术智能升级

    产业智能化的浪潮正在加速传统互联网行业的升级,视频行业将成为最大的受益者.4月11日,在2019ABC INSPIRE百度云智峰会上,百度副总裁.百度智能云总经理尹世明宣布,"百度云&quo ...

  5. 2023最新AI创作系统/ChatGPT商业运营版网站程序源码+支持GPT4+支持ai绘画(MJ)+实时语音识别输入+免费更新版本

    2023最新AI创作系统/ChatGPT商业运营版网站程序源码+支持ai绘画+支持GPT4.0+实时语音识别输入+文章资讯发布功能+用户会员套餐+免费更新版本 一.AI创作系统 二.系统介绍 三.系统 ...

  6. 最新ai创作系统CHATGPT镜像系统源码+支持GPT4.0+支持ai绘画(MJ)+实时语音识别输入+免费更新版本

    AI系统CHATGPT镜像程序源码+支持GPT4+支持ai绘画+实时语音识别输入+免费更新版本 一.AI创作系统 二.系统介绍 三.系统程序下载 四.安装教程 五.主要功能展示 六.更新日志 一.AI ...

  7. 微软发布.NET Core Tools 1.0版本

    与上周发布的Visual Studio 2017一起,微软还发布了.NET Core Tools 1.0.这些工具对所有.NET核心开发人员都非常有用,无论他们使用VS2017.Visual Stud ...

  8. 华为鸿蒙2.0什么时候上市,华为鸿蒙2.0版本什么时候发布_华为鸿蒙2.0版本发布时间_3DM手游...

    华为鸿蒙2.0版本什么时候发布呢?今天华为召开开发者大会,也在今天华为的鸿蒙OS升级.去年华为发布鸿蒙OS1.0版本,应用的产品十分有限,只能用在智慧屏上.那么今年升级的2.0什么时候发布呢?想知道的 ...

  9. 多多客小程序发布全插件化1.0版,插件市场正式上线

    多多客小程序作为青否原班人马打造的小程序第三方平台,结合5年商城系统.近2年小程序SaaS平台研发及运营经验,重点发力小程序个性化和各类营销玩法,联合服务商.开发者.经营专家,共建服务生态,服务百万商 ...

  10. Soul网关发布里程碑的2.3.0版本,新增支持GRPC,Tars,Sofa协议

    距离上一次发布长达半年之久,在这半年的时间里,我与我的社区小伙伴们,做了太多太多的事情.完成了将近200 多次PR,发表了将近300 篇文章的源码解析,新增贡献者 120 多位,晋升了 7位commi ...

最新文章

  1. 微信小程序页面间通信的5种方式
  2. winphone系统a、input标签被点击时产生的半透明灰色背景
  3. servle 3.0 新特性之一 对上传表单的支持
  4. double operator[](int i)_java中double类型精度丢失问题及解决方法
  5. 我的世界暮色森林java下载_我的世界暮色森林mod1.7.2下载-暮色森林整合包下载...
  6. 曼彻斯特解密_【专利解密】捷通科技改良VLC芯片,照明通信两不误
  7. DOM(一):节点层次-Node类型
  8. 设计模式(1)-- 七大软件设计原则-开闭原则
  9. 【 Codeforces Round #552 (Div. 3) G】Minimum Possible LCM【埃氏筛】
  10. 创业基础(第三章:创业机会及其识别与评价) 来自高校:全国大学生创新创业实践联盟 分类:创新创业 学习规则:按序学习
  11. Centos7搭建coreseek
  12. java之随机生成名字
  13. 201771010112罗松《面向对象程序设计(java)》第十八周学习总结
  14. php datedif,datedif是什么函数
  15. rhythmbox插件开发笔记1:简介入门
  16. 利用python进行微信好友数据分析
  17. dns被劫持有什么现象?DNS是什么 dns被劫持了如何解决
  18. 《百度中小学人工智能课程》预计9月进课堂;AI医疗市场未来营收规模或达万亿以上...
  19. 富勒烯|Fullerene C60 富勒石 CAS:131159-39-2 |瑞禧
  20. Apache Dubbo(概念篇)

热门文章

  1. mysql集群原理剖析
  2. 软件工程—需求分析阶段
  3. 【动手撸深度学习】不吹不黑一份代码即可进Kaggle排行榜!
  4. 需求分析的文档模板的书写方式
  5. java读取scv文件
  6. 计算机SCV原理指什么,csv是什么文件格式?.csv文件怎么打开?
  7. 计算机视觉算法 面试必备知识点(2022)
  8. ibm服务器报错代码大全_IBM服务器错误代码大全
  9. 字节跳动Java面试题、笔试题(含答案)
  10. 拼多多Java面试题、笔试题(含答案)