晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的“场景”,如何在各种场景中都能方便地集成语音功能。

10月,谷歌在Pixel手机发布会上宣布,将语音识别模型压缩到50M集成在手机中,实现离线的语音转写。

而国内的几家语音技术公司想得更远,将语音技术的接口提供给更多的开发者和企业,让AI的应用场景更广阔。百度就是其中一家。

“生物在物竞天择的环境中进化,而AI在应用场景中进化。”在今天的百度大脑语音能力引擎论坛上,百度CTO王海峰如是说。

 百度CTO王海峰

王海峰也透露,百度大脑的语音能力日均调用量超100亿次,居国内第一。拥有国内最大的AI开放平台的百度大脑,目前已接入开发者超过150万,开放228项技术能力。

就在同一天,权威调研机构IDC发布的《2019中国AI云服务市场厂商评估》报告显示,百度智能云凭借着在AI技术、市场和商业上的表现,在中国排名第一。这也从侧面反映了百度AI在市场中的影响力。

除了语音技术外,百度在其他AI技术上也全面开花。9月,百度在CCKS 2019“知识图谱问答”大赛中夺冠;11月,Forrester发布报告显示,百度智能云的计算机视觉能力在8大维度获得第一。

这主要是由于百度智能云入局AI最早,也是国内唯一拥有完全自主深度学习框架的云服务商,抢占了AI落地的先机。

因此用上百度语音技术的开发者越来越多,这些数字的背后,有百度大脑语音技术团队的研发实力作为支持。

团队的领头人,就是今年8月在朋友圈宣布回归百度的技术大牛贾磊。他介绍了百度语音软硬件技术独一无二的“秘籍”。

 百度语音首席架构师贾磊

新算法降低30%错误率

据Canalys等第三方统计机构的数据,小度音箱在国内市场的占有率在今年登上了第一,贾磊认为这是市场对百度大脑技术的肯定。

百度语音首席架构师贾磊表示,百度大脑的语音技术在今年又取得了一项突破性进展,可以将未来小度音箱的技能进一步提升。

这项新技术全称为“基于复数CNN的语音增强和声学建模一体化端到端建模技术”。贾磊表示,这项技术颠覆了传统的语音识别算法。

目前,市面上主流的智能音箱采用的语音识别算法,是先将音频转化为文字,再对文字进行语义理解。

这就好比两个人相互交流,先把语音写成文字,然后通过阅读文字来理解内容。这种识别方式与人相差甚远,而且也存在着诸多问题。

首先,这种方式只有在唤醒识别后才能确定语音的方向,如果噪声与声音方向相同,则会导致识别率很低。而且无法应对说话者边走边说的情形。

而百度大脑提出的基于复数CNN的端到端模型,可以直接将声音转换成语义,更接近于人的语音交互方式,对噪声的抵抗力更强。

贾磊表示,这项技术让远场语音识别的错误率降低了30%以上,对语音识别性能的提升幅度属业内最大,是一项革命性、颠覆性的技术。

这种模型完全不依赖于数字信号处理等技术学科,用机器学习将最初的音节和最终语义直接打通,实现数字信号处理和语音识别一体化。

有了复数CNN的端到端模型,智能音箱难以解决的几大使用场景问题都会得到解决。

比如,我们很难一边走动一边和智能音箱不间断多轮对话;在大声播放电视或音乐时,智能音箱也无法听清我们。

这些常见场景过去一直是智能音箱难以使用的痛点,未来都有望被复数CNN的端到端模型所化解。

未来的让模型结构能成功落地,百度还研发了一种利用近场数据来模拟生成远场训练数据的方法。利用该方法,百度成功训练出可以达到落地水平的一体化声学模型。

为语音造“芯”

只有语音的软件算法还不够,近年来国内AI公司越来越多地涉猎芯片制造,一方面是出于自主可控的考虑,另一方面也是为了让硬件与软件之间更好地配合。

例如,在语音识别的场景中,如何快速加载模型,与输入信号进行快速运算,成了最大的难点之一。传统通用芯片难以解决。

为此,百度专门开发了一款远场语音AI芯片“鸿鹄”,在今年7月的百度AI开发者大会上发布。百度AI技术生态部总经理喻友平今天发布了基于百度鸿鹄芯片的4款硬件模组、开发板和针对智能家居、智能车载、智能IoT设备的3大场景解决方案。

鸿鹄在功耗方面有着巨大的优势,ARM芯片在处理语音时待机功率超过1W,而鸿鹄的待机功耗仅是其他芯片的不到1/10,这让智能家居集成语音唤醒成为可能。

百度鸿鹄芯片预置语音算法,可与多种不同的主芯片搭配使用。而且,百度大脑研发的复数CNN的网络体系很小,可以内置到百度鸿鹄芯片中。

通过软硬件的结合,百度下一款智能音箱在技术上可能将会有更大的突破。

百度的目光也不仅仅在智能音箱领域。据贾磊介绍,百度鸿鹄芯片还是一款车规级芯片,可承受巨大的温湿度变化,未来也能集成在汽车中,作为车载语音硬件使用。

贾磊表示,百度大脑要用最高规格做硬件、最广规格做软件,以适配不同的应用场景。

他还预测,远场语音识别的诸多问题3年后将得以解决,届时准确率将达到近场识别的水平。这会让远场识别技术更普及,成为智能家居、智能手机等设备的标配。百度鸿鹄芯片也有着更广阔的应用前景。

开放语音技术

从7年前,百度就开始以深度学习技术为依托,研发智能语音技术。

如今这项技术已经遍布百度内部各种产品,从近场语音识别的输入法、百度搜索,到远场语音识别的智能音箱、车载语音,再到语音合成的地图导航、信息流播报。

如今,百度不仅将语音技术用在自家的产品上,也向其他开发者和企业用户开放。

 百度AI技术生态部总经理喻友平

喻友平表示,在这一轮科技变革浪潮中,AI是一个普遍的生产力基础,百度大脑要做的,就是把自己的技术以更低的门槛释放出来,给开发者使用。

喻友平将之称为“全栈语音引擎”,这个引擎中的技术已经广泛用于语音播报、语音指令、语音记要、语音质检等领域。

多款第三方打车、支付App上已经用上了百度的语音合成技术。而且百度为了丰富合成语音的应用场景,推出了音质更好、准确率更高的音库给开发者使用。

“百度大脑强大的技术,加上开放的态度,可以释放巨大的能量。”喻友平说。

在本次论坛上,家电企业创维、科技信贷公司瓴岳、农业科技公司华智等公司将百度的语音技术集成到自己的产品中,实现了生产力的提高。

最后喻友平宣布了百度大脑语音公益计划,面向为视障、听障等人士提供服务的科技公司,百度将免费提供语音识别与合成技术,以最低价提供硬件模组。

百度大脑希望将语音技术的“朋友圈”不断扩大,把AI技术与医疗、农业、金融、物联网乃至公益事业联系起来。

正如王海峰在大会开场所说,“AI技术的进化和产业赋能正向循环,相互促进,让AI在应用场景中不断进化。”

作者系网易新闻·网易号“各有态度”签约作者

大咖齐聚!参会嘉宾重磅揭晓

量子位 MEET 2020 智能未来大会启幕,李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。观众票即将售罄,扫码报名预定席位 ~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法...相关推荐

  1. 百度用AI“唤醒”历史,中国文化名片与科技名片相互成就

    文|曾响铃 来源|科技向令说(xiangling0815) 怀念京味吆喝的你,如果看到一个"AI小二"说出京味十足的迎宾语,你会不会觉得稀奇,又惊喜? 这事真发生了. 10月30日 ...

  2. 百度智能云首秀CES的主场感觉:用两个“中国第一”抛出AI新态势

    作者|震霆   出品|新芒X        公众号|GOwithAI 每年的1月初,总有那么几天令科技圈躁动不已. 没错,说的就是此时此刻,当然也毫不夸张. 只是因为在那座叫拉斯维加斯的赌城,有一场叫 ...

  3. AI语音定制化,将给2020带来三个可能

    2016年,美国一位科技记者James Vlahos,做了一件感动无数人的事. 他在父亲临终前几个月,下定决心要把父亲的声音和教诲永远留在身边.于是非技术背景的James在一个AI项目的帮助下,自学语 ...

  4. 第九周AI十大要闻 | 中国AI企业数达千家,科创板IPO年营收最低5亿

    李根 发自 CA878  量子位 报道 | 公众号 QbitAI 2019年第9周,全球AI领域有诸多新进展. 量子位筛选整理出过去一周Top 10,为你提供最新趋势参考. 01 CNNIC报告:中国 ...

  5. Jeff Dean亲笔盘点谷歌AI 2019:日均2篇论文,纵横16大方向,一文汇集重要开源算法...

    点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要16分钟 跟随小博主,每天进步一丢丢 又一年,Jeff Dean代表Google AI,总结过去一年AI ...

  6. IDC最新报告:阿里语音AI登顶中国No.1

    乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 没错,阿里并非先发的语音AI,现在中国市场份额第一. 7月14日(周二),IDC发布<中国AI云服务市场半年度研究报告>显示,阿 ...

  7. 当百度大脑AI虚拟主持人成央视五四晚会焦点,接班中国的不只有青年,还有AI

    文|曾响铃 来源|科技向令说(xiangling0815) 百年前的1919年5月4日,激荡民族命运的100年历史开启. 100年后,中华民族又来到了重要的历史关口,只不过,上一次是挽救民族于危亡,这 ...

  8. 滴滴AI语音团队获国际顶尖智能对话系统竞赛世界第一

    出品 | AI科技大本营 头图 | CSDN付费下载于视觉中国 近日,在国际顶尖人工智能竞赛第九届对话系统技术挑战赛(DSTC9)中,滴滴语音和NLP技术团队参与端到端多领域面向任务型对话系统任务荣获 ...

  9. 百度AI攻坚战:PaddlePaddle中国突围

      作者 | 阿司匹林 出品 | AI科技大本营(ID:rgznai100) 2013年,百度开始研发深度学习框架PaddlePaddle,搜索.凤巢CTR预估上线DNN模型. 2016年,在百度世界 ...

最新文章

  1. 前core成员迈克·赫恩:BCH社区与2014年的BTC社区非常相似
  2. 动静结合学内核:linux idle进程和init进程浅析
  3. Linux(Ubuntu)下MySQL的安装与配置
  4. Web Service学习笔记
  5. ping连接linux无法访问目标主机,无法访问目标主机是什么情况【解决方法】
  6. delete语句与reference约束冲突怎么解决_mysql update语句和原数据一样会更新么
  7. 网络监听listen技术是什么原理?
  8. 【Python基础】为什么更改列表'y'也会更改列表'x'?
  9. silverlight导出excel
  10. 我的内核学习笔记:环境
  11. c ringbuffer 源码_Python Ring Buffer的实现
  12. cad汉仪长仿宋体_工程制图国标字体“长仿宋体”下载
  13. K3wise数据字典及常用表及视图
  14. CTF密码学——常见编解码及加解密总结
  15. 光辉国际宣布陈兆丰先生为新任中国区总裁
  16. 朴素贝叶斯、贝叶斯网络分类器
  17. 5G NR 随机接入RACH流程(3)-- Msg1之选择正确的PRACH时频资源
  18. Python练习题答案: 转换货币II【难度:2级】--景越Python编程实例训练营,1000道上机题等你来挑战
  19. 剑走偏锋做自媒体,利用自己的兴趣爱好打造赚钱IP
  20. 微信小程序流量主如何开通(个人小程序)

热门文章

  1. 免费超高速卡片式病人基本信息列表控件
  2. 【linux基于Postfix和Dovecot邮件系统的搭建】
  3. 函数式编程语言时代已经来临
  4. java基础知识总结1
  5. 最新蓝牙版本助力实现“无连接式” 物联网
  6. IT十八掌作业_java基础第十二天_集合
  7. 安装Properties Editor插件,解决XXX.properties文件中文乱码的问题
  8. Django 开发中的最佳实践之一
  9. WLST - Presentation Transcript
  10. 网站漏洞扫描工具Uniscan