新智元报道

编辑:闻菲

【新智元导读】依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔?

2018年底,智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。

技术上,在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%[1],相比原业内领先者提升约20%,大幅刷新现有纪录。

产业上,依图联合微软推出基于Azure云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者。

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司,我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示,依图是一家“人工智能公司”。

“作为语音行业的‘新生’,我们还是有很多向‘老生’学习的地方,但我们立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始,依图要做世界最好的中文语音识别

万物互联,语音为先。

语音识别是AI理解世界最重要的组成部分,也是AI能听会说善理解的必要条件。

近年来,深度学习的爆发驱动了语音识别技术的高速发展,催生了一大批智能语音创业公司,其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞,百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品,再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去,依图为何选择这个时间点入局?

智能语音市场看似巨头林立,但林晨曦认为创业公司大有可为,依图不仅要做语音和自然语言处理,还要做到像人脸识别那样,超越人类水平。

依图技术负责人表示,尽管一些机构宣传其语音识别已经达到乃至超越了人类水平,但多数情况下,这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词,或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器,人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈,例如在发音不清楚的情况下,如何结合更强的上下文语义信息给出准确的语音识别;如何在语音识别的全链路上,优化远场识别的性能;特殊情况的处理,比如人称代词、语气词助词;还有鸡尾酒问题(多人同时说话下,能够准确识别其中一人的语音)、电话场景的识别(低采样率下的语音识别)。

此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。

依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队,BAT差得远

作为进军智能语音的第一步棋,依图发布了“听写大会”微信小程序,它能将时长不超过60秒的语音转写成文字,支持普通话,并且兼容多种口音。

“听写大会”微信小程序:业界也属于首次公开透明地比对各类算法的水平差异

不过,“我们希望大家不要仅仅是关注在API本身,”依图首席创新管吕昊表示:“我们希望借助这个API,让大家去关注到整个语音识别行业的发展情况。”

吕昊说,一直以来语音识别业界都没有公开透明的语音识别比对,通过“听写大会”微信小程序,用户可以直观感受到各家语音识别技术的真实表现,在业界也属于首次公开透明地比对各类算法的水平差异。

讯飞依图BAT各家算法差异巨大,讯飞依图位列第一阵营

“目前语音识别业界存在两种认知误区,”吕昊说:“一种是极端的好,也就是各家都好没有差异;一种是极端的差,认为都不能解决问题。”

实际情况是,“科大讯飞的语音识别能力比BAT领先很多。在场景测试中,除了依图和科大讯飞之外,大部分厂家的算法字错率抖动大,意味着场景的通用性差。”

依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,而且在单个算法模型上,有极为出色的多场景适用性表现。

一般认为,中文语音识别的字错率低于3%时不会影响可读性,而超过15%则毫无可读性。这是语音识别的两条红线,在不同场景下,不同算法的表现可能会有很大差异。

在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平,而且字错率几乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率仅为3.71%,领先第二名约20%。

这意味着依图在语音领域做到了第一梯队 (甚至是领先) 的水平,在多场景的适用方面,也体现出显著优势。

左有微软,右有华为,用技术想象力撬动语音市场

“依图的语音API产品和语音开放平台刚刚上线,我们欢迎越来越多的开发者和客户使用依图的产品,共同改进产品性能,并探讨更具突破性的应用场景。”吕昊说。

关于未来预计推出的语音产品及其功能,吕昊表示,“实际上,我们认为技术和场景是比产品和功能更关键的要素,推动了技术发展进步,我们才可以领略到以前看不到的更多可能性,解决很多以前想象不到的问题。今天语音识别跟人类的能力还有巨大的差距,依图希望能够携手业界共同推动行业进步。”

发布会上,依图宣布与微软Azure云服务联合发布语音开放平台,将行业领先的语音识别技术能力开放给第三方应用开发者。此外,依图还将与微软在智能语音领域展开更深层次的合作,共建AI生态。

2018年4月,微软全球执行副总裁沈向洋(右)访问依图。依图科技联合创始人、CEO朱珑(左)曾在微软亚洲研究院(MSRA)研发人脸识别算法,导师就是沈向洋。依图科技联合创始人林晨曦,业务技术副总裁吴岷,研发总监周健等也都来自MSRA。图片来源:依图科技

与此同时,依图也携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台,以及华为全栈全场景 Ascend(昇腾)系列芯片和面向数据中心侧的 Atlas 300 AI加速卡,将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案,进一步帮助提升开发效率。

自2016年成为合作伙伴以来,依图和华为已形成全方位联动。今年3月,双方共同发布“华为-依图视频云人像大数据”解决方案,布局全球城市级公共安全。10月,2018华为全联接大会期间,依图作为大会安保唯一AI合作伙伴,与华为联合发布了分支视频云联合解决方案、智慧警务云解决方案和智慧园区解决方案,在平安城市、智慧警务、大数据应用等方面持续加深合作。

10月9日,华为轮值董事长徐直军(左二)、华为安平系统部总裁岳坤、华为企业BG行业Marketing与解决方案总裁喻东(左三)等一行到访依图。来源:依图科技

此前,有传言微软Azure云服务在中国的数据中心将使用华为的昇腾芯片,这一消息尚未得到证实。但本次由依图串接起来的微软、华为合作链,不禁让人浮想联翩。

根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》,全球智能语音产业规模持续增长,2014年至2018年,中国智能语音产业规模由30亿元增长至159.7亿元。

左有微软,右有华为,再加上自身的技术,依图在智能语音开局便凑齐了一手好牌。

最后要说的是依图科技的首席创新官吕昊。吕昊今年2月加入依图,之前是谷歌的研究科学家。根据依图科技官方介绍,吕昊在谷歌期间曾负责孵化安卓APP启动推荐系统,这是全球首个移动端APP启动推荐系统,也是全球首个基于机器学习的安卓产品。他会带领依图与华为孵化出怎样的智能语音联合解决方案?

林晨曦曾表示好的人才需要对未来充满想象力,朱珑也在文章里写因为看见,所以相信——现在这句话基本成了依图的Slogan。

“99%识别率的算法和99.99%的算法,区别在于可解锁的应用场景,对技术商业价值的想象力将回答AI的场景在哪里以及多快到来。”

“我们认为,目前语音识别仍处于初步发展的阶段,依图将始终保持在技术层面的投入,通过技术的突破来解锁更多的可能,也欢迎合作伙伴与我们共同探索语音技术的行业应用。”吕昊说。

注释

[1] 一般在英文语音识别中用“词错率”(WER),因为最小单元是词;中文语音识别一般使用“字错率”(CER),因为最小单元是字.

[2] AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库,含有1000小时中文语音数据,由1991名来自中国不同口音区域的说话者参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域.

依图做语音了!识别精度创中文语音识别新高点相关推荐

  1. 【情感识别】SVM语音情感识别(带面板)【含GUI Matlab源码 876期】

    ⛄一.SVM语音情感识别简介 0 引 言 语音情感识别是当前研究热点,在人机交互(Human-Computer Interaction,HCI)领域的应用价值日益突显.在今天的HCI系统中,机器可以通 ...

  2. 全球与中国人脸语音生物识别市场”十四“五规模状况与前景趋势分析报告2021-2027年版

    全球与中国人脸语音生物识别市场"十四"五规模状况与前景趋势分析报告2021-2027年版    本文研究全球及中国市场人脸语音生物识别现状及未来发展趋势,侧重分析全球及中国市场的主 ...

  3. 语音情感识别研究进展综述

    人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词.语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知 ...

  4. 2022-2028全球与中国语音生物识别市场现状及未来发展趋势

    本文研究全球及中国市场语音生物识别现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中国.日本.东南亚和印度等地区的现状及未来发展趋势.  2021年全球语音生物识别市场销售额 ...

  5. 论文笔记:语音情感识别(二)声谱图+CRNN

    一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 Inte ...

  6. Android平台使用PocketSphinx做离线语音识别,小范围语音99%识别率

    为什么80%的码农都做不了架构师?>>>    最近语音识别很火,但是都是用的在线语音识别,研究了一下离线语音识别,小范围内的语音识别率还不错,在此记录一下 首先本文要说的两个前提1 ...

  7. 语音云识别工具_语音识别工具_web语音识别应用程序的工具 - 云+社区 - 腾讯云...

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别服务具备识别准确率高.接入便捷.性能稳定等特点. 腾讯云语音识别 ...

  8. 语音情感识别--语音(声音的预处理)

    语音信号(声音是什么) 声音是由物体振动产生的声波,是通过介质(空气或固体.液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源.声音(语音消息)的基本模拟形式是一种称为语音信号 ...

  9. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

最新文章

  1. 想为企业杜绝钓鱼邮件,ValiMail 获1200万美元A轮融资
  2. 蓝牙模块与电脑无线通信--AD测量大电压
  3. System Control Processor Firmware简介
  4. Kingback小组冲刺博客
  5. 寄存器位域、位操作等示例
  6. python实时读plc数据_python snap7读写西门子S系列PLC寄存器的值(PLC的I、Q、M、DB区)...
  7. Android学习二:Http操作
  8. Python安装完成 运行的时候报错 0xc000007b
  9. HTML一片空白, 无法渲染: Empty tag doesn't work in some browsers
  10. 华为云盘里面的照片怎么导出来_华为手机误删照片,怎么恢复?别急!只需点击这里...
  11. JavaWeb药物管理系统
  12. 福昕阅读器如何显示pdf文件的缩略图
  13. JWT的数字签名的简单理解
  14. 【面试被虐】如何只用2GB内存从20亿,40亿,80亿个整数中找到出现次数最多的数?
  15. 微信小程序-云开发云调用API没有权限(no permission)问题
  16. [激光原理与应用-39]:《光电检测技术-6》- 光干涉的原理与基础
  17. 超级计算机国产cpu,中国的天河一号超级计算机用的是国产CPU还是尽...-卓优商学问答...
  18. 1930年经济大萧条
  19. 《征服老板:零基础做出高逼格PPT》笔记(一)
  20. 【c++】vector中删除元素

热门文章

  1. Redis 基础:Redis 配置
  2. 36-高级特性之自定义类(1)
  3. 一篇真正教会你开发移动端页面的文章
  4. 写作是最好的学习方法
  5. Spring Framework--Data Access(1)--Transaction Management(2) - 声明式事务管理
  6. 转 Silverlight开发历程—(画刷与着色之线性渐变画刷)
  7. Bailian2737 大整数除法【大数】
  8. UVA11150 Cola【数学】
  9. ACM基础与精选2018
  10. CCF NOI1048 检测矩阵