12月11日,人工智能公司依图科技公布了在中文语音识别技术上的最新突破。在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)仅为3.71%,领先原业内领军者约20%,大幅刷新现有纪录。依图还联合微软Azure推出依图语音开放平台,并携手华为发布“智能语音联合解决方案”,将依图领先的语音识别技术提供给广泛的第三方应用开发者,共同推动智能语音行业的进步。

依图首席创新官吕昊博士

语音识别技术远未成熟,技术透明度差

近年来,深度学习的爆发驱动了语音识别技术的高速发展,但相较于人脸识别在准确率方面的高增速来说,语音识别的发展仍较为缓慢。尽管一些机构已宣传达到了人类水平,但大多数情况下都来自安静、近场等受限场景。对于电话、语音节目、远场等更复杂场景,则需要针对性地开发不同模型,但实际应用中的不确定性,使理想和现实仍有较大差距,导致应用场景难以得到更大突破。

对语音识别来说,语速、语态、语气、口音等都会显著影响识别的准确率。一般认为,字错率在低于3%时不会影响可读性,而超过15%则毫无可读性。这两个数据可认为是语音识别的两条红线,而在不同场景下,不同算法的表现可能会有很大差异。在中文语音识别技术领域,汉语的博大精深带来的同音不同意等问题,更对语音识别的处理难度带来极大挑战,显著影响最终的使用体验。

依图首席创新官吕昊博士表示,“语音识别技术经历了漫长的发展进化,但至今都只能在受限的场景下才能达到较好的使用效果。我们认为,核心技术的突破,依然是当前破局中文语音识别发展的关键。在语音识别领域,依图科技是一名新生,但立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

讯飞依图BAT各家算法差异巨大,讯飞依图位列第一阵营

依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,且在单个算法模型上,有极为出色的多场景适用性表现。在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图均处于业界领先水平,且字错率几乎全部在15%以下。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,领先原业内领军者约20%。通过“听写大会”微信小程序,让用户可以直观感受到语音识别技术的真实表现,在业界也属首次,公开透明的体验各类算法的水平差异。

AISHELL-2是AISHELL Foundation和希尔贝壳宣布的开源数据库,数据规模达1000小时,是目前全球最大的中文开源数据库。它由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

中文语音识别机器和人还有差距,产业发展任重道远

基于在语音识别领域的技术突破,依图与微软也宣布进一步深化合作伙伴关系,联合推出依图语音开放平台。该平台将基于微软Azure云,将行业领先的语音识别技术能力开放给广泛的第三方应用开发者,并携手为广大用户和客户提供更全面的服务及更好的体验。在联合发布语音开放平台之后,依图与微软还将在智能语音领域展开更深层次的合作,共建AI生态。

依图还携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡,将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案。借助该解决方案,第三方应用开发者可进一步提升开发效率,从业界领先的语音技术中受益。

语音识别是AI理解世界最重要的组成部分,也是人人交互、人机交互最重要的入口。此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

依图科技发布语音开放平台,联袂微软、华为撬动语音市场相关推荐

  1. 每日新闻:国产5G通信基站芯片通过认证 打破国外垄断;依图科技与微软、华为合作发布语音开放平台;Facebook总部受炸弹威胁...

    关注中国软件网 最新鲜的企业级干货聚集地 趋势洞察 中国IDC圈CEO黄超:从数字化转型4大阶段 中国IDC圈的CEO黄超表示:经历了数字化转型的浪潮,对于我们传统行业来说,现在是一个转型的必经之路, ...

  2. 转:细数国内市场智能语音开放平台有哪些?

    原文网址:http://www.sohu.com/a/206437824_610706 引语:亚马逊的Echo大卖掀起了一股语音智能的热潮,语音交互技术成为炙手可热的时代宠儿.在日新月异的科技领域,眼 ...

  3. 阿里人工智能实验室发布AR开放平台 正式进军机器视觉

    继昨日宣布将人机交流系统AliGenie升级为语音开放平台后,阿里巴巴人工智能实验室今天放"大招". 2017年杭州云栖大会进行到第三日,阿里巴巴人工智能实验室宣布推出AR开放平台 ...

  4. 支持十亿级密态数据、低代码,蚂蚁集团发布隐语开放平台

    2022年AI的顶级会议上,蚂蚁集团连续发布了多个重磅技术的新动态. 数据库领域重要进展!蚂蚁集团高性能图数据 TuGraph 正式开源 隐私计算+区块链原生融合之后平台开放.提升性能,蚂蚁链隐私协作 ...

  5. 【离线语音专题②】安信可语音开放平台的使用——VC系列SDK的获取

    系列文章目录 [离线语音专题①]安信可最新离线语音模组VC系列出厂固件使用教程--SDK开源? 文章目录 系列文章目录 前言 一.账号注册 二.产品创建 1.产品信息选择 2.SDK定制 (1)前端信 ...

  6. ScienceImage科思图科技发布NDI Studio 4K系列最新固件下载及安装--4K Full NDI双向编解码器

    ScienceImage科思图科技发布NDI Studio 4K系列最新固件下载及安装–4K Full NDI双向编解码器系列 ScienceImage科思图所有NDI设备均支持NDI 5功能 Sci ...

  7. 三年打造AI芯片黑科技,IBM“狩猎女神之矛”将撬动企业混合云

    (IBM最新推出的芯片内加速型人工处理器Telum) IBM是当今世界为数不多的具备CPU芯片设计与制造能力的公司之一,也是企业级混合云与AI的领导厂商之一.作为IT产业唯一一家具有百年历史的高科技企 ...

  8. 阿里巴巴发布AliGenie 语音开放平台 “智联网”战略又落一子

    10月12日消息,在2017杭州•云栖大会上,阿里巴巴人工智能实验室发布了AliGenie 开放平台,主要包括三大部分:精灵技能市场.硬件开放平台.行业解决方案,全面赋能智能家居.新制造.新零售.酒店 ...

  9. 【云栖大会】阿里巴巴发布AliGenie 语音开放平台 “智联网”战略又落一子

    点击有惊喜 10月12日消息,在2017杭州•云栖大会上,阿里巴巴人工智能实验室发布了AliGenie 开放平台,主要包括三大部分:精灵技能市场.硬件开放平台.行业解决方案,全面赋能智能家居.新制造. ...

  10. 发力大陆移动VR,HTC刚刚发布ViveWave开放平台和ViveFocus一体机

    今天,HTC在北京新云南皇冠假日酒店举办Vive开发者峰会,会议上发布了 Vive Focus 一体机和 Vive Wave VR 开放平台. Vive Wave VR 开放平台集成开发工具与配套服务 ...

最新文章

  1. Flutter开发之路由跳转与传参(七)
  2. Mysql数据备份恢复及主从同步
  3. .net framework 25007 error
  4. 用Windows Live Writer 2012发博客
  5. Java自动化邮件中发送图表(四)之javafx Chart
  6. 第二节 DOM-Document对象
  7. Java连接Elasticsearch6.xxx CRUD篇二
  8. 2019年新iPhone消息再曝 将会有重大升级!
  9. java 输入任何字符继续_Thinking in Java 4th chap13笔记-字符串
  10. 设计模式速查手册-创建型
  11. 使用Zabbix2.2自带的Mysql监控模板监控数据库
  12. 苹果企业开发账号申请三步走
  13. Maven POM介绍
  14. oracle认证考试试题及答案,oracle考试试题_oracle认证考试模拟题_oracle试题及答案房地产估价师考试试题_房地产...
  15. 3步实现神经机器翻译模型处理
  16. 学了3,4年,终于明白了高斯白噪声的那些东西。
  17. android防拆机方案,拆机狂人必备 iFixit Android客户端试用
  18. 【转】张飞眼中的真实三国-爆笑日记
  19. 揭露丑恶:中国社会的职业道德集体缺失?
  20. 地铁杂记 - 风寒咳嗽

热门文章

  1. Tegra3--NVIDIA--黄仁勋
  2. wing-loss pytorch
  3. 山东科技大学计算机控制系统期末考试试卷,山东科技大学 计算机操作系统试题b...
  4. uni-app Image组件在加载图片发生错误时,显示默认图片
  5. Docker 容器镜像制作指令详解
  6. poj2816-红与黑-C语言-递归算法入门
  7. 计算机从系统格式开始
  8. 时代当歌,懂行为剑,英雄正少年
  9. 蓝本蓝科技:社群变现的模式有哪些?
  10. 选择任意你熟悉的编程语言开发一个C/S、B/S、B/A/S或基于移动设备的民航售票系统,实现基本功能