近日,阿里巴巴达摩院机器智能实验室语音识别团队,推出了新一代语音识别模型—— DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至 96.04%(基于世界最大的免费语音识别数据库LibriSpeech)。

阿里在GitHub平台上开源了自主研发的DFSMN语音识别模型

这支平均年龄只有 30 岁的团队还宣布,即日起向全世界企业与个人开源此次打破全球语音识别纪录的 DFSMN 模型,使全球开发者都能共享这一成果,共同推进人工智能技术的发展。这也使 DFSMN有望继传统的 LSTM 模型后,成为全球语音识别领域最主要的声学识别模型之一,全球语音识别准确率也有望总体提高 10%。

著名语音识别专家,西北工业大学教授谢磊表示:「阿里此次开源的 DFSMN 模型,在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。」

语音识别是人机交互中的核心技术,在智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。在刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。此外,装备这一语音识别技术的自动售票机也已在上海地铁「上岗」。

DFSMN 语音识别模型,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。

Github 链接:

https://github.com/alibaba/Alibaba-MIT-Speech

阿里开源自主研发的 DFSMN 语音识别模型,引谷歌论文引用相关推荐

  1. 阿里云自主研发云原生数据库POLARDB的开拓之路

    <创新.进化.竞合.开放--阿里云自主研发云原生数据库POLARDB的开拓之路> 阿里云ApsaraDB数据库 高级产品专家 贺军 前言 数据库作为信息时代平台科技(CPU/芯片.PC/手 ...

  2. 阿里妈妈首次公开新一代自研智能检索模型 | WWW 2018论文解读

    阿里妹导读:阿里搜索直通车广告业务有着巨大的体量和影响力,其技术工作具有非常高的挑战性.本次阿里妈妈在WWW 2018公开的新一代智能检索模型工作,是搜索直通车算法团队的同学一次从实践出发,将技术创新 ...

  3. 重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...

  4. 重磅!阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech). 对 ...

  5. 语音识别模型_语音 识别_语音识别 - 云+社区 - 腾讯云

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别模型wavenet介绍这篇文章介绍了wavenet,一种原始音频 ...

  6. 进入空气稀薄地带,《朗读者》再现阿里云10年技术自主研发

    摘要: 近日,阿里云创始人王坚在央视最新一期<朗读者>中诵读了乔恩·克拉考尔的<进入空气稀薄地带>.在节目中,他回忆说,"现在阿里云的成就是工程师拿命换来的,其实也是 ...

  7. 阿里开源自研语音识别模型 DFSMN,准确率高达96.04%

    开发四年只会写业务代码,分布式高并发都不会还做程序员? >>>   近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%. ...

  8. 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发

    最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型 ...

  9. 重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

    语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务.智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面. 本文 ...

最新文章

  1. Go 学习笔记(28)— nil(nil 不能比较、不是关键字或保留字、nil 没有默认类型、不同类型的 nil 指针是一样的、不同类型的 nil 是不能比较的、相同类型的 nil 可能也无法比较)
  2. iView 3.3.0 发布,基于 Vue.js 的企业级 UI 组件库
  3. WCF - Versus Web Service
  4. OpenGL之GLFW入门学习
  5. Activiti与SpringBoot的整合
  6. 【学习笔记】java基础核心总结
  7. 页面加载图片前用空态图代替真正图片
  8. jboss4.2.3_JBoss 4.2.x Spring 3 JPA Hibernate教程
  9. WIN7下搭建FTP
  10. How to debug WCF in local
  11. 算法笔记_面试题_9.解码方法/数字字符串解码成字母的种类
  12. next主题配置文件配置项介绍
  13. 服务器vga连接笔记本显示器,为什么用vga线链接笔记本和显示器,显示器的画质根本没法直视...
  14. 18-Halcon机器视觉实例入门:图像滤波-各向异性滤波
  15. 实验数据处理的基本方法
  16. 推荐使用Windows10企业版LTSC的理由
  17. 抖音xlog算法解析
  18. Unity设置字体颜色渐变
  19. EOS智能合约开发系列(六): eosio.token
  20. 从零开始用Python搭建Socket服务器(初篇)

热门文章

  1. mysql下载吧_Mysql安装图文教程
  2. Linux内核网络丢包查看工具dropwatch的安装和使用
  3. 用计算机进行图片处理教学设计,三年级信息技术上教学设计
  4. 返回数组个数Java_用java实现返回一个整数数组中最大数组的和
  5. java 克隆_Java实现对象克隆的方法
  6. python手动绘图_建筑师为什么要会python编程?
  7. 如何将一个字典转换为玲阶矩阵_基础渲染系列(一)图形学的基石——矩阵
  8. 计算机二级试题库office选择题,全国计算机二级MSoffice选择题题库2017
  9. 2022最新款,官宣100000个跨年红包封面,直接领!!
  10. 在Spring Boot中实现通用Auth认证的几种方式