采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。

著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”

语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图 1所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK等。而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合HMM进行解码得到最终的识别结果。

详情见阿里技术公众号。

阿里开源自研语音识别模型DFSMN 准确率高达96.04%相关推荐

  1. 重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...

  2. 重磅!阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech). 对 ...

  3. 阿里开源自研语音识别模型 DFSMN,准确率高达96.04%

    开发四年只会写业务代码,分布式高并发都不会还做程序员? >>>   近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%. ...

  4. 阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

    近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本. 为了解决这一问题,阿里云机器学习PAI平台开源了稀 ...

  5. 安装阿里基于Kaldi开源语音识别模型DFSMN

    获取源代码 git clone https://github.com/tramphero/kaldi.git 安装 tools文件夹下的编译和安装 $(nproc)你当前运行系统的核数 //检查依赖 ...

  6. 华为开源自研AI框架MindSpore!自动微分、并行加持,一次训练,可多场景部署...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 华为的开源AI框架,来了! 刚刚,华为宣布正式开源自研深度学习框架MindSpore,代码已经上线. MindSpore是一款支持端边云全 ...

  7. 国信证券开源自研的微服务开发框架 Zebra

    https://www.infoq.cn/article/qtxfqPepvPeVwYDy2EHD?utm_source=weibo&utm_medium=infoq&utm_camp ...

  8. 基于深度学习的分词模块 对新闻的分词准确率高达96%以上

    基于深度学习的分词模块 对新闻的分词准确率高达96%以上 Github 代码链接: https://github.com/gitstliu/Segment 已经训练好的模型,提供http接口服务. 如 ...

  9. 「电子鼻」鉴别威士忌准确率高达96%,网友:给茅台也整一个

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 国内的茅台和国外的一些高端威士忌都售价不菲,但也是被造假的重要目标. 在没有鉴酒师的情况下,普通人怎么快速判别出酒的品质和真伪? 最近,就有这 ...

最新文章

  1. 2017第35周日乱记
  2. c语言结构体实现存储信息,用C语言结构体实现通讯录
  3. android 对话框白色样式,Android 对话框(Dialog)样式大全以及简单实现
  4. 1365. 有多少小于当前数字的数字
  5. 编辑工具-sublime使用介绍
  6. mysql 5.7 my default_Windows64位mysql5.7以上版本包解压中没有data目录和my-default.ini及服务无法启动的快速解决办法(问题小结)...
  7. 华为机试——整理数字字符串
  8. 初识二进制2:指令系统
  9. DescribingDesign Patterns 描述设计模式
  10. mysql 批量插入 优化_mysql 批量插入优化之rewriteBatchedStatements
  11. mobileconfig使用发布者证书动态签名
  12. 计算机黑屏启动超慢,电脑开机慢黑屏时间长怎么解决
  13. YApi接口管理平台远程代码执行漏洞(含批量POC)
  14. Java scanner输入多个数字其总和和平均数,每输入一个canner输入多个数字其总和和平均数,每输入一个数字用回车确认,通过输入非数字来结束输入并输出结果
  15. RFC5766-TURN协议
  16. 解决dell 15R 双显卡笔记本桌面右键点击反应慢的问题
  17. 【python】终于解决了cv2.VideoWriter生成视频后视频文件始终为1KB且无法播放的问题
  18. Printing 1 to 1000 without loop or conditionals
  19. android TV端如何读取微信网页版二维码显示生成一张图片
  20. 2018年前端开发回顾

热门文章

  1. 图解源码之java锁的获取和释放(AQS)篇
  2. 剑指Offer——把字符串转换成整数
  3. Python 函数式编程(3) —— 闭包
  4. flag--命令行参数解析之StringVar
  5. MVC5发展历程,从MVC2谈起
  6. [转载]apache rewrite规则
  7. Bailian4121 股票买卖【最值】
  8. Bailian2909 字符串加空格【指针】
  9. Python 爬虫 —— scrapy
  10. Python 异常(Exception)