开发四年只会写业务代码,分布式高并发都不会还做程序员? >>>  

近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%。这一数据测试基于世界最大的免费语音识别数据库LibriSpeech。

对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。

著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”

语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图 1所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK等。而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合HMM进行解码得到最终的识别结果。

项目地址:https://github.com/tramphero/kaldi

详情见阿里技术公众号。

阿里开源自研语音识别模型 DFSMN,准确率高达96.04%相关推荐

  1. 阿里开源自研语音识别模型DFSMN 准确率高达96.04%

    采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍. 著名语音识别专家,西北工业大学教授谢磊表示:"阿里此次开源的DFSMN模型, ...

  2. 重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的"AI收银员"在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内 ...

  3. 重磅!阿里开源自研语音识别模型DFSMN,准确率高达96.04%

    阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech). 对 ...

  4. 阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

    近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本. 为了解决这一问题,阿里云机器学习PAI平台开源了稀 ...

  5. 安装阿里基于Kaldi开源语音识别模型DFSMN

    获取源代码 git clone https://github.com/tramphero/kaldi.git 安装 tools文件夹下的编译和安装 $(nproc)你当前运行系统的核数 //检查依赖 ...

  6. 华为开源自研AI框架MindSpore!自动微分、并行加持,一次训练,可多场景部署...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 华为的开源AI框架,来了! 刚刚,华为宣布正式开源自研深度学习框架MindSpore,代码已经上线. MindSpore是一款支持端边云全 ...

  7. 国信证券开源自研的微服务开发框架 Zebra

    https://www.infoq.cn/article/qtxfqPepvPeVwYDy2EHD?utm_source=weibo&utm_medium=infoq&utm_camp ...

  8. 基于深度学习的分词模块 对新闻的分词准确率高达96%以上

    基于深度学习的分词模块 对新闻的分词准确率高达96%以上 Github 代码链接: https://github.com/gitstliu/Segment 已经训练好的模型,提供http接口服务. 如 ...

  9. 「电子鼻」鉴别威士忌准确率高达96%,网友:给茅台也整一个

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 国内的茅台和国外的一些高端威士忌都售价不菲,但也是被造假的重要目标. 在没有鉴酒师的情况下,普通人怎么快速判别出酒的品质和真伪? 最近,就有这 ...

最新文章

  1. C语言程序设计之编程求鸡和兔的只数,用穷举法解决
  2. WINCE系统启动时是否clean boot
  3. 玩转用户标签体系,打造精细化运营底层能力 | 芒种训练营第一课
  4. CentOS 6.5编译安装Nginx+MySQL+PHP
  5. 聊聊WebRTC网关服务器1:如何选择服务端端口方案?
  6. Flutter fvm 多版本管理
  7. 一个基于typescript、mobx、react16、react-router4、antd的后台模板
  8. Node.js下载安装及各种npm、nvm、nrm配置(保姆式教程---提供全套安装包)---node.js的安装与配置(1)
  9. [转载] Python中pandas dataframe删除一行或一列:drop函数
  10. 第二章:循环结构程序设计
  11. 斗鱼tv鸿蒙电视版,斗鱼直播鸿蒙版
  12. 用原生javascript制作日历
  13. Ubuntu 16.04 修改Home目录下的 中文目录 为英文目录
  14. 设置两个路由器无线桥接
  15. 考勤登记管理系统(参考答案)
  16. 一种RC滤波电路的验证
  17. 《数据挖掘概念与技术》学习笔记-第二章
  18. matlab r2010b 怎么设置中文,[矩阵实验室]Matlab R2010b 乱码问题
  19. SSM公司企业OA管理系统
  20. java计算机毕业设计景区失物招领平台演示录像源程序+mysql+系统+lw文档+远程调试

热门文章

  1. 易优cms红色风格春节年货礼品公司网站模板源码
  2. Spring Boot 2.0 开源项目--云收藏。收藏你所喜欢的一切。
  3. 高性能Web框架FastAPI v0.62.0
  4. linux内核优化脚本,linux内核高级优化脚本
  5. vscode shift+ arl + f 格式化统一(笔记)
  6. 高价买的博客网站织梦模板
  7. adsense三种广告要屏蔽
  8. 如何在Ubuntu 16.04中创建GIF动图
  9. 改变浏览器视角大小:Viewport Resizer
  10. 马拉车(manacher)算法——最长回文(hdu3068)