作者:帅帅家的人工智障

原创文章,转载请申请原作者同意

常见的语音相关工具很多,这里介绍几种常见的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他语音识别工具。常用的Kaldi,也有端到端的工具ESPnet等。

Kaldi

Kaldi是 danpovey大神使用C++编写的开源语音识别工具集。目前占据整个语音识别工具的半边天。目前danpovey已经加入国内公司小米。1313c80ef5e0359d5e71d3e3731c004084213763.png

1 . 资源:

文档:http://kaldi-asr.org/doc/build_setup.html

论文:http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf

kaldi作者Dan Povey's博客:http://www.danielpovey.com/kaldi-lectures.html

gitbook上面中文教程Chinese Doc of Kaldi:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html  版本比较老。

2 . 截止到2019年11月底github活跃情况:a189e4878627c86e2dcf4c4c657ed47eb298ed99.jpg

kaldi语音识别大神povery的课程资料,帅帅家的人工智障公众号直接回复:201912151

PyTorch-Kaldi

Pytorch-Kaldi是一个开源的state-of-the-art DNN/RNN用于语音识别的项目。DNN部分依赖于Pytorch,数据预处理、特征提取、解码等依赖于Kaldi。

3f2ba9100c6a58d9b694d37f1c6eed9fff80d044.png

1 . 资源:

github:https://github.com/mravanelli/pytorch-kaldi

论文:https://arxiv.org/abs/1811.07453

vedio:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

Next Version: SpeechBrain

2 . 截止到2019年11月底github活跃情况:

08930bf09b744ef1f9e82c93ae57cac3e91d8c10.png

哔哩哔哩视频链接:

https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain项目旨在完全基于PyTorch构建新颖的语音工具包。借助SpeechBrain,用户可以轻松创建语音处理系统,范围包括语音识别(HMM / DNN和端到端的系统),说话人识别,语音增强,语音分离,多麦克风语音处理等。

目前只有预告还没有正式发布e0eae0493cac4e9e0f252c37b2490ceae1c70b06.jpg

1 . 资源:

主页:https://speechbrain.github.io/

github:https://github.com/speechbrain/speechbrain.github.io

vedio:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

2 . 截止到2019年11月底github活跃情况:d7dfdf3229122e8630f3384d41b9c1f779fe7102.jpg

哔哩哔哩视频链接:

https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

pykaldi

PyKaldi是Kaldi语音识别工具包的Python脚本层。为Kaldi和OpenFst库中的C ++代码提供了易于使用,开销低,一流的Python包装器。可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情,例如调用低级Kaldi函数,在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。df99e2fd861aa3113f54efb7c4e16e84457f883f.png

1 . 资源:

文档:https://pykaldi.github.io/

github:https://github.com/pykaldi/pykaldi

论文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

2 . 截止到2019年11月底github活跃情况:b2f9990361ff3f704974a5c758c8658a1c470983.png

ESPnet

ESPnet是一个端到端的语音工具,专注于端到端的语音识别和端到端的文本转语音。使用chainer和pytorch作为主要的深度学习引擎(框架)。遵循kaldi风格的数据处理、特征提取和格式化等。提供了一个完整的pipline。

487210dba54c0076ddb7bbd45ce975a085a5b9a9.jpg

1 . 资源:

文档:https://espnet.github.io/espnet/

github:https://github.com/espnet/espnet

论文:https://arxiv.org/abs/1804.00015?context=cs

2 . 截止到2019年11月底github活跃情况:

0ecf492b5759bd4078e34a8cbb3e7405c96a8b5c.png

图像那边也有一个ESPnet,比如这个语义分割的演示视频:https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989

其他语音工具

1 . 其他著名语音识别引擎及其特点:da8fba601d8ac078424014ebe14e027969a7b98d.jpg

2 . 移动或者手机端:312c90fc1951feb418edddb269d7e97b24466903.jpg

3 . 还有一些wiki的可以参考的:

wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software

我之前上传b站的一些国外的语音相关的视频【 语音自然语言深度学习课程 】Deep Learning for Speech and Language(合辑)(英文字幕部分)

https://www.bilibili.com/video/av38854819/

【 语音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment(英文字幕)

https://www.bilibili.com/video/av36308563/

【 语音Speaker Verification 】Generalized End-to-End Loss for Speak(英文字幕)

https://www.bilibili.com/video/av36308874/

【语音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe(英文字幕)

https://www.bilibili.com/video/av36308701/

【 两分钟论文 】This AI Learned To Isolate Speech Signals(英文字幕)https://www.bilibili.com/video/av35977892/

相关推荐阅读

欢迎关注我的公众号“帅帅家的人工智障”,或者同名 微博,一起学习提升。

780803e54367859f0fdc9302a4361cd4f6dc2f99.jpg

语音识别相关工具和资料分享相关推荐

  1. kaldi语音识别实战pdf_语音识别相关工具和资料分享

    作者:帅帅家的人工智障 原创文章,转载请申请原作者同意 常见的语音相关工具很多,这里介绍几种常见的工具.主要有Kaldi.PyTorch-Kaldi.SpeechBrain.pykaldi.ESPne ...

  2. 资料分享:推荐一本《李宏毅机器学习》开源电子书!

    背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...

  3. 资料分享:推荐一本《简单粗暴TensorFlow 2.0》开源电子书!

    背景 本开源电子书是一篇精简的 TensorFlow 2.0 入门指导,基于 TensorFlow 的 Eager Execution(动态图)模式,力图让具备一定机器学习及 Python 基础的开发 ...

  4. 资料分享:数学建模资料分享 -- 神经网络部分

    背景 周日的时候,为数学建模俱乐部的同学们进行了一场有关人工神经网络方面的分享.虽然在这个方面有一些积累,但过于零散,所以拿了一堆文件拼凑成整体的内容. 幸亏自己有分享的习惯,学会一些知识就写下来,这 ...

  5. 资料分享:数学建模资料分享 -- 图论部分

    背景 今天上午,在教六第一阶梯教室为数学建模俱乐部的同学们分享了有关图论的基本知识和应用. 课后,为同学们留了一个算法实现的小练习,大家可以先做一下.在本图文的末尾处,我把上课的资料以及代码分享出来, ...

  6. 资料分享:送你一本《数据结构(C#语言版)》电子书!

    对于信息类专业的学生而言,数据结构与算法是一门必修的课程.只有学好这门课程,熟练掌握线性表.栈.队列.树.图等基本结构,以及在这些结构上的各种算法,才能利用计算机去解决实际问题. 如何学好这门课程呢, ...

  7. 基于bmob的校园资料分享互助平台

    为什么80%的码农都做不了架构师?>>>    参赛者姓名 :    王滔(个人参赛) 简介:在学校学习难免会需要一些同个学校的学习资料.如试卷,复习提纲等,网上查找有如大海捞针.这 ...

  8. [资料分享]GIS+=地理信息+云计算+大数据+容器+物联网+...论文、会议、讲座资料分享...

    2019独角兽企业重金招聘Python工程师标准>>> [资料分享]GIS+=地理信息+云计算+大数据+容器+物联网+...论文.会议.讲座资料分享 超图研究所致力于打造一个GIS+ ...

  9. 【云周刊】第132期:走近40+世界级AI专家!第三届中国人工智能大会资料分享...

    本期头条 [演讲实录+视频]走近40+世界级AI专家!第三届中国人工智能大会资料分享(不断更新) 中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高.规模最大 ...

最新文章

  1. gtk移植到嵌入式_入行嵌入式研发10多年,一位工程师悟出了这些道理
  2. 利用owc生成excel并且显示在页面
  3. Larbin使用方法2
  4. java让服务器停止运行,java调用远程服务器的shell脚本以及停止的方法实现
  5. 苹果新的编程语言 Swift 语言进阶(一)--综述
  6. 【java】log4j2核弹级漏洞原理和分析
  7. 洛谷P1098 字符串的展开【字符串】【模拟】
  8. chart控件支持鼠标滚轮放大缩小_强大的鼠标侧键功能设置工具:X-Mouse Button Control...
  9. 女孩们,当你说没有好男人时请进来看看!
  10. linux三剑客之awk
  11. 5.Chrome开发者工具不完全指南:(三、性能篇)
  12. 【路径规划】基于matlab GUI改进的DWA算法机器人动态避障路径规划【含Matlab源码 1271期】
  13. three.js视频教程2022最新
  14. 企业级直播平台架构和设计
  15. linux vi 替换字符串,Linux vi编辑器如何查找与替换关键字
  16. python爬取谷歌图片_Python爬取谷歌街景图片
  17. 自从看了<<麦肯锡的领导力法则>>之后......
  18. 教程 | Rhino Compute Sevice介绍及环境搭建
  19. image失败 安装scikit_安装SciKitImage错误127
  20. 服务端微信小程序支付/退款详解

热门文章

  1. DBA_OBJECTS
  2. pandas DataFrame数据转为list
  3. 修ecshop品牌筛选以LOGO图片形式显示
  4. installshield basic msi 更新时覆盖不了上一个版本文件解决方案1
  5. 《javascript语言精髓与编程实践》--原型继承笔记
  6. c#调用javascript的方法,有Updatepanel的情况
  7. windows cmd 命令行 —— 进程与服务
  8. 计算机设计思想 —— 总线
  9. 三角数数列与杨辉三角
  10. 斐波那契数列连续十项的和