语音识别相关工具和资料分享

作者：帅帅家的人工智障

原创文章，转载请申请原作者同意

常见的语音相关工具很多，这里介绍几种常见的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他语音识别工具。常用的Kaldi，也有端到端的工具ESPnet等。

Kaldi

Kaldi是 danpovey大神使用C++编写的开源语音识别工具集。目前占据整个语音识别工具的半边天。目前danpovey已经加入国内公司小米。

1 . 资源：

文档：http://kaldi-asr.org/doc/build_setup.html

论文：http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf

kaldi作者Dan Povey's博客：http://www.danielpovey.com/kaldi-lectures.html

gitbook上面中文教程Chinese Doc of Kaldi：https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html 版本比较老。

2 . 截止到2019年11月底github活跃情况：

kaldi语音识别大神povery的课程资料，帅帅家的人工智障公众号直接回复：201912151

PyTorch-Kaldi

Pytorch-Kaldi是一个开源的state-of-the-art DNN/RNN用于语音识别的项目。DNN部分依赖于Pytorch，数据预处理、特征提取、解码等依赖于Kaldi。

1 . 资源：

github：https://github.com/mravanelli/pytorch-kaldi

论文：https://arxiv.org/abs/1811.07453

vedio：https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

Next Version: SpeechBrain

2 . 截止到2019年11月底github活跃情况：

哔哩哔哩视频链接：

https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain项目旨在完全基于PyTorch构建新颖的语音工具包。借助SpeechBrain，用户可以轻松创建语音处理系统，范围包括语音识别（HMM / DNN和端到端的系统），说话人识别，语音增强，语音分离，多麦克风语音处理等。

目前只有预告还没有正式发布

1 . 资源：

主页：https://speechbrain.github.io/

github：https://github.com/speechbrain/speechbrain.github.io

vedio：https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

2 . 截止到2019年11月底github活跃情况：

哔哩哔哩视频链接：

https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

pykaldi

PyKaldi是Kaldi语音识别工具包的Python脚本层。为Kaldi和OpenFst库中的C ++代码提供了易于使用，开销低，一流的Python包装器。可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情，例如调用低级Kaldi函数，在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。

1 . 资源：

文档：https://pykaldi.github.io/

github：https://github.com/pykaldi/pykaldi

论文：https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

2 . 截止到2019年11月底github活跃情况：

ESPnet

ESPnet是一个端到端的语音工具，专注于端到端的语音识别和端到端的文本转语音。使用chainer和pytorch作为主要的深度学习引擎（框架）。遵循kaldi风格的数据处理、特征提取和格式化等。提供了一个完整的pipline。

1 . 资源：

文档：https://espnet.github.io/espnet/

github：https://github.com/espnet/espnet

论文：https://arxiv.org/abs/1804.00015?context=cs

2 . 截止到2019年11月底github活跃情况：

图像那边也有一个ESPnet，比如这个语义分割的演示视频：https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989

其他语音工具

1 . 其他著名语音识别引擎及其特点：

2 . 移动或者手机端：

3 . 还有一些wiki的可以参考的：

wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software

我之前上传b站的一些国外的语音相关的视频【语音自然语言深度学习课程】Deep Learning for Speech and Language（合辑）（英文字幕部分）

https://www.bilibili.com/video/av38854819/

【语音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment（英文字幕）

https://www.bilibili.com/video/av36308563/

【语音Speaker Verification 】Generalized End-to-End Loss for Speak（英文字幕）

https://www.bilibili.com/video/av36308874/

【语音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe（英文字幕）

https://www.bilibili.com/video/av36308701/

【两分钟论文】This AI Learned To Isolate Speech Signals（英文字幕）https://www.bilibili.com/video/av35977892/

语音识别相关工具和资料分享相关推荐

kaldi语音识别实战pdf_语音识别相关工具和资料分享
作者:帅帅家的人工智障原创文章,转载请申请原作者同意常见的语音相关工具很多,这里介绍几种常见的工具.主要有Kaldi.PyTorch-Kaldi.SpeechBrain.pykaldi.ESPne ...
资料分享：推荐一本《李宏毅机器学习》开源电子书！
背景今天在 github 上看到了 datawhale 发布的李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...
资料分享：推荐一本《简单粗暴TensorFlow 2.0》开源电子书！
背景本开源电子书是一篇精简的 TensorFlow 2.0 入门指导,基于 TensorFlow 的 Eager Execution(动态图)模式,力图让具备一定机器学习及 Python 基础的开发 ...
资料分享：数学建模资料分享 -- 神经网络部分
背景周日的时候,为数学建模俱乐部的同学们进行了一场有关人工神经网络方面的分享.虽然在这个方面有一些积累,但过于零散,所以拿了一堆文件拼凑成整体的内容. 幸亏自己有分享的习惯,学会一些知识就写下来,这 ...
资料分享：数学建模资料分享 -- 图论部分
背景今天上午,在教六第一阶梯教室为数学建模俱乐部的同学们分享了有关图论的基本知识和应用. 课后,为同学们留了一个算法实现的小练习,大家可以先做一下.在本图文的末尾处,我把上课的资料以及代码分享出来, ...
资料分享：送你一本《数据结构（C#语言版）》电子书！
对于信息类专业的学生而言,数据结构与算法是一门必修的课程.只有学好这门课程,熟练掌握线性表.栈.队列.树.图等基本结构,以及在这些结构上的各种算法,才能利用计算机去解决实际问题. 如何学好这门课程呢, ...
基于bmob的校园资料分享互助平台
为什么80%的码农都做不了架构师?>>> 参赛者姓名 : 王滔(个人参赛) 简介:在学校学习难免会需要一些同个学校的学习资料.如试卷,复习提纲等,网上查找有如大海捞针.这 ...
[资料分享]GIS+=地理信息+云计算+大数据+容器+物联网+...论文、会议、讲座资料分享...
2019独角兽企业重金招聘Python工程师标准>>> [资料分享]GIS+=地理信息+云计算+大数据+容器+物联网+...论文.会议.讲座资料分享超图研究所致力于打造一个GIS+ ...
【云周刊】第132期：走近40+世界级AI专家！第三届中国人工智能大会资料分享...
本期头条 [演讲实录+视频]走近40+世界级AI专家!第三届中国人工智能大会资料分享(不断更新) 中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高.规模最大 ...

语音识别相关工具和资料分享

语音识别相关工具和资料分享相关推荐

最新文章

热门文章