语音信号处理入门入籍和课程推荐

欢迎关注我的公众号，微信搜一搜【音频信号处理那些事儿】获取更多信息。

由于看网上关于语音信号处理的入门书籍和课程推荐的比较少，同时相关的领域人员也比较少，所以建了这个公众号，欢迎各位同仁指正交流，谢谢。

本文是从我的公众号【音频信号处理那些事儿】选取而来的，所以直接复制了当时发文的内容。原文链接为【音频信号处理专栏】【2】入门书籍和课程推荐

作为刚刚入门音频信号处理（语音信号处理包括但不限于语音合成、语音识别、语音情感分析、车辆声音信号处理、麦克风阵列信号处理等）的小懵懂们总是会问以下问题（以下问题均摘自知乎）：

本人刚研一，想学习语音识别方面知识，请问有哪些入门书籍或者课程推荐？请求推荐，不胜感激？
本人大一，打算自学语音识别，不知道应该怎么入门？
语音识别有哪些好的资料（基础点）？
想学习语音识别技术，该怎么入门学习呢?
学习音频信号处理，该如何入门？
麦克风阵列信号处理怎么入门？
车辆声音信号处理（车辆声音检测、车辆声音目标识别）怎么入门？

之前我也有这些疑问，所以现在看到这些问题后，想要做出一个回答，确保之后入门的小懵懂们能够快速入门，不再耽搁到自己的科研和学习。嘻嘻，。如果对大家有用的话，欢迎大家关注公众号，给我私信鸭！

1、入门书籍

首先从入门书籍说起，入门书籍的话推荐以下基本书籍，通过这几本书，可以对音频信号处理的基础知识有个大概了解，掌握一些基本的音频信号处理方法。本文推荐书籍无先后排名顺序，大家可以挑选合适的书籍进行阅读。

1. 赵力.语音信号处理（第三版）[M]. 北京：机械工业出版社, 2016

书籍介绍：

本书介绍了语音信号处理的基础、原理、方法和应用，以及该学科领域近年来取得的一些新成果、新进展及新技术。全书共分十二章。内容包括：绪论；语音信号处理的基础知识；语音信号处理的常用方法（矢量量化、隐马尔可夫模型、神经网络）；语音信号的分析技术（语音分帧、语音信号频域分析、倒谱分析、线性预测分析、小波分析）；语音信号特征提取（端点检测、基音周期估计、共振峰估计）；语音增强（滤波器法、相关特征法、非线性处理法、减谱法、Weiner滤波法）；语音识别（语音识别原理和识别系统的组成、孤立词识别系统、连续语音识别系统）；说话人识别（说话人识别方法和系统结构、应用VQ、DTW、HMM的说话人识别系统）；语音编码（语音编码的评价指标、语音信号的波形编码、参数编码、混合编码）；语音合成与转换（语音合成算法、TTS、常用语音转换的方法）；语音信号的情感信息处理技术（情感理论与情感优化实验、情感的声学特征分析、实用语音情感的识别算法研究、跨语言的语音情感识别）；语音隐藏（基本语音信息隐藏算法）；声源定位（双耳听觉定位原理及方法、传声器阵列模型、基于传声器阵列的声源定位算法分类）。

2. 梁瑞宇,赵力, 魏昕.语音信号处理实验教程[M].机械工业出版社, 2016

书籍介绍：

本书是上面推荐的书籍《语音信号处理（第3版）》的配套实验教材。这本实验教材阐述了语音信号处理的基本理论，并基于MATLAB介绍了语音信号处理的实现方法和关键技术。本书共分13章，内容涵盖了语音信号处理基础实验、语音信号的变换域分析实验、语音信号特征提取实验、语音增强实验、语音编码实验、语音合成与转换、语音隐藏、声源定位、语音识别、说话人识别、语音情感识别。和前面的书籍配套使用效果较好，我这边有在网上下载过对应的源码文件，由于公众号文章无法贴百度云链接，有需要的可以私信公众号“语音信号处理实验源码”文件进行获取。欢迎大家找我私聊获取鸭！（期待你们打开窗口，私聊我哟~）

3. 宋知用.MATLAB语音信号分析与合成（第二版）[M]. 北京航空航天大学出版社, 2017.

书籍介绍：

语音信号处理是数字信号处理的一个重要分支。本书含有许多数字信号处理的方法和 MATLAB函数。全书共10章。第1_{4章介绍语音信号处理的一些基本分析方法和手段,以及相应的MATLAB函数;第5} 9章介绍语音信号预处理和特征的提取，包括消除趋势项和基本的减噪方法，以及端点检测、基音的提取和共振峰的提取，并利用语音信号进行处理的基本方法，给出了多种提取方法和相应的MATLAB程序；第10章结合各种参数的检测介绍了语音信号的合成、语音信号的变速和变调处理，还介绍了时域基音同步叠加( TD PSOLA)的语音合成，并给出了相应的MATLAB程序。附录A中给出了调试复杂程序的方法和思路。（悄悄说：本书的源码程序我也有，可以私信公众号“MATLAB语音信号分析与合成源码”获取）

前面推荐了两本中文书籍，下面推荐下英文书籍翻译过来的教材，假如你有些信号与系统的知识忘记了的话，可以买一本这个书籍或者在网上下载一本奥本海姆的《离散时间信号处理》看看，所以推荐的就是这本书**（PDF也可以私信公众号“离散时间信号处理”获取，没有下载快来私信我吧！）**

4. A.V.奥本海姆, R.W.谢弗, 奥本海姆, et al. 离散时间信号处理[M]. 西安交通大学出版社, 2001.

书籍介绍：

本书系统论述了离散时间信号处理的基本理论和方法，是国际信号处理领域中的经典权威教材。内容包括离散时间信号与系统，z变换，连续时间信号的采样，线性时不变系统的变换分析，离散时间系统结构，滤波器设计方法，离散傅里叶变换，离散傅里叶变换的计算，利用离散傅里叶变换的信号傅里叶分析，参数信号建模，离散希尔伯特变换，倒谱分析与同态解卷积。

5. Quatieri T . 离散时间语音信号处理:原理与应用[M]. 电子工业出版社, 2004.

书籍介绍：

本书可称为语音信号处理领域最新最好的指导书和参考资料。作者在所开设的麻省理工学院研究生课程的基础上，介绍了语音信号处理的主要原理、重要应用以及最新研究动态，并且指出了新的研究方向的进展和局限性。全书在理论和应用之间达到了极好的平衡。首先讲解了用于理解离散时间语音信号处理的完整理论基础，然后介绍了语音信号处理方面的重要研究进展，其中包括正弦语音处理、语音时频分析以及非线性声学语音产生模型，而这些进展情况在以往任何一本语音信号处理教科书中都不曾提及。本书在应用部分深入介绍了以下内容：语音编码、语音增强、语音综合、说话人识别、语音降噪、语音信号恢复、动态范围压缩等。值得注意的是，在本书的原理和应用部分恰当地加入了非常完整的实例和MATLAB习题。本书适合作为数字语音处理及相关方向的研究生教材，也可供有关领域的研究人员参考阅读。

以下两本书是看到知乎上【微软亚洲研究院】推荐的书籍，想要列全，所以引用了下。

6. Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of speech recognition[M]. Tsinghua University Press, 1999.

书籍介绍：
A theoretical, technical description of the basic knowledge and ideas that constitute a modern system for speech recognition by machine. The book covers production, perception and acoustic-phonetic characterization of the speech signal, signal processing recognition, pattern comparison techniques, speech recognition system and analysis methods for speech design and implementation, theory and implementation of hidden Markov models, speech recognition based on connected word models, large vocabulary continuous speech recognition and task-oriented application of automatic speech recognition.

**主要内容：**本书是两位语音领域的泰斗——前贝尔实验室主任L. Rabiner教授和美国国家工程院院士庄炳煌教授合著，完整论述了现代语音识别的基本问题和思想，包括语音信号产生、感知和语音信号的声学以及语音学特征、语音识别的信号处理和分析方法、模式比较、以及语音识别系统的设计和实现。其中详细介绍了隐马尔可夫模型理论和实现、孤立词/连接词模型、大词汇连续语音识别、特定任务语音识别等。

7. Huang, Xuedong & Acero, Alex & Hon, Hsiao-Wuen. (2001). Spoken Language Processing: A Guide to Theory, Algorithm, and System Development.

书籍介绍：

Preface Our primary motivation in writing this book is to share our working experience to bridge the gap between the knowledge of industry gurus and newcomers to the spoken language processing community. Many powerful techniques hide in conference proceedings and academic papers for years before becoming widely recognized by the research community or the industry. We spent many years pursuing spoken language technology research at Carnegie Mellon University before we started spoken language RandD at Microsoft. We fully understand that it is by no means a small undertaking to transfer a state-of-the-art spoken language research system into a commercially viable product that can truly help people improve their productivity. Our experience in both industry and academia is reflected in the context of this book, which presents a contemporary and comprehensive description of both theoretic and practical issues in spoken language processing. This book is intended for people of diverse academic and practical backgrounds. Speech scientists, computer scientists, linguists, engineers, physicists, and psychologists all have a unique perspective on spoken language processing. This book will be useful to all of these special interest groups. Spoken language processing is a diverse subject that relies on knowledge of many levels, including acoustics, phonology, phonetics, linguistics, semantics, pragmatics, and discourse. The diverse nature of spoken language processing requires knowledge in computer science, electrical engineering, mathematics, syntax, and psychology. There are a number of excellent books on the subfields of spoken language processing, including speech recognition, text-to-speech conversion, and spoken language understanding, but there is no single book that covers both theoretical and practical aspects of these subfields and spoken language interface design. We devote many chapters systematically introducing fundamental theories needed to understand how speech recognition, text-to-speech synthesis, and spoken language understanding work. Even more important is the fact that the book highlights what works well in practice, which is invaluable if you want to build a practical speech recognizer, a practical text-to-speech synthesizer, or a practical spoken language system. Using numerous real examples in developing Microsoft’s spoken language systems, we concentrate on showing how the fundamental theories can be applied to solve real problems in spoken language processing.

主要内容:

本书对口语处理中所涉及的理论和实践问题进行了全面的论述。口语处理包含声学、音韵、语音、语言、语用、话语等多样多层次的知识，涉及到计算机科学、电子工程、数学、语法和心理学等多领域，其应用包括语音识别、语音合成和口语理解。本书系统介绍上述应用所需要的理论基础（包括概率统计、信息论、模式识别、语音信号处理、语音特征表达、语音编码），然后从实践角度详细介绍了语音识别系统（包括声学模型、环境鲁棒性、语言模型、搜索算法尤其是大词汇搜索算法、包含数据准备和词典的语音合成技术、结构化特征、文本归一化、韵律、合成方法），最后还介绍了口语理解的相关内容。本书涵盖了口语处理中的基本理论以及需要解决的实际问题。

8. 俞栋, 邓力, 俞凯, et al. 解析深度学习:语音识别实践[M]// 解析深度学习：语音识别实践. 电子工业出版社, 2016.

书籍介绍：
本书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用，包括"深度神经网络-隐马尔可夫混合模型"的训练和优化，特征表示学习、模型融合、自适应，以及以循环神经网络为代表的若干先进深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读，所有的算法及技术细节都提供了详尽的参考文献，给出了深度学习在语音识别中应用的全景。

9. 葛世超等. 实时语音处理实践指南[M].北京：电子工业出版社,2020.

书籍介绍：
本书主要介绍基于互联网场景的交互式实时语音处理流程，内容涉及智能语音助手、智能音箱、音/视频会议等，具体包括实时语音信号处理、数字音效、网络传输编/解码和语音唤醒识别四部分。在阐述各部分的内容时，本书从基本概念和原理入手，将理论和实践相结合，并细致分析了极具商业价值的实例，以帮助读者了解相关算法在工程上是如何实现的。另外，为便于有兴趣的读者快速进行算法验证并将其改进和应用到实际的项目中，作者也开源了书中算法的源码。

这里附上这本书的gitbook链接（不过有些章节作者没有补充，可以参考他的博客），gitbook链接为：实时语音处理实践指南gitbook，博客应该是这个：实时语音处理实践指南作者博客

洪青阳：语音识别：原理与应用

后来经读者补充，说厦门大学洪庆阳老师的书和slides也不错，去看了下，确实也很适合入门，书名是《语音识别：原理与应用》，slides可以在洪青阳老师的实验室主页下载获取（也可以关注公众号【音频信号处理】后-私信源码获取）

麦克风阵列信号处理书籍推荐

上面的书籍是针对语音的书籍，如果有研究方向为麦克风阵列信号处理的，有以下几本书籍推荐，感觉写的不错，有些方法在阵列中比较常见，推荐阅读。

张小飞, 陈华伟, 仇小锋.阵列信号处理及 MATLAB 实现[M]. 北京：电子工业出版社,2015.

书籍介绍：
阵列信号处理是信号处理领域的一个重要分支，它采用传感器阵列来接收空间信号。与传统的单个定向传感器相比，阵列信号处理具有灵活的波束控制、较高的信号增益、极强的干扰抑制能力，以及更高的空间分辨能力等优点，因而具有重要的军事、民事应用价值和广阔的应用前景。具体来说，阵列信号处理已用于雷达、声纳、通信、地震勘探、射电天文及医学诊断等多种国民经济和军事领域。本书共12章，主要内容涵盖波束形成、DOA估计、二维DOA估计、宽带阵列信号处理、阵列分布式信源定位、阵列近场信源定位、稀疏阵列信号处理、向量传感器阵列信号处理及其MATLAB实现等。

王永良.空间谱估计理论与算法[M]. 清华大学出版社, 2004

书籍介绍：
空间谱估计是阵列信号处理中的一个重要研究方向，在雷达、通信、声呐等众多领域有极为广阔的应用前景。本书深入、系统地论述了空间谱估计的理论、算法及一些理论方法之间的关系，总结了作者多年来的研究成果以及国际上这一领域的研究进展。全书由14章组成，主要内容有空间谱估计的研究进展、信号源数估计、线性预测（LP）类算法、MUSIC类算法、子空间拟合类算法、旋转不变子空间（ESPRIT）类算法、子空间迭代与更新、特殊信号的空间谱估计、特殊阵列的空间谱估计、阵列误差校正方法、现代信号处理在空间谱估计中的应用及多维空间谱估计等。

Jacob B , Jingdong C , Yiteng H , et al. Microphone Array Signal Processing[J]. The Journal of the Acoustical Society of America, 2009.

经过与群里的小伙伴（公众号的技术交流群）交流后，这本书也很好，之前也看过，只是忘记名字了，这本书也可以私信公众号“源码”获取。

鄢社锋, 李启虎. 《优化阵列信号处理》(上、下册)[J]. 声学学报, 2018(4).

从百度百科的介绍目录来看，也很适合入门，这个也是群里的小伙伴推荐的，感觉不错。
目录为：
前言
第1章绪论
第2章阵列信号处理数学模型
第3章规则阵波束设计
第4章波束稳健性分析
第5章稳健波束设计
第6章波束旁瓣设计
第7章波束主瓣设计
第8章宽带波束形成
第9章宽带优化波束设计
参考文献
附录A二阶锥规划方法
附录B部分主要的符号说明
附录C设计实例目录 [1]
词条图册

2、推荐课程

大家可以看下我在知乎的回答，可以直接链接到课程网址，嘿嘿。语音信号处理入门书籍和课程推荐

看完之前的书籍后，相信大部分小伙伴都应该已经入门了，这里还有一些课程，可以推荐给大家同步学习。

李宏毅《深度学习人类语言处理》国语(2020)（视频教程）
数字语音处理李琳山2019
中国科学技术大学：Fundamentals of Speech Signal Processing
Automatic Speech Recognition（课程）
UCL的声学所课程：UCL Phonetics & Linguistics
语音的基础课程-数字信号处理：Digital Signal Processing
Department of Computer Science and Technology

3. 工作准备

学习了这么多课程后，最终可能是去找工作，或者继续读博，如果找工作的话，建议大家在早点做如下准备：

1、刷题。主要是剑指offer以及leetcode等题目（及早准备刷题，这样在找工作的时候不会慌乱）

2、学习以上书籍和课程，夯实专业基础知识

3、简历模板：百度**“wondercv”或者“latex工作室”**（麻烦这两家看到后麻烦给我打钱，哈哈哈），参考模板修改自己的简历（简历之后找工作的时候准备）

Tips:

找工作的话能找到内推就先找内推（内推信息可以在牛客网上找到）。关于面试经验、内推信息还有刷题的也是可以去牛客网。牛客网的讨论区可以看到这些信息，在线编程那里有编程题，leetcode可以去leetcode官网刷题，最好还要有一本算法书，确保对算法和数据结构较为熟悉，面试官会问到相关概念。

交流群

欢迎加入公众号读者群一起和**“音频信号处理”的小伙伴交流交流，目前群里有各个公司的师兄师姐（可以帮忙内推）还有在读的同学，可以在公众号【音频信号处理信号那些事儿】聊天框私信“加群”并备注下“昵称+学校/公司+研究方向”**，例如“张三+上海交大/字节跳动+语音识别”，请按照格式备注，谢谢合作！添加进群后，在群里欢迎发送招聘、求职广告，其他广告请咨询群主是否可以发送。谢谢理解~

投稿、合作欢迎联系：Boener@163.com，也可以直接关注公众号私聊即可