语音信号处理基础(一)

文章目录

  • 语音信号处理基础(一)
    • 1.绪论
      • 1.1概述
      • 1.2语音信号处理的三个主要分支
        • 1.2.1 语音合成
      • 名词解释
        • 共振峰
        • 基音(fundamental tone)
        • 基因同步叠加(PSOLA)

1.绪论

1.1概述

语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

语音信号处理技术主要可以应用到:

  1. 数字电话通信

  2. 高音质的窄带语音通信系统

  3. 语言学习机

  4. 声控打字机

  5. 自动翻译机

  6. 智能机器人

  7. 新一代计算机语音智能终端

  8. 许多军事上的应用

语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语音学、计算机科学、模式识别和人工智能等学科有着紧密的联系。

语音信号处理的目的

是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。

随着现代科学和计算机技术的发展,除了人与人之间的自然语言的通信方式之外,人机对话及智能机器等领域也开始使用语言。

语音信息的交换大致上可以分为三大类:

  1. 人与人之间的语音通信:包括语音压缩与编码、语音增强等

  2. 第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成

  3. 第二类人机语音通信问题,指的是人讲话、机器听话的情况,即语音识别和理解

1.2 语音信号处理的发展

1876年:贝尔电话的发明,该技术首次用声电、电声转换技术实现了远距离的语音传输。

1939年:Homer Dudley提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。

19世纪60年代:亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。

20世纪40年代:一种语言声学的专用仪器——语谱图仪问世了。

1948年:美国Haskins实验室研制成功“语音回放机”,该仪器可以把手工绘制在薄膜上的语谱图自动转换成语音,并进行语音合成

20世纪50年代:语言产生的声学理论开始有了系统的论述。

随着计算机的出现,语音信号处理的研究工作得到了计算机技术的帮助,使得过去受人力、时间限制的大量的语音统计分析工作,得以在电子计算机上进行。在此基础上,语音信号处理不论在基础研究方面,还是在技术应用方面,都取得了突破性的发展。

1.2语音信号处理的三个主要分支

语音合成技术、语音编码和语音识别技术)的发展和现状。

1.2.1 语音合成

 最早的合成器:1835年:W.von Kempelen发明,经Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程,分别用风箱、特别设计的哨和软管来模拟肺部的空气动力、模拟口腔。最早的电子式语音合成器:1939年:Homer Dudley发明的声码器,它不是简单地模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是采用计算机产生高清晰度、高自然度的连续语音。早期的研究主要采用参数合成方法:1973年:Holmes发明的并联共振峰合成器1980年:Klatt发明的串/并联共振峰合成最具代表性的文本转换系统:1987年:美国DEC公司的DECtalk自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基因同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。20世纪90年代:基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。我国的汉语语音合成研究起步较晚,但从20世纪80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。现阶段语音合成的最大进展是已经能实时地将任意文本转换成连续可懂的自然语句输出。

名词解释

共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。

共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征语音编码传输的基本信息

共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。

共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰。

目前的提取语音共振峰的方法:倒谱法、LPC(线性预测编码)谱估计法、LPC倒谱法等 。

(1)基于线性预测(LPC)的应用技术现状

肺部气流冲击声带通过声道的响应,形成语音。不同的声道形状产生不同的声道响应,导致不同的语音。就声道的数学模型,主要有两种观点:

a.把声道看作由多个不同截面积的声管串联而成,即声管模型;

b.把声道看作谐振腔,共振峰就是该腔体的谐振频率,即共振峰模型。

因人耳听觉的柯替氏器官就是按频率感受而排列其位置的,实践证明共振峰模型方法是非常有效的。线性预测编码(LPC)是进行语音信号分析、语音信号编码最有效的技术之一 ,其重要性在于提供了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱,而分析它们所需的计算量相对而言并不大口 语音信号共振峰的LPC分析方法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰频率带宽。在过去的研究中,已有许多利用LPC分析提取共振峰方法被提出 。

(2)倒谱法的应用技术现状

倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到基音频率和共振峰信息,但它的运算量比较大。

当采用无噪语音时,用倒谱进行基音提取的效果是很理想的。

当存在加性噪声时,在对数功率谱的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这意味着倒谱的输入不再是纯净的周期性成分,而倒谱中的基音峰值将会展宽,并受到噪声的污染从而使倒谱检测方法的灵敏度也随之下降。在基音估计中还可以使用经过中心削波或三电平削波后的自相关方法,这种方法在信噪比低的情况下可以获得良好的性能。

基音(fundamental tone)

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音( 发音体整体振动产生的音(振动长度越大,频率越小),决定音高 ),其余为泛音( 发音体部分振动产生的音,决定音色 )。

基因同步叠加(PSOLA)

PSOLA是用于波形编辑语音合成技术中对合成语音的韵律进行修改的一种算法。

PSOLA算法的核心是基音同步,它把基音周期的完整性作为保证波形及频谱连续的工作前提。因此首先要对输入的原始语音波形进行基音标注,浊音有基音周期,而清音的波形接近于白噪声,所以在对浊音信号进行基音标注的同时,为保证算法的一致性可令清音的基音周期为一常数,基音标注的内容包括:开始标注的位置(即周期信号在语音信号段中的起始点)、基音周期的个数每个基音周期的起始点在语音询号中的位置序列。进行完语音标注后的合成基元的原始波形,可使用PSOLA算法以基音周期为单位进行波形段的插入、删除和修改。
PSOLA算法分以下三个步骤:

(1)对原始波形进行分析,产生非参数的中间表示

(2)对中间表示形式进行修改

(3)将修改过的中间表示重新合成为语音信号。

语音信号处理基础(一)相关推荐

  1. 语音信号处理基础(四)—语音编辑

    语音信号处理基础(四)-语音编辑 文章目录 语音信号处理基础(四)-语音编辑 实验目的 实验原理 1.信号的叠加 2.信号的卷积 3.信号采样频率的变换 实验目的 1.掌握语音信号线性叠加的方法,实现 ...

  2. 语音信号处理基础(二)

    语音信号处理基础(二) 1.2.2 语音编码 语音编码的目的 保证在一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源. 语音编码技术的鼻祖:研究开始于1939年军事保密通信的需要,贝尔电话实 ...

  3. 深度学习中的语音信号处理基础

    文章目录 音频处理流程 常用谱:幅度谱.梅尔谱 时域 --> 频域 分帧 窗长 帧移 语音信号特征获取流程 梅尔谱 使用 librosa 提取梅尔谱 使用 tacotron 获取梅尔谱(推荐) ...

  4. 语音信号处理基础与MFCC

    讲道理,想要处理语音这种时间信号,最适合RNN或者SNN这种神经网络来进行识别,传统的方法是基于GMM+HMM的方式进行声学模型以及语言模型的建模.现在的语音识别往往引入神经网络,进行端到端(end- ...

  5. 语音信号处理基础(八)——同态处理、倒谱、复倒谱

    文章目录 1.对短时过零率针对不同语音片段进行验证 2.验证窗函数 3.语音的同态处理.复倒谱.倒谱 倒谱图形分析 总结: 1.对短时过零率针对不同语音片段进行验证 短时平均过零率表示一帧语音中语音信 ...

  6. 语音信号处理基础(五)——语音分帧与加窗

    文章目录 原理 1.加窗 2.分帧 一般而言语音处理的目的有两种: 一种是对语音信号进行分析,提取特征参数,用于后续处理: 提取的特征参数主要有语音的短时能量和平均幅度.短时平均过零率.短时自相关函数 ...

  7. #语音信号处理基础(十一)——梅尔倒谱系数的提取

    文章目录 1.Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients) 2.梅尔参数的提取 1.Mel频率倒谱系数(Mel-Frequency Cepstral C ...

  8. # 语音信号处理基础(十)——梅尔倒谱系数

    文章目录 1.定义 2.Mel频率分析 3.编写Mel滤波器函数 1.定义 在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就 ...

  9. 语音信号处理-基础(二): 发声生理、听觉生理与听觉心理

    一.语音的来源 1.声带 喉部的声带是对发音影响很大的器官. 声带的声学功能是为语音提供主要的激励源: 由声带震动产生声音,是形成声音的基本声源. 2.基频 声带开启和闭合使气流形成一系列脉冲,每开启 ...

最新文章

  1. 认清自己,愉快度过每一天
  2. 【代码笔记】iOS-获得设备型号
  3. 利用Comet4J 及时推送消息
  4. python打包不能在其他电脑打开、找不到指定模块,pyinstaller打包移植到别的电脑报错OSError: [WinError 126] 找不到指定的模块。...
  5. 计算机职称在线考试报名系统,计算机职称考试报名时间及入口2021年9月
  6. 了解Java的发展史
  7. STL工具书(常用用法总结)
  8. centos7 + python 2.7 + pip + openvswitch 杂项问题
  9. 【哈工大SCIR笔记】自然语言处理中的迁移学习(上)
  10. 孪生再世代表数字几_征稿通知 |高电压技术“数字孪生技术在能源互联网中的应用”专题征稿通知...
  11. eplan p8详细安装步骤文库_eplan p8详细安装步骤
  12. FreeBSD——艺术、科学、哲学概论
  13. 各类花里胡哨的XSS攻击举例解读(正在持续更新中~)
  14. Oracle 工具篇+Oracle Remote Diagnostic Agent(RDA)
  15. 【PHP攻城狮】【前端面试】【Vue.2x】【黑苹果】【创造力】| Chat · 预告
  16. 挖掘服务器ads怎么修改密码,数据管理服务器ADSADX.PDF
  17. UE4-如何做一个简单的TPS角色(一)-创建一个基础角色
  18. 开关电源环路学习笔记(3)-系统框图
  19. MAC系统字体库存放目录
  20. 金蝶K3采购暂估案例教程3差额调整

热门文章

  1. Python3.8 安装gmpy2 教程, 无法安装gmpy2解决方案
  2. 【HDOJ7055】Yiwen with Sqc(字符串,区间出现次数平方和,两次差分)
  3. 2021年度训练联盟热身训练赛第四场,签到题CDF
  4. C语言经典弱智问题解法整理
  5. Python入门--os.walk
  6. 【BZOJ4318】OSU!【期望DP】
  7. C++练习题(数组1)
  8. RayMarching2:给球加上光照
  9. Codeforces Round #323 (Div. 2): C. GCD Table(思维题)
  10. 牛客国庆集训派对Day3: I. Metropolis(dijkstra)