语音合成vocoder(一) 概况
Question1: vocoder在合成中的角色???
合成概况
语音合成主要有波形拼接和参数合成两种方法[1]。
波形拼接方法
使用原始语音波形替代参数,合成的语音清晰自然,质量相比于参数合成方法要好。PSOLA(pitch synchronous overlap add)算法可以对拼接单元的韵律特征进行调整。
参数合成方法
提取参数->HMM建模->合成参数->波形重建
合成中的vocoder的作用主要是:提取语音信号的相关参数;根据相关参数合成出最终的语音。一些vocoder[2]如下:
- STRAIGHT可以产生高质量的合成效果,但是速度慢
- Real-time STRAIGHT在STRAIGHT基础上简化了算法,虽然速度变快,但是以损失性能为代价
- TANDEM-STRAIGHT相比STRAIGHT性能差不多,但是做不到实时。
- WORLD相比于TANDEM-STRAIGHT,它在性能不变的前提下,减少了计算复杂度,实现了实时的合成。
WORLD是基于vocoder的语音合成工具
- F0 DIO->Harvest
- aperiodicity PLANTIUM->D4C
- spectral envelope CheapTrick
Question2: vocoder为什么可以用以上的三个参数来进行语音合成???
发声建模
上图基于人发声机理的经典源-滤波器(source-filter)模型,其中源激励部分对应于肺部的气流和声带共同作用形成的激励,声道谐振部分对应于声道的调音运动。
声道模型
两种建模方法:
- 将声道看成多个不同截面积的短管串联而成的系统,“声管模型”
- 将声道看做一个谐振腔,“共振峰模型”
激励模型
声带激励分为两类,可以产生清音(/p/ /b/)或者浊音(/m/ /a/)。辅音有清有浊,而多数语言中元音均为浊音。
- 浊音(voiced)
气流通过紧绷的声带,对声带进行冲击而产生振动,使声门处形成准周期性的脉冲串,激励信号简化为周期性的脉冲激励。 - 清音(unvoiced)
声带处于松弛状态,不发生振动,气流通过声门直接进入声道,激励信号简化为随机白噪声。
上面的二元激励模型将复杂的产生激励过程简单的划为两部分,大大简化了声门激励的特征,但是合成语音的自然度较低。
STRAIGHT引入了混合激励,浊音激励由分别通过高低通滤波器的随机噪声序列和脉冲序列相加,清音的激励源由噪声序列叠加一个位置随机的正脉冲并跟随一个负脉冲构成的脉冲对形成的爆破脉冲。[3]
对应关系
- F0对应于激励部分的 e ( n ) e(n) e(n)中的周期脉冲序列
- spectral envelope对应于声道谐振部分的 h ( n ) h(n) h(n)
- aperiodicity对应于混合激励部分的 e ( n ) e(n) e(n)中的非周期序列
混合激励可以通过aperiodicity来控制浊音段中的周期激励和噪声成分的相对比重
声音指标
- 音高
跟声波的基频F0有关,影响声音的声调(汉语的四种声调),跟声带震动的快慢有关 - 响度
跟声波的振幅有关,声音的大小 - 泛音
假设某个音的基频为f,则频率为2f的音称为第二泛音,频率为3f的音称为第三泛音 - 音色
基音和不同泛音的能量比例关系是决定一个音的音色的核心因素。跟声带的震动频率、发音器官的送气方式、声道的形状尺寸有关。 - 共振峰
共振峰是用来描述声源内部的共振,特别是对乐器而言,指的是共鸣箱内的共振。
pitch跟声带有关(声带震动快慢),共振峰跟口腔的固有频率有关(不同的口型和舌位对应不同的共振峰)。
参考文献
[1].《语音信号处理》 韩纪庆
[2].WORLD: a vocoder-based high-quality speech synthesis system for real-time applications
[3].基于STRAIGHT 分析的高效语音合成算法研究
后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】
语音合成vocoder(一) 概况相关推荐
- 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
- FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
来源 | 微软研究院AI头条(ID: MSRAsia) 编者按:基于深度学习的端到端语音合成技术进展显著,但经典自回归模型存在生成速度慢.稳定性和可控性差的问题.去年,微软亚洲研究院和微软 Azure ...
- 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
作者 | 谭旭 转载自微软研究院AI头条(ID: MSRAsia) [编者按]目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成速度慢.稳定性差.可控性缺乏等.为此,微软亚 ...
- 基于Tacotron汉语语音合成的开源实践
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途.传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果 ...
- 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?
研究背景 语音合成系统主要分为两类,拼接合成系统和参数合成系统.其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.另一方面,物联网设备(例如智能音箱和智能电视)的大量普 ...
- 语音合成:模拟最像人类声音的系统
近年来随着深度学习技术的不断发展,语音合成技术也取得了突破性进展,也成为了很多设备的标配.比如siri通过手机跟我们讲冷笑话,车载音箱实时播报汽车的行进路线等等无不用到语音合成. 并且,深度神经网络在 ...
- 系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
(本文阅读时间:10 分钟) 编者按:语音合成一直以来是语言.语音.深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注.尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合 ...
- 开源声码器WORLD在语音合成中的应用
语音合成(TTS)是语音AI平台的基础设施,而声码器则决定着其中的声学模型以及合成质量.喜马拉雅FM音视频高级工程师 马力在LiveVideoStack线上交流分享中详细介绍了新一代合成音质更高,速度 ...
- 语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
最新文章
- Java学习从入门到精通的学习建议
- Java豆瓣电影爬虫——减少与数据库交互实现批量插入
- memcached 常用命令及使用说明
- 波卡链Substrate (6)Babe协议三“slot leader”
- python重要函数eval
- Ubuntu14.04-LAMP环境搭建
- bzoj 1221: [HNOI2001] 软件开发
- 鲍捷 | 知识表示——面向实战的介绍
- access没有使用 对象的必要权限_厨房有没有必要安燃气报警器 使用燃气要注意哪些安全性措施...
- NHibernate.3.0.Cookbook第三章第8节的翻译
- 兼容性极好的圆角边框
- IDEA 日常小技巧
- 《Unix编程艺术》
- 前端H5如何实现分享截图
- linux puppy 安装软件,小芭比linux下载
- MATLAB ttest和ttest2
- Mac securecrt 破解版安装
- 百度ai人体关键点识别
- OpenWrt之DNS 测试工具(nslookup、dig)
- CTF隐写术知识点总结