稿件来源:百度硅谷研究院
量子位授权转载 | 公众号 QbitAI

语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色。

百度硅谷人工智能实验室的研究员最近提出了一种全新的基于WaveNet的并行音频波形(raw audio waveform)生成模型ClariNet,合成速度比起原始的WaveNet提升了数千倍,可以达到实时合成速度的十倍以上。

更值得注意的是,ClariNet还是语音合成领域第一个真正的端到端模型:使用单个神经网络,直接从文本输入到原始音频波形输出。

注:ClariNet名称由来——clari词根在拉丁语中是clear, bright的意思。同时clarinet是一种”端到端”的乐器,而且其声音与人的声音接近

最近,百度硅谷人工智能实验室的研究员提出的ClariNet(合成语音展示),是一种全新的基于WaveNet的并行音频波形(raw audio waveform)生成模型。

WaveNet 是目前能够完美模仿人类声音的语音合成技术(注:Google I/O大会所展示的超逼真语音合成背后的支撑技术),自从其被提出,就得到了广泛的离线应用。

但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在online应用场合使用。ClariNet中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。

比起自回归的WaveNet模型,其合成速度提升了数千倍,可以达到实时合成的十倍以上(实时合成即合成1秒音频波形需要1秒钟的计算)。

ClariNet模型生成音频

对比DeepMind稍早提出的Parallel WaveNet,ClariNet中所用到的teacher WaveNet的输出概率分布是一个方差有下界的单高斯分布,并且直接使用最大似然估计来学习,并不需要引入任何额外的训练技巧。

特别值得瞩目的是,ClariNet中的概率分布蒸馏(probability density distillation)过程简单优美,直接闭式地(closed-form)来计算训练目标函数KL散度(KL divergence),大大简化了训练算法,并且使得蒸馏过程效率极高——通常5万次迭代后,就可以得到很好的结果(DeepMind的论文中需要100万步迭代)。

同时作者还提出了正则化KL散度的办法,大大提高了训练过程的数值稳定性,使得蒸馏学习过程简单易训练 。而Parallel WaveNet由于需要蒙特卡洛采样来近似KL散度,使得梯度估计的噪音很大,训练过程很不稳定,外界极难重现DeepMind的实验结果——截至目前开源社区无人能够成功重现。

更值得注意的是,ClariNet还是语音合成领域第一个完全的端到端系统(end-to-end system),可以通过单个神经网络,直接将文本转换为原始的音频波形(raw audio waveform)。而先前为业界所熟知的“端到端”语音合成系统(比如Google提出的Tacotron,百度之前提出的Deep Voice 3 ),实际是先将文本转换为频谱(spectrogram),然后通过波形生成模型WaveNet或者Griffin-Lim 算法,将频谱转换成原始波形输出。

这种方法由于文本到频谱的模型和WaveNet是分别训练优化的,往往导致次优的结果。而百度研究员提出的ClariNet,则是完全打通了从文本到原始音频波形的端到端训练,实现了对整个TTS系统的联合优化, 比起分别训练的模型,在语音合成的自然度上有大幅提升(参见文末合成语音示例)。

另外,ClariNet是全卷积模型,模型隐状态(hidden states)之间没有顺序依赖关系,可以完全利用GPU这样的并行计算资源,因而训练速度比起基于循环神经网络(RNN)的模型要快10倍以上。

ClariNet的网络结构如下图所示。

它使用基于注意力机制(Attention)的编码器-解码器模块(Encoder-Decoder)来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态(hidden states)被送给Bridge-net来进行双向的时序信息处理和升采样(upsample)。最终Bridge-net的隐状态被送给音频波形生成模块(Vocoder),作为其条件输入(conditioner),来最终合成原始音频波形。整个网络的各个模块,使用一维卷积操作(convolution block)来进行时序信息的建模。

传送门

论文地址:https://arxiv.org/pdf/1807.07281.pdf

合成语音示例:https://clarinet-demo.github.io/

资源推荐

扫码或点击“阅读原文”,可查看腾讯WeTest最新测试福利。

腾讯WeTest引入AI技术,开放“深度兼容测试”,并提供更多测试优惠,为广大测试者提高工作效率,降低测试成本

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文相关推荐

  1. Facebook开源移动端深度学习加速框架,比TensorFlow Lite快一倍

    方栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI Facebook发布了一个开源框架,叫QNNPACK,是手机端神经网络计算的加速包. 官方表示,它可以成倍提升神经网络的推理效率,几乎比T ...

  2. NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer,完全端到端学习,超强可扩展性...

    关注公众号,发现CV技术之美 ✎ 编 者 言  从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...

  3. 互联网日报 | 百度推出企业查询工具“爱企查”;滴滴货运宣布再开6城;京东健康推出家庭医生服务...

    今日看点 ✦ 百度推出企业信息查询工具"爱企查",打破企业查询付费模式 ✦ 淘宝天猫金华商家运营中心正式开业,为阿里全国首个商家运营中心 ✦ 京东健康推出家庭医生服务,未来5年将服 ...

  4. 百度ueditor富文本--PC端单个,PC端多个,mobile单个,mobile多个

    我们在之前的文章中已经做过富文本插件的调研. 富文本插件 Ueditor 是百度推出的一款开源在线 HTML 编辑器. http://fex-team.github.io/ueditor/ 比较好用, ...

  5. 百度云服务器网络检查,百度推出网站安全监测平台,为服务器提供安全漏洞扫描...

    原标题:百度推出网站安全监测平台,为服务器提供安全漏洞扫描 我无意间发现一个检查网站案例的工具:百度云扫描平台.可以为同学们提供网站的安全检查,下面将介绍如何利用这个安全平台为网站提供安全检测. 网站 ...

  6. 每日新闻 | 百度推出爱番番CRM开放平台 扶持入驻CRM服务商

    点击蓝字 关注我们 更多精彩,请点击上方蓝字关注我们! 每日新闻播报 第07-25期 1 趋势洞察 阿里云总裁张建锋:今年是传统IT上云分水岭 拐点已至 阿里云智能总裁张建锋在2019阿里云峰会上海站 ...

  7. zabbix搭建完,web端显示“zabbix服务器端运行中 不”

    zabbix搭建完,web端显示"zabbix服务器端运行中 不"如下图: 但是查看服务器的状态是running 然后查日志/var/log/zabbix/zabbix-serve ...

  8. 百度推出百度看看,在视频圈内真的“抗打”吗?

    摘要: 百度看看是百度单独做的视频APP,但它与市面上其他视频APP有所不同.从百度看看的内容来源来看,百度更像是想将百度看看打造成视频聚合平台,就像高德做网约车聚合平台一样一样.在目前百度面临的搜索 ...

  9. 百度推出海外版网盘:竟免费不限速

    百度和阿里一直都是大家的关注点...... 就前段时间阿里提供超大存储空间,又不限制下载速度,所以很多人都希望阿里网盘正式版尽快推出. 然后吧百度网盘应该是察觉到了危机,也是非常大方的赠送了一大波存储 ...

最新文章

  1. Redis 读写分离技术架构解析
  2. [转]我倡导无政府主义编程—Fred George访谈录
  3. 图的遍历递归和非递归实现
  4. 2021中国餐饮行业数字化调研报告
  5. XML编程-DOM4J
  6. Java 11 教程
  7. sklearn 中的 Pipeline 机制
  8. 汇编语言——移位指令
  9. kali破解无线WIFI密码
  10. matlab新手入门的简单操作
  11. Drupal主题介绍
  12. 【Cloudaily】3.15五招教你辨别真假云计算,2017 Gartner数据科学魔力象限出炉
  13. uniapp 安卓快捷方式插件(桌面长按app图标) Ba-Shortcut
  14. 用citespace对知网文献的关键词分析结果很少如何解决?
  15. FTP、FTPS frp(传送协议与内网穿透)
  16. response对象在servlet中的常用方法讲解
  17. MVC 音乐商店 第 9 部分: 注册和结帐
  18. mAPI软件升级到v1.4.0(正式版)
  19. 【详解】机器学习算法详解
  20. EXCEL地图可视化功能概览--小O地图EXCEL版0.6.3.0版

热门文章

  1. 罗永浩“重新定义” 的 TNT 黄了?
  2. 字节跳动架构师讲解Java开发!dockerstop命令
  3. javaweb中服务器响应,Java Web服务器响应与JSON
  4. java word转pdf_java里实现Word转PDF的几种方案
  5. oracle语法_PG数据库sql语法总结,与Oracle有什么不同?
  6. python实现knn分类_KNN图像分类及Python实现
  7. php输出下载地址,PHP实现的文件直接输出下载
  8. php 发送表单数据,php - 将表单数据发送到会话变量 - SO中文参考 - www.soinside.com...
  9. 使用mpx开发外卖小程序
  10. v8的垃圾回收机制(一)