在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。

Google利用WaveNet技术,以英文/日文更新了Google Assistant的语音功能,可选择男性或女性。对于那些对虚拟助理有语音偏好的人来说,这是一个期待的选择。

新版本可以产生更高的波形分辨率以及比原来快1000倍的保真度。

计算方法

为了理解WaveNet如何改进现有技术水平,了解文本到语音(TTS)或语音合成系统如何工作是非常有用的。

这些大多数都是基于所谓的concatenative TTS,它使用大量高质量录音数据库,从多个小时的单个人声收集数据。这些记录被分割成微小的chunks,然后将其组合或连接,以形成完整的话语。

然而,这些系统可能导致不自然的声音,并且也难以修改,因为每当需要一组改变(例如新的情绪或语调)时,需要纪录全新的数据库。

为了克服这些问题,有时使用称为parametric TTS的替代模型。这个模型不需要通过使用一系列关于语法和嘴型的规则和参数,来引导计算机生成的语音来连接声音。虽然省时省力,但这种方法创造的声音不那么自然。

WaveNet采取完全不同的方法。在论文中,我们描述了一个深刻的生成模型,可以从头开始创建单个波形,每次一个样本,每秒16,000个样本,以及各个声音之间的无缝转换。

由卷积神经网络的结构生成的原始WaveNet模型

它是使用卷积神经网络构建的,该网络在大量语音样本数据集上进行了训练。在这个训练阶段,网络确定了语音的底层结构,比如哪些音调是相互依存的,什么波形是现实的(哪些不是)。

然后训练好的网络一次合成了一个样本,每个生成的样本都考虑到前一个样本的属性。所产生的声音包含自然语调和其他功能,如嘴型。它的“口音”取决于它所接受的声音,打开了从混合数据集中创建任何数量的独特声音的可能性。与所有文本到语音系统一样,WaveNet使用文本输入,来告诉它应该产生哪些字以响应查询。

使用原始模型以如此高的保真度,建立声波在计算上是昂贵的,WaveNet带来了新的曙光,但并不是可以在现实世界中部署的。

但在过去12个月中,DeepMind的团队一直在努力开发一种,能够更快地生成波形的新版本。它现在也能够大规模运行,是第一个在Google最新的TPU云基础设施上推出的产品。

新的WaveNet改进模型仍然生成原始波形,但速度比原始模型快1000倍,意味着创建一秒钟的语音只需要50毫秒。事实上,该模型不仅仅是速度更快,而且更高的保真度,能够每秒产生24,000个采样波形。我们还将每个样本的分辨率从8位增加到16位,与光盘中使用的分辨率相同。

这使得新模型根据人类听众的测试更自然的发声。例如,美式英语发音的平均得分(MOS)为4.347(以1-5的scale),人类的语音评分也只有4.667。

新模型还保留了原始WaveNet的灵活性,使我们能够在训练阶段更好地利用大量数据。具体来说,我们可以使用来自多个语音的数据来训练网络。即使在所需输出语音中几乎没有训练数据可用,也可以用于生成高质量,细微的声音。

wavenet博客:http://suo.im/3i5AkL

WaveNet论文:https://arxiv.org/pdf/1609.03499.pdf

★推荐阅读

初学者必读的八个趣味机器学习项目

AMD深度学习开源战略

香港科技大学PyTorch四日速成教程

北京龙泉寺:清华北大学子排队出家

香港科技大学三天速成TensorFlow教程 

谷歌新品发布会:赋能AI 三大原则 软硬结合

深度学习软件安装指南

谷歌教你零编程基础玩转机器学习

中科院谭铁牛爱徒研发碟中谍中的步态识别技术

专访深度学习之父Geoffrey Hinton

长期招聘志愿者

加入「AI从业者社群」请备注个人信息

添加小鸡微信  liulailiuwang

速度快1000倍!DeepMind更新WaveNet用于Google助手相关推荐

  1. 量子的飞跃:下一代D-Wave量子芯片计算速度能快1000倍

    导读:量子计算机(Quantum Computer)是一种使用量子逻辑进行通用计算的设备.不同于电子计算机(或称传统电脑),量子计算机用来存储数据的对象是量子比特,它使用量子算法进行数据操作. 我们也 ...

  2. Google 超分辨率技术 RAISR:模糊图片瞬间变清晰,运算速度快十倍

    Google 超分辨率技术 RAISR:模糊图片瞬间变清晰,运算速度快十倍 Everyday the web is used to share and store millions of pictur ...

  3. 一切为了AI!黄仁勋GTC大会发布全新DPU处理器,计算吞吐量三年跨越1000倍

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 编辑:白峰.QJP [导读]昨晚的GTC大会,英伟达推出了包括数据中心.边缘人工智能. ...

  4. 加州理工华人博士提出傅里叶神经算子,偏微分方程提速1000倍,告别超算!

    视学算法报道   编辑:LRS [新智元导读]偏微分方程存在于生活中的方方面面,但这个方程通常需要借助超算才能求解.最近加州理工的一个博士生提出了一种傅里叶神经算子,能让求解速度提升1000倍,从此让 ...

  5. 1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器人要如何完成这样一个动作? 我们一般会基于强化学习,在仿真环境中进行模拟训练. 这时,如果在一台机器的CPU环境下进行模拟训练,那么需要 ...

  6. 速度比晶体管快1000倍,新型单光子开关登上Nature

    来源:机器之心 作者:CHARLES Q. CHOI 一种新型光学开关每秒钟的运行次数达到 1 万亿次,要比现在商用的顶级硅芯片快100到1000倍,这项研究未来或许可以催生出基于光而不是电的新一代计 ...

  7. 需求调研 现有系统梳理_对速度的需求,访问现有数据的速度提高了1000倍

    需求调研 现有系统梳理 了解如何通过使用标准Java 8流和Speedment的In-JVM-Memory加速器将分析数据库应用程序加速1000倍. Web和移动应用程序有时会很慢,因为后备数据库很慢 ...

  8. 对速度的需求,访问现有数据的速度提高了1000倍

    了解如何通过使用标准Java 8流和Speedment的In-JVM-Memory加速器将分析数据库应用程序加速1000倍. Web和移动应用程序有时会很慢,因为后备数据库很慢和/或与数据库的连接施加 ...

  9. 关注 | 新冠病毒这次的突变毒株太可怕,与人受体亲和力提高了1000倍,传播提高70%!已经成为伦敦地区主要毒株...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

最新文章

  1. pandas使用bdate_range函数获取起始时间(start)和结束时间(end)范围内的所有工作日日期(business day)
  2. Matlab图形绘制经典案例 (1)
  3. hankel--生成Hankel矩阵
  4. 统计自然语言处理笔记
  5. SpringMVC注解驱动标签做了什么操作
  6. Linux驱动编程 step-by-step (五)主要的文件操作方法实现
  7. css鼠标变成小手_技巧篇:CSS高级技巧详解
  8. 计算机基础和操作系统基础知识测试,计算机基础知识和操作系统.doc
  9. Nginx反向代理服务器获取不到端口的问题的解决办法
  10. 英特尔放出Linux微代码以修复Meltdown和Spectre漏洞
  11. NSXMLParser详解(事例)
  12. 数据结构——单人名单
  13. 怎么把unity游戏写进HTML,用 HTML代码加载 Unity 内容_Unity3d中文翻译用户手册-游戏蛮牛...
  14. python怎么选取第几行第几列_python 第几行第几列python 常见的17个错误分析-python-第二电脑网...
  15. KubeEdge入门到精通-KubeEdge v1.3部署指南!
  16. (原创)制作一个采用 LCD1602 显示的电子钟,在 LCD 上显示当前的时间。显示格式为“时时:分分:秒秒”。设有 4 个功能键k1~k4,功能如下:(1)k1——进入时间修改。
  17. 蝴蝶效应、青蛙现象、鳄鱼法则、鲇鱼效应、羊群效应、刺猬法则
  18. 计算机 蓝牙鼠标卡顿,无线鼠标卡顿不流畅是什么原因_无线鼠标卡顿不流畅的处理方法...
  19. Away3d粒子系统位置初始化
  20. C++创建windows窗口

热门文章

  1. Defensive Programming in PHP(PHP中的防御性编程)
  2. vue项目使用微信jssdk做分享
  3. 微信小程序开发-入门尝试
  4. mysql带有子查询的like查询
  5. linux 和windows 内存管理区别
  6. 计算机课演示文稿模板,计算机网络拓扑结构公开课PPT模板课件
  7. linux重置网络的命令,linux系统怎么重启网卡?linux重启网卡的三种教程
  8. 关于钢材流通行业信息化的建议
  9. F. DS图—图非0面积
  10. 产品设计中怎样将Rhino与KeyShot 结合