铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI

AI精准模仿你的声音,需要多大规模的训练?

浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。

并且,这是一种近乎无监督学习方法,只需少量标记和分类整理,直接投喂素材,就有千万个你的声音合成出来了。

声音展示:

如果投喂的是林志玲、郭德纲、新垣结衣的声音……

目前,这个AI系统的单词可识度准确率达到了99.84%,论文已经被机器学习顶会ICML 2019接收。

论文共同一作之一,还是位浙江大学的学霸本科生,目前大四在读。又一位别人家的本科生来了!

细看下这个研究。

四步合成法

这项研究中主要涉及两个任务,文本到语音(TTS,也就是语音合成)和自动语音识别(ASR),缺乏足够多的对齐数据(aligned data)是这两个领域的一大问题。

但在这项研究中,研究人员提出了一种新型的几乎无监督的TTS和ASR大法,通过利用一系列成对的语音和文本数据,和一部分额外的未配对数据,实现了小样本合成。

合成流程图如下图所示:

整个研究分为四个部分。

首先,研究人员通过自监督学习,利用语音和文本数据,建立了语音和文本领域的语言理解和建模能力。

具体来讲,他们使用去噪自编码器,在编码-解码框架中重建了语言和文本。

其次,研究人员通过对偶转换(Dual Transformation),分别训练模型将文本转为语音和将语音转为文本:

TTS模型将文本X转换为语音Y,ASR模型利用转换得到语音到文本数据进行训练;ASR模型将语音Y转换为文本X,然后TTS模型利用文本到语音数据训练。

对偶转换在TTS和ASR模型之间重复迭代,逐步提高两个任务的准确性。

因为语音序列通常比其它学习任务的序列更长,所以序列中的一个错误会导致更严重的影响。

因此,研究人员进一步利用文本和语音的双向序列建模(Bidirectional Sequence Modeling)减缓错错相传的问题。

最后,他们设计了一个基于Transformer的统一模型架构,能输入和输出语音和文本,并且能将上述模块整合在一起,实现TTS和ASR的功能。

远高于基线

研究人员将这个方法与其他系统在TTS和ASR任务上进行对比,并用MOS(平均主观意见分)衡量合成音与真实人声的相似度。

并且,用PER(音素错误率)衡量自动语音识别的表现。

结果显示,这种方法的TTS任务上的MOS分达到了2.68,在ASR任务上的PER达到了11.7%。

但从这两个成绩看,这种方法得分已经远高于200个配对样本的基线模型数据了。

此外,研究人员还分别将不同的添加到系统中,结果显示,当分别加入去噪自编码器(DAE)、对偶变换(DT)和双向序列建模(BSM)模块时,评分均有增高。

本科生一作

这篇论文出自一个全华人团队的,Yi Ren (任意)和Xu Tan是这篇论文的共同一作。

任意Linkedin主页显示,2015年在浙江大学计算机科学与技术专业入学后,任意先后在Dashbase、网易人工智能事业部、微软中国和一知智能实习过。

也就是说,在本科还没毕业的时候,当大家都在忙毕业论文之际,学霸已经是国际顶会的一作了。

谭旭是任意的师兄,2015年从浙大硕士毕业的,目前是微软亚洲研究院机器学习小组的副研究员。

Xu Tan主要研究方向在深度学习和分布式机器学习,以及它们在NLP、机器翻译、搜索和推荐排名中的应用。

此外,微软的Tao Qin、Sheng Zhao、Tie-Yan Liu和浙大的Zhou Zhao也是这篇论文的作者之一。

传送门

目前,项目地址和论文已经放出,研究人员表示代码也将在后面几周开源。

项目地址:
https://speechresearch.github.io/unsuper/

论文地址:
https://speechresearch.github.io/papers/almost_unsup_tts_asr_2019.pdf

小程序|全类别AI学习教程

AI社群|与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音相关推荐

  1. 职场神器:只需三分钟,AI工具让我变成插画师

    绘画技能 一般来说,搞技术的,写文章的,在绘画的这棵技能树上的加点往往都是零. 而且绘画和音乐这些技能往往是需要一定天赋的,它不像写代码和开挖机,后两者往往经过培训以后人人都能学会,而前两者没有一点天 ...

  2. 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    视学算法报道 转载自:机器之心 编辑:陈萍.杜伟 GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平. 2020 年 5 月,OpenAI 推出了具有 1 ...

  3. 除了缺点创意,GPT-3写出了及格大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平. 2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型GPT-3,该 ...

  4. 机器人能力再进化,组装宜家椅子只需20分钟! | Science Robotics论文

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 买把椅子149,回家组装累断手. 组装耗时费力烧脑,让全球人民对宜家的家具呈现出爱恨两极的态度.对于手残党来说,自己组装一把椅子,还不如-- ...

  5. 汽车自动贩卖机出来了买车全部流程只需20分钟

    一波未平,一波又起! 苏宁汽车超市的开业,已让4S店措手不及. 而今天马云突然出手,将让4S店彻夜无眠! 汽车自助售卖机来袭 马云之前推出的无人超市,就已经吸引了无数人的眼球,而这次的汽车自助售卖机, ...

  6. python入门只需20分钟-史上最详细python学习路线-从入门到精通,只需5个月时间...

    针对Python的初学者,从无到有的Python语言如何入门,主要包括了:Python的简介,如何下载Python,如何安装Python,如何使用终端.Shell,IDE等各种开发环境进行Python ...

  7. 只需20分钟,免费搭建你的个人网站!

    先剧透一波,文章涉及以下内容: GitHub Pages 提供免费的网页托管 Jekyll(中文)提供静态页面生成 Minimal Mistakes 一个很

  8. 俞敏洪力荐:“鬼才”英语记忆法,只需20分钟,轻松记完500单词

    英语作为三大主科之一,学习英语特别是背诵单词是学生比较犯难的一个问题,更别说阅读理解可以得满分了,一旦单词不过关想要继续深造确实是一个问题.所以掌握好背诵单词的方法对于求进步的学生来说十分的重要的. ...

  9. 纸片人「活」了。Meta AI新作:只需几分钟,手绘小人有了灵魂

    想让画中的「纸片人」有生命,Meta AI来搞定!昨日,Meta AI宣布了一种独创性方法,只需几分钟,就能动画化儿童手绘的角色,效果拔群. 快看,「纸片人」居然自己跳出来了! 小猫学会了hiphop ...

最新文章

  1. 一文搞定Vim/Vi编辑器
  2. Asp.Net Core 使用Quartz基于界面画接口管理做定时任务
  3. SSM框架中的前后端分离
  4. 常用设计模式之单例模式
  5. linux 启动u盘引导,U盘启动引导安装linux
  6. ug产品摆正高级技巧_UG8.0工件怎么摆正角度教程?
  7. python判断字符串为空,Python判断字符串是否为空和null方法实例
  8. vs2017调用目标发生了异常
  9. 64位Ubuntu14.04系统无法解压bin文件的解决方法
  10. 个人如何申请支付宝支付接口(免签约支付)
  11. Axure RP9 实现计算机效果交互
  12. Amazon 发展历程与前景
  13. 数字证书X509格式标准简介
  14. 计算机网络基础——WWW万维网
  15. ue4 无效模拟选项:形体被设置为模拟物理,但启用碰撞不兼容
  16. Altium Designer(四)排针类元件模型的创建
  17. Java实现第九届蓝桥杯付账问题
  18. 计算几百个数据相乘之积末尾0的个数
  19. python将列表平分
  20. 上位机与下位机都是个啥?

热门文章

  1. VS Code Java 开发指南!
  2. 2018 中国互联网哈哈榜之「十大 CP」
  3. 你真的知道 Python 字符串怎么用吗?
  4. 华为云发布 EI 城市智能体
  5. 架构师必备!分布式高并发都不会还做Java程序员
  6. 女生学电气or计算机,8个女生可以学习的工科专业,高三毕业生了解一下,值得报考...
  7. python123组合数据类型_Python的组合数据类型-字典
  8. 编程时程序无错却崩溃_程序员极度崩溃的 60 个瞬间,看到哪一个你哭了?
  9. android数据库文件是否加密存储,详解Android数据存储之SQLCipher数据库加密
  10. php源码 乱码 通达oa_php中文乱码问题的终极解决方案汇总