浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
AI精准模仿你的声音,需要多大规模的训练?
浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。
并且,这是一种近乎无监督学习方法,只需少量标记和分类整理,直接投喂素材,就有千万个你的声音合成出来了。
声音展示:
如果投喂的是林志玲、郭德纲、新垣结衣的声音……
目前,这个AI系统的单词可识度准确率达到了99.84%,论文已经被机器学习顶会ICML 2019接收。
论文共同一作之一,还是位浙江大学的学霸本科生,目前大四在读。又一位别人家的本科生来了!
细看下这个研究。
四步合成法
这项研究中主要涉及两个任务,文本到语音(TTS,也就是语音合成)和自动语音识别(ASR),缺乏足够多的对齐数据(aligned data)是这两个领域的一大问题。
但在这项研究中,研究人员提出了一种新型的几乎无监督的TTS和ASR大法,通过利用一系列成对的语音和文本数据,和一部分额外的未配对数据,实现了小样本合成。
合成流程图如下图所示:
整个研究分为四个部分。
首先,研究人员通过自监督学习,利用语音和文本数据,建立了语音和文本领域的语言理解和建模能力。
具体来讲,他们使用去噪自编码器,在编码-解码框架中重建了语言和文本。
其次,研究人员通过对偶转换(Dual Transformation),分别训练模型将文本转为语音和将语音转为文本:
TTS模型将文本X转换为语音Y,ASR模型利用转换得到语音到文本数据进行训练;ASR模型将语音Y转换为文本X,然后TTS模型利用文本到语音数据训练。
对偶转换在TTS和ASR模型之间重复迭代,逐步提高两个任务的准确性。
因为语音序列通常比其它学习任务的序列更长,所以序列中的一个错误会导致更严重的影响。
因此,研究人员进一步利用文本和语音的双向序列建模(Bidirectional Sequence Modeling)减缓错错相传的问题。
最后,他们设计了一个基于Transformer的统一模型架构,能输入和输出语音和文本,并且能将上述模块整合在一起,实现TTS和ASR的功能。
远高于基线
研究人员将这个方法与其他系统在TTS和ASR任务上进行对比,并用MOS(平均主观意见分)衡量合成音与真实人声的相似度。
并且,用PER(音素错误率)衡量自动语音识别的表现。
结果显示,这种方法的TTS任务上的MOS分达到了2.68,在ASR任务上的PER达到了11.7%。
但从这两个成绩看,这种方法得分已经远高于200个配对样本的基线模型数据了。
此外,研究人员还分别将不同的添加到系统中,结果显示,当分别加入去噪自编码器(DAE)、对偶变换(DT)和双向序列建模(BSM)模块时,评分均有增高。
本科生一作
这篇论文出自一个全华人团队的,Yi Ren (任意)和Xu Tan是这篇论文的共同一作。
任意Linkedin主页显示,2015年在浙江大学计算机科学与技术专业入学后,任意先后在Dashbase、网易人工智能事业部、微软中国和一知智能实习过。
也就是说,在本科还没毕业的时候,当大家都在忙毕业论文之际,学霸已经是国际顶会的一作了。
谭旭是任意的师兄,2015年从浙大硕士毕业的,目前是微软亚洲研究院机器学习小组的副研究员。
Xu Tan主要研究方向在深度学习和分布式机器学习,以及它们在NLP、机器翻译、搜索和推荐排名中的应用。
此外,微软的Tao Qin、Sheng Zhao、Tie-Yan Liu和浙大的Zhou Zhao也是这篇论文的作者之一。
传送门
目前,项目地址和论文已经放出,研究人员表示代码也将在后面几周开源。
项目地址:
https://speechresearch.github.io/unsuper/
论文地址:
https://speechresearch.github.io/papers/almost_unsup_tts_asr_2019.pdf
— 完 —
小程序|全类别AI学习教程
AI社群|与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音相关推荐
- 职场神器:只需三分钟,AI工具让我变成插画师
绘画技能 一般来说,搞技术的,写文章的,在绘画的这棵技能树上的加点往往都是零. 而且绘画和音乐这些技能往往是需要一定天赋的,它不像写代码和开挖机,后两者往往经过培训以后人人都能学会,而前两者没有一点天 ...
- 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟
视学算法报道 转载自:机器之心 编辑:陈萍.杜伟 GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平. 2020 年 5 月,OpenAI 推出了具有 1 ...
- 除了缺点创意,GPT-3写出了及格大学毕业论文,只需20分钟
GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平. 2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型GPT-3,该 ...
- 机器人能力再进化,组装宜家椅子只需20分钟! | Science Robotics论文
夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 买把椅子149,回家组装累断手. 组装耗时费力烧脑,让全球人民对宜家的家具呈现出爱恨两极的态度.对于手残党来说,自己组装一把椅子,还不如-- ...
- 汽车自动贩卖机出来了买车全部流程只需20分钟
一波未平,一波又起! 苏宁汽车超市的开业,已让4S店措手不及. 而今天马云突然出手,将让4S店彻夜无眠! 汽车自助售卖机来袭 马云之前推出的无人超市,就已经吸引了无数人的眼球,而这次的汽车自助售卖机, ...
- python入门只需20分钟-史上最详细python学习路线-从入门到精通,只需5个月时间...
针对Python的初学者,从无到有的Python语言如何入门,主要包括了:Python的简介,如何下载Python,如何安装Python,如何使用终端.Shell,IDE等各种开发环境进行Python ...
- 只需20分钟,免费搭建你的个人网站!
先剧透一波,文章涉及以下内容: GitHub Pages 提供免费的网页托管 Jekyll(中文)提供静态页面生成 Minimal Mistakes 一个很
- 俞敏洪力荐:“鬼才”英语记忆法,只需20分钟,轻松记完500单词
英语作为三大主科之一,学习英语特别是背诵单词是学生比较犯难的一个问题,更别说阅读理解可以得满分了,一旦单词不过关想要继续深造确实是一个问题.所以掌握好背诵单词的方法对于求进步的学生来说十分的重要的. ...
- 纸片人「活」了。Meta AI新作:只需几分钟,手绘小人有了灵魂
想让画中的「纸片人」有生命,Meta AI来搞定!昨日,Meta AI宣布了一种独创性方法,只需几分钟,就能动画化儿童手绘的角色,效果拔群. 快看,「纸片人」居然自己跳出来了! 小猫学会了hiphop ...
最新文章
- 一文搞定Vim/Vi编辑器
- Asp.Net Core 使用Quartz基于界面画接口管理做定时任务
- SSM框架中的前后端分离
- 常用设计模式之单例模式
- linux 启动u盘引导,U盘启动引导安装linux
- ug产品摆正高级技巧_UG8.0工件怎么摆正角度教程?
- python判断字符串为空,Python判断字符串是否为空和null方法实例
- vs2017调用目标发生了异常
- 64位Ubuntu14.04系统无法解压bin文件的解决方法
- 个人如何申请支付宝支付接口(免签约支付)
- Axure RP9 实现计算机效果交互
- Amazon 发展历程与前景
- 数字证书X509格式标准简介
- 计算机网络基础——WWW万维网
- ue4 无效模拟选项:形体被设置为模拟物理,但启用碰撞不兼容
- Altium Designer(四)排针类元件模型的创建
- Java实现第九届蓝桥杯付账问题
- 计算几百个数据相乘之积末尾0的个数
- python将列表平分
- 上位机与下位机都是个啥?
热门文章
- VS Code Java 开发指南!
- 2018 中国互联网哈哈榜之「十大 CP」
- 你真的知道 Python 字符串怎么用吗?
- 华为云发布 EI 城市智能体
- 架构师必备!分布式高并发都不会还做Java程序员
- 女生学电气or计算机,8个女生可以学习的工科专业,高三毕业生了解一下,值得报考...
- python123组合数据类型_Python的组合数据类型-字典
- 编程时程序无错却崩溃_程序员极度崩溃的 60 个瞬间,看到哪一个你哭了?
- android数据库文件是否加密存储,详解Android数据存储之SQLCipher数据库加密
- php源码 乱码 通达oa_php中文乱码问题的终极解决方案汇总