夏乙 编译整理

量子位 出品 | 公众号 QbitAI

只需要听你说几句话,AI就能“克隆”出你的声音。

这是百度Deep Voice项目最新get的能力。

Deep Voice推出于一年多以前,是一个能实时合成语音的神经网络系统。当时的第一代产品,一个系统只能学习一个人的声音,而且需要用几小时音频进行训练。

百度一直在优化Deep Voice,随后的第二、三代模型就将所需的训练数据降到了半小时,一个系统还能模仿数千人的声音。

这次的“语音克隆”研究,是这一系统的最新进步。

效果究竟如何呢?需要亲耳听一听:

百度放出了用最新技术合成语音的几组例子,上面是量子位转录的其中一个,前一句是真人,后一句是AI克隆出来的。

更多例子在这里:https://audiodemos.github.io

这些例子中,语音克隆系统最多用了10段说话人语音样本,最少只有1个,每段样本只有3秒。量子位听了页面上的这些例子,通过10段样本合成出来的语音,就很自然、和原说话人非常相似了。1段、5段样本训练出来的语音,无论用哪种模型,依然明显不像人类。

在最新公布的论文Neural Voice Cloning with a Few Samples中,百度探讨了解决语音克隆问题的两种基本方法:说话人适应(speaker adaptation)和说话人编码(speaker encoding)。这两种方法的主要过程如下图所示:

两种方法都适用于带有说话人嵌入的多说话人语音生成模型,不会降低其质量。

说话人适应基于反向传播,用少量样本对多说话人生成模型进行微调。这种适应可以应用于整个模型,也可以只用到低维的说话人嵌入(speaker embedding)上。如果只用于说话人嵌入,会拉长克隆所需的时间、降低音频质量,但可以用更少的参数来表示每个说话人。

说话人编码会单独训练一个模型,根据要克隆的音频,结合多说话人生成模型,来推理新的说话人嵌入。说话人编码模型具有从每个音频样本中检索身份信息的时间和频率域处理模块、以最优的方式将它们结合在一起的注意力模块。这种方法的优点是克隆所需时间短,表示每个说话人的参数少,在计算资源不足的设备上也能部署。

这种方法中的说话人编码器除了能计算出说话人嵌入,还能学会以有意义的方式将不同的说话人投射到嵌入空间,比如不同的性别,或者不同地方的口音会聚集到一起。因此,这个模型还能转换说话人的口音或者性别。

男声变女声、英音变美音的例子,可以在页面最下边找到:https://audiodemos.github.io

听几句话就能模仿你,百度并不是唯一一家,加拿大AI创业公司Lyrebird去年也发布了类似的产品,能通过1分钟音频模仿说话人。这款产品模仿川普、奥巴马、希拉里的音频,可以说是广为流传。

最后,想深入了解百度这次的语音克隆进展,还是要看论文:https://arxiv.org/pdf/1802.06006.pdf

百度研究院博客原文:http://research.baidu.com/neural-voice-cloning-samples/

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


只听几句话,百度AI就能模仿你的声音 | 附论文相关推荐

  1. 17篇论文入选CVPR 2019,百度AI都在关注什么?(附论文地址)

    整理 | 阿司匹林 出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVP ...

  2. 你的知云软件也只翻译一小句话吗?教你怎么修理它。

    你的知云文献翻译软件是不是有时候只翻译一小句话? 像下图这样只翻译一点点,明明选了很多. 有以下几种解决方案 选择其他翻译引擎(我自己尝试这种方法没用) 另外一种就是申请百度API(我就是这种方法实现 ...

  3. Android 如何清空 Canvas 清屏只需三句话

    android开发--Canvas清屏只需三句话 分类: Android开发 2012-11-28 21:51 4269人阅读 评论(19) 收藏 举报 这两三天一直在研究这个问题,今天终于成功了.我 ...

  4. 克隆真人语音只要1句话,AI问诊超96.4%全科医生!科大讯飞年度黑科技大秀,余承东都来了...

    杨净 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 企业拥有265万开发者是一种什么体验? 是在最新财报上已经商业变现,开放平台营收增速高达131%? 是连续5年在合肥振臂一呼,全球就迅 ...

  5. android开发--Canvas清屏只需三句话

    这两三天一直在研究这个问题,今天终于成功了.我最终要实现的效果是,类似于照相机照相时,第一次按下按键,会出现矩形框框住人脸,这时我不想照相,再次按下会再次框出人脸,重新画个新的矩形框. 就这么简单. ...

  6. 摩尔定律行将就木?AI灵丹助其返老还童!(附论文)

    作者:Hans A. Gunnoo 翻译:李海明 校对:李润嘉 本文约1600字,建议阅读6分钟. 本文介绍了摩尔定律及其将行就木的原因,并分析了AI技术的加入带来的可能性. 摩尔定律作为揭示科技产业 ...

  7. 一文概览Java 8 Stream流(用好 Stream 只需要两句话)

    什么是Stream Java 8 API添加了一个新的抽象称为流Stream,用于对集合数据进行处理,可以理解为流水线.首先定义好中间的加工步骤(对于数据的各种操作比如筛选,排序,聚合),最后由最终操 ...

  8. 解除网页限制只需三句话

    方式一 通常直接按F12,如果此键被禁止,可以通过SHIFT + CTRL + I,或者通过浏览器菜单里面的"开发者工具"打开. 选择控制台,输入以下代码回车即可. // 开启文字 ...

  9. 16篇论文入选AAAI 2021,京东数科AI都在关注什么?(附论文下载)

    近日,国际人工智能领域顶级学术会议AAAI2021(第35届AAAI)论文收录结果出炉.在国内AI阵营前列的京东数科以高达16篇论文的入选量成为本届AAAI的一大黑马.其研究方向包含了联邦学习.对抗学 ...

最新文章

  1. 如何一眼就分辨出本科、硕士和博士?
  2. JQuery Ajax解读(3)
  3. 把字符串分隔成多行的多种方法实践
  4. 码云 GVP 项目 SequoiaDB 完成 C 轮数千万美元融资
  5. web服务器集群(多台web服务器)后session如何同步和共享
  6. 产生java的动态库文件so的配置步骤
  7. React实战入门课程:dva开发一个cnode网站(3)
  8. JQuery AJAX 的表单提交
  9. 解决echarts缩放模糊问题
  10. 风险模型—CreditMetrics模型1
  11. 聚类系数与小世界网络
  12. c语言基础知识怎么记,c语言基础学习-学C语言要熟记那些基本语句? 爱问知识人...
  13. Android 渠道抽成,内容为主,渠道为辅,国内Android商店何时才能调整分成比?
  14. 多线程开发之AsyncTask
  15. 如何辨别物理机和云主机?
  16. ui效果图生成html,四步制作一个高大上的iPhone效果图模版 UI呀-学UI设计网
  17. mp4,m3u8,rtsp,rtmp,flv,直播流在线测试地址
  18. SRAM/SDRAM/DDR/Cache
  19. flyway使用--基础
  20. 它的身体像鸡蛋飞秋下载

热门文章

  1. oracle中自定义异常编号,Oracle自定义异常的使用
  2. java socket程序应用_socket应用小程序
  3. java中如何使用jdk_java – 如何在JDK7中使用目录globbing
  4. io多路复用的原理和实现_多路复用IO内幕
  5. mysql x key 组合_技本功丨浅谈MySQL的七种锁
  6. 汉字笔顺口诀_一帮40后理工男编出新型字典,《笔顺码字典》在汉首发
  7. fscapture设置中文_Fscapture是什么软件?有没有功能介绍?
  8. dlib疲劳检测_使用OpenCv和Dlib进行打哈欠检测
  9. Vue父组件访问子组件属性和方法、父子组件双向绑定(两种方法)
  10. Javascript ES6 Promise同步读取文件(使用async、await)