语音合成(Text-to-speech,TTS)是指文本到音频的人工转换,也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务,而一个好的TTS系统是让计算机自动完成这项任务。

在打造这样一个系统时,一个非常有趣的地方是为生成的音频选择哪个声音,是男人还是女人的声音?声音是大还是小?

在使用深度学习创建TTS时,这有一个限制,你必须收集文本-音频的数据集,而录制演讲的演讲者可能是固定的——因为你不可能有无限多个演讲者!

所以,如果你想为自己或他人的声音创建音频,唯一的方法就是收集一个全新的数据集。

来自谷歌名为 Voice Cloning 的人工智能研究使计算机可以用任何类型声音发出声音。

Voice Cloning是怎样工作的

很明显,为了让电脑能够使用任何类型声音发出声音,它需要理解两件事:它读的是什么以及它是如何读的。

因此,谷歌研究人员设计的语音克隆系统有两个输入:我们想要读取的文本和我们想要用来阅读文本的语音样本。

例如,如果我们想让蝙蝠侠读“我爱披萨”这句话,那么我们会给系统两样东西:“我爱披萨”的文本和一小段蝙蝠侠的声音样本,这样它就知道蝙蝠侠的声音应该是什么样的。而电脑的输出应该是蝙蝠侠说“我爱披萨”的声音音频!

从技术角度来看,系统分为3个顺序组件:给定我们希望使用的声音的一个小音频样本,将语音波形编码为一个固定的维向量表示

给定一段文本,也把它编码成向量表示。将语音和文本这两个向量结合起来,将它们解码成声谱图

使用声码器将声谱图转换成我们可以听到的音频波形。

在文章中,我们对这三个部分分别进行了训练。

在过去几年中,语音合成系统在深度学习社区中得到了很多研究关注。事实上,有很多基于深度学习针对语音合成的解决方案都非常有效。

这里的关键是,系统能够将编码器从语音中学到的“知识”应用到文本中。

在分别编码后,将语音和文本组合在一个公共的嵌入空间中,然后进行解码,生成最终的输出波形。

克隆声音的相关实现代码

多亏了人工智能社区中开放源码思想的美妙之处,在这里有一个公开可用的语音克隆实现!你可以按照下面的介绍这样来使用它。首先克隆仓库:git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git安装必要的库并确保使用的是Python 3的版本:pip3 install -r requirements.txt在README文件中,你还可以找到下载预训练模型和数据集的链接,并尝试一些示例。

最后,你可以运行以下命令打开GUI:python demo_toolbox.py -d

下面是我这边运行操作的一个截图:

正如你所看到的,右上角的输入框中是我想让电脑阅读的文字:“Did you know that the Toronto Raptors are Basketball champions? Basketball is a great sport.”

你可以点击每个部分下面的 “Random” 按钮来随机化语音输入,然后点击 “Load” 将语音输入加载到系统中。

Dataset 从你选择的语音样本中选择数据集,Speaker 选择说话的人,Utterance 选择输入语音所说的短语。如果想听输入的语音是怎样的,只需点击 “Play” 按钮。

一旦你点击 “Synthesize and vocode” 按钮,算法就会运行。一旦运行结束,你将听到扬声器以某个声音朗读你的输入文本。

你甚至可以录制你自己的声音作为输入,只需要点击 “Record one” 按钮。相信我,这会非常有趣!

更进一步

python模拟别人说话的声音_现在你可以通过深度学习用别人的声音来说话了相关推荐

  1. python课程 优达学城_优达学城深度学习之一——Anaconda

    这几天发一篇原创文章一直发不出去,觉得微信公众号保护原创的机制很有问题,即使自己写的但是跟另外一篇比较像就发不出去,只能跳转原文,所以强烈建议微信要改一改这个机制.所以本文章部分内容只能以图片的形式发 ...

  2. 如何用Python一门语言通吃高性能并发、GPU计算和深度学习

    [CTO讲堂]如何用Python一门语言通吃高性能并发.GPU计算和深度学习 发表于2016-01-04 15:11| 4374次阅读| 来源CSDN| 4 条评论| 作者蒲婧 CTO俱乐部CTOCT ...

  3. 深度学习狗图片_狗品种分类的深度学习

    深度学习狗图片 深度学习 (Deep Learning) Stuck behind the paywall? Click here to read the full story with my fri ...

  4. 基于Python+百度语音的智能语音ChatGPT聊天机器人(机器学习+深度学习+语义识别)含全部工程源码 适合个人二次开发

    目录 前言 总体设计 系统整体结构图 系统流程图 运行环境 Python 环境 Pycharm 环境 ChatterBot 环境 模块实现 1. 模型构建 2. 服务器端 3. 客户端 4. 语音录入 ...

  5. 现在你可以通过深度学习用别人的声音来说话了

    语音合成(Text-to-speech,TTS)是指文本到音频的人工转换,也可以说给定一段文字去生成对应的人类读音.人类通过阅读来完成这项任务,而一个好的TTS系统是让计算机自动完成这项任务. 在打造 ...

  6. python模拟登录qq账号密码_最新的Python模拟登陆QQ脚本,一键批量登录,强行过验证!...

    Python模拟QQ批量登陆脚本,以下代码附带解释以便于理解思路. Python代码: #coding=utf-8 import os import time import win32gui impo ...

  7. python模拟春节集五福_用Python分析支付宝红包和2018年集五福活动,你准备好了吗?...

    想必各位对于支付宝"集五福"活动一定都有深入的了解,从2016年开始,中国网友们关于过年的记忆再次更新,除了看春晚,年夜饭以外,集"五福"突然成了一个全家参与的 ...

  8. windows python 访问mtp存储空间_用Windows电脑训练深度学习模型?超详细配置教程来了...

    虽然大多数深度学习模型都是在 Linux 系统上训练的,但 Windows 也是一个非常重要的系统,也可能是很多机器学习初学者更为熟悉的系统.要在 Windows 上开发模型,首先当然是配置开发环境. ...

  9. python类的使用的生物学应用_当AI遇到生物-深度学习在生物研究中的应用案例列表...

    有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0.考虑到每一个人的全基因组数据将会达到1 ...

  10. python画漫画_漫画:我用深度学习框架画下女朋友最美的脸

    原标题:漫画:我用深度学习框架画下女朋友最美的脸 这不,又一个程序员为爱变身灵魂画手,看得我都想学画画了. 阿华是幸运的,因为他找到了对的方法,事半功倍,最终有情人终成眷属.这也得益于 PyTorch ...

最新文章

  1. [转发] 【GRT安智网】HTC安致手机ROM国内首个中文定制教程goapk首发[最新厨房V0......
  2. 限时抢购秒杀系统架构分析与实战
  3. 导出mysql sql语句吗_mysql sql语句导入与导出
  4. KSS2-成本中心作业价格分割(错误!!!)
  5. 利用python实现ORM
  6. OPA 5 - CreateButtonTest creates CreateButtonSteps
  7. JSON与XML的选择
  8. [转]javascript 程序1
  9. 可公度线段与欧几里得(Euclid)算法
  10. 在cmd命令行运行一个python脚本
  11. HCIE 数通资料下载 肖哥视频下载
  12. WPF桌面应用实例(二):写一个扫雷游戏
  13. 视频预测算法vid2vid比MCNet好在哪里?
  14. java pdf水印排布问题_Java——PDF水印接口设计
  15. 微信小程序上传图像或者文件到阿里云oss
  16. just for save
  17. 不开方求两点距离的算法
  18. 通用样式 -表格的每行的复选框选中打印
  19. Cadence OrCAD Capture 检索和定位功能的介绍图文视频教程
  20. rails连接Mysql的数据库

热门文章

  1. labuladong算法小结
  2. PayPal贝宝工商银行无法提现,怎么办?
  3. nmn对卵巢的作用,nmn吃多久对卵巢,女性知识!
  4. Python中整除、求余运算
  5. [经验教程]2022网线水晶头插座接头排线接线顺序与方法图解
  6. 互联网寒冬,这个技术领域的人才需求却持续爆表
  7. 网站如何设置一个小图标
  8. 涨姿势!2020最好的 10 大国外编程学习网站
  9. wifi模块php,什么是Wifi模块 Wifi模块功能有哪些
  10. adb 连接某个wifi_Android中如何使用WIFI来连接ADB