Github 标赞8.7k !Mocking Bird,五秒模仿你的声音,支持中文!
转自 | 新智元
来源 | GitHub
编辑 | LRS
随着AI技术的发展,在模仿脸之后,模仿声音也不是难事。最近GitHub上一个超火的项目,可以快速模仿声音,最重要的是支持中文,目前已收获8700星!
GitHub上有一个项目最近登上了每日趋势榜,只需5秒,就能用AI 技术来模拟声音来生成任意语音内容,并且还支持中文。
目前该项目在GitHub已狂揽8700星。
根据上传的演示视频来看,声音模仿的也很逼真。
https://www.bilibili.com/video/BV17Q4y1B7mY/
MockingBird的主要特性包括:
1、支持普通话并使用多种中文数据集进行测试:aidatatang_200zh,magicdata,aishell3,biaobei,MozillaCommonVoice等;
2、适用于pytorch,已在1.9.0版本(最新于2021年8月)中测试,GPU Tesla T4和GTX 2060;
3、可在Windows操作系统和linux操作系统中运行(苹果系统M1版也有社区成功运行案例);
4、仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder;
5、提供一个Webserver可查看训练结果,供远程调用。
项目的作者是前Facebook的工程师,目前创业状态,创作的Mocking Bird仅用10天就窜上了GitHub Trending榜。
并且在知乎上还有专栏MockingBird训练小技巧,可以说是保姆级教程了。
例如作者分享的经验,在同一个数据集中大概训练了100k step之后,如果loss一直反复围绕一个值波动,同时发现生成效果不升反降,很可能你陷入了训练的过拟合(overfitting),此时需要及时中断训练,采取新的训练姿势:
1、换或新增更大数据集;
2、修改 hparam.py 文件中的参数,例如 batch size,learn rate等,用同一或者新的数据集进行短暂的培训,确保loss和效果持续变好,否则Save/Load大法回退模型。
中断训练时,可以加载最好效果的更初版本进行以上操作,例如你在150k发现过拟合,但是110k的模型效果优于150k的,就将110k的模型文件直接改名后当作主文件使用。
MockingBird 的使用也非常简单。
首先安装好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt中要求的剩余包。
第二步是准备预训练模型,可以使用作者提供的或者是其他人训练好的模型。
重要的数据处理操作是进行音频和梅尔频谱图预处理:python pre.py <datasets_root> 可以传入参数--dataset {dataset} 支持aidatatang_200zh, magicdata, aishell3
第三步在浏览器直接启动一个Web程序来进行调试。
或者启动一个更完善的工具箱软件。
作者还贴心的附上了所有可以学习的论文及原始代码仓库。
这个仓库的名字MockingBird是仿声鸟、反舌鸟,以善于模仿其他鸟类及昆虫、两栖动物的叫声而闻名,也是一种经常出现在西方文学或影视作品之中的鸟类,在生物学上是嘲鸫的俗称。著名的书的名字《杀死一只知更鸟》的英文就是To Kill a Mocking Bird,实际上属于翻译的错误,知更鸟的英文是Robin。
当然这种AI 模仿别人的技术一定存在着重大的风险。
早在2013年,就有新闻报道,骗子拟声软件冒充亲人声音,以为是儿子被骗。
在电话里,骗子的声音和儿子的一模一样,谎称在学校出车祸撞了人,要王女士赶紧汇钱给人动手术,但实际上儿子根本都不会开车。
在2013年,没有大规模神经网络加持下,变声软件还不是特别发达,当时在南京一家软件公司从事软件开发的工程师钱先生说,要想通过某一款软件来模仿别人的声音是很困难的,除了软件的支持,还要经过专业的技术处理。钱先生介绍,要达到模仿一个声音,不仅要从声音的音色、频率分析,还要考虑到语气和节奏等因素。
一般来说,要通过软件拟声,首先是采样,内容尽量丰富,和需要模拟的说话内容接近。采样后就要进行后期的专业处理,然后再经过人工调试,达到模仿声音的目的。以当年的拟声技术,还是很容易被识破的,所以如果骗子要用它来骗人,一般都要营造一个嘈杂的环境,否则很容易被识破。
而如今不需要专业知识就可以按照MockingBird给的提示很容易就可以模仿其他人的声音。
甚至骗子也有可能瞄准不是普通人群进行诈骗,通过伪造其他身份进行诈骗。
2020年12月也有一起诈骗案,12月,某公司财务小王接到领导电话,要求立刻给供应商转款2万元,并将转账信息以邮件形式发送,转款理由是避免缴纳滞纳金。由于老板的口音十分逼真,小王信以为真,在1小时内转款完成,后发现被骗。
2019年9月,犯罪分子使用语音克隆软件对英国一家能源公司高管的声音进行模仿。该公司的执行董事在接听诈骗电话后,将24万美元汇入了一个匈牙利账户。目前,该罪犯仍未被抓获。
2020年2月20日 ,互联网安全专家公司Symantec报告了三起音频诈骗案例,犯罪分子通过电话会议、YouTube、社交媒体以及TED演讲获得了公司高管的音频,然后用机器学习技术复制高管的声音,致电财务部门的高级成员要求紧急汇款。
去年7月,美国科技媒体The Verge报道称,网络诈骗犯正在利用Deepfake仿制公司高管的语音,合成语音邮件发送至公司员工,对大型公司进行经济诈骗。
除了换声音,脸也给你换了!
近年来,以「深度伪造」技术(Deepfake)为代表的AI换脸技术日益成熟。通过「深度伪造」技术,可以将图片或视频中A的脸换到B的头上。其名字由深度机器学习(deep machine learning)和假照片(fake photo)组合而成。
骗子首先分析公众发布在网上的各类信息,根据所要实施的骗术,通过AI技术筛选目标人群。在视频通话中利用AI换脸,骗取信任。
安全分析公司Sensity的调查结果称,自2018年12月以来,“深度伪造”技术在线造假视频的数量大约每6个月翻一番,而截至2020年6月,造假视频已经多达49081个,比2019年7月增长了330%。
随着AI 技术的不断升级,以往的识别方法很多都已经失效,例如合成人物不会眨眼等。
道高一尺魔高一丈,技术无罪,关键要看谁来使用他。当然科技作为工具肯定越发达越好,不能因为道德因素而阻碍科学技术的进步。
参考资料:
https://github.com/babysor/MockingBird
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件
本站qq群554839127,加入微信群请扫码:
Github 标赞8.7k !Mocking Bird,五秒模仿你的声音,支持中文!相关推荐
- mixly编程怎样音乐_华人留学生开发首个古汉语编程语言,实现易经算命、圆周率计算,Github获赞14.7k...
近日,世界上第一个古汉语编程语言在 Github 上横空出世,由该古汉语编程语言编写的程序现已达到了数十个,有圆周率计算方法,甚至有<易经>的算命算法. 截至目前,该项目在 Github ...
- 1998ieee圆周率c语言,华人留学生开发首个古汉语编程语言,实现易经算命、圆周率计算,Github获赞14.7k...
近日,世界上第一个古汉语编程语言在 Github 上横空出世,由该古汉语编程语言编写的程序现已达到了数十个,有圆周率计算方法,甚至有<易经>的算命算法. 截至目前,该项目在 Github ...
- Github标星超7k!从零开始,最简明扼要的数据科学学习路径(附高效免费小工具)...
点击上方"涛哥聊Python",选择"星标"公众号 重磅干货,第一时间送达 来源:大数据文摘 大数据文摘出品 作者:蒋宝尚 试图入门一个新话题时,多数人会感到不 ...
- Github标星3.7k:微软出的数据科学入门课程(附下载)
推荐微软开源的一个非常棒的课程:面向初学者的数据科学. 目前收到了 3.7K 个Stars,可见数据科学初学者对微软的认可! 课程介绍 这个课程有10次周,共20节课.每节课包括课前和课后测验.完成课 ...
- 【Python基础】Github标星4.7k,每天推送一个python小实例的Python库
文章来源于Python与算法社区,作者zhenguo 推荐一个 python-small-examples 库,每天推送一个Python实例.时至今日,共有4700人 star 期间多次登上githu ...
- Github标星超7k!从零开始,最简明扼要的数据科学学习路径
大数据文摘出品 作者:蒋宝尚 试图入门一个新话题时,多数人会感到不知所措?这时候,一份明确的学习路径可以帮你去除这一焦虑.数据科学当然也有这样一套路径. 一周前在Github上出现的一份超高赞贴就总 ...
- 【NLP】Github标星7.7k+:常见NLP模型的PyTorch代码实现
推荐github上的一个NLP代码教程:nlp-tutorial,教程中包含常见的NLP模型代码实现(基于Pytorch1.0+),而且教程中的大多数NLP模型都使用少于100行代码. 教程说明 这是 ...
- Github标星59.7k:用动画的形式呈现解LeetCode题目的思路
前些日子推荐了一个仓库,把常见算法用python语言实现了(见文章),近日在github上发现另外一个59700多star的仓库,用动画的形式呈现解LeetCode题目的思路,非常值得推荐. 仓库说明 ...
- 狂刷这套Java并发编程面试题及答案(GitHub标星21.7K),五月收获美团/京东/字节Offer
面试背景 2020-09初,从杭州某一外包公司离职,当然是由于个人原因,并非工作失误呐,因此当时对工作的交接,自认为还是OK的,没有遗留特别大的问题点.此时还处于一种不想找工作的时刻,毕竟刚离职,还想 ...
最新文章
- mysql中group concat_mysql中group_concat()函数的使用方法总结
- STM32 不断进入串口中断问题 解决方法
- 聚类算法(1):K-Means算法
- RTP协议全解析(H264码流和PS流)(转)
- 67 个JavaScript和CSS实用工具、库与资源
- lee最短路算法_Lee算法的解释:迷宫运行并找到最短路径
- [Codeforces 100633J]Ceizenpok’s formula
- 管理感悟:人才是发现的,不是培养的
- JMETER压力测试思维导图
- SocketTool.exe 端口占用
- Fedora Linux 14百度云下载,Fedora Linux 14下载
- matlab fft freqz,【急】请教 fft、freqz、bode 求相频响应的区别及原因
- Windows电脑快捷键
- OAuth 2.0设计(以微信登录为例)
- java二级程序题两个角度_两个角度图_【SCME大一】使用JAVA语言深入理解程序逻辑答案_学小易找答案...
- 2018焦作ICPC E - Resistors in Parallel(规律+Java大数)
- ks值和auc值的关系
- Windows11任务栏无法透明化解决办法
- VBA、.net查汉字区位码
- ORCL数据字典(10级学员 张家玮整理)
热门文章
- python教程是什么课文_python : 新概念英语 课文转为html
- Android Build类属性详解
- Ubuntu1804安装Mysql
- Dell PowerEdge RAID Controller (PERC) | Dell
- cs231n 课程作业 Assignment 2
- 【面试系列】面试中项目如何准备?
- Vue双向绑定是怎么实现的?
- c++课程设计——美发店管理系统
- 《好想好想谈恋爱》经典对白
- 外星人 17R4笔记本 win10 UEFL 安装Ubuntu16.04 LTS并更换Nvidia显卡驱动 教程+个人心得