在2月28号刚于旧金山结束的RSA大会上,一家名为Pindrop的专门检测语音诈骗的初创公司再次向业内发出警告:网络诈骗份子已经开始借助AI软件克隆声音进行诈骗了!

Pindrop的CEO(右)和CTO(左),图片来自网络

Pindrop的CEO Vijay Balasubramaniyan表示:“Pindrop在过去一年中调查了大约十二起类似的案件,都是欺诈者使用AI软件“克隆”某人的声音以进行诈骗。同时,我们还看到了Deepfake音频作为针对公众人物的工具出现。如果你是家公司的CEO或者你在YouTube上有很多视频,骗子就极有可能用它来合成你的声音。”

并且,虽然Pindrop只看到了少数这样的案件,但涉案金额很高。Pindrop估算涉及的诈骗金额可能高达1700万美元。

图片来自网络

来自硅谷的警告消息又一次将AI的安全性问题带到了舆论的风口浪尖。毫无疑问,自从AI成为全球技术发展的主流以来,DeepFake的问题就一直是人们关心的重点。在之前的文章中,小探深度讨论了关于人脸识别的安全问题(点击这里查看)。而今天我们要讨论的AI语音合成的问题,则可能比人脸识别更加危险。

 1 

AI声音合成,一面“天使”一面“魔鬼”

语音合成技术现在已经非常成熟了。例如高德导航里的各种明星语音包,“林志玲为您导航祝您好心情”、“郭德纲前方有落石车碎人心碎”、“你镇定一下罗永浩要开始导航了”,基本上能够达到以假乱真的效果。大部分时候用户也分不出来到底是明星自己录的,还是合成的语音。当然这种场景中,语音合成只是为了提升用户体验做的一个小功能。不仅没有对用户造成损失,反而让用户开车的时候拥有更好的体验。

高德地图的明星导航语音包,图片来自网络

但是下面这个故事就不是这样了。2018年Charlie Warzel,Buzzfeed的科技记者,受了前密西根大学社交媒体责任中心CTO Aviv Ovadya言论的影响,做了一件想想都非常后怕的事情。他使用AI合成软件模仿了自己的声音,然后打电话给他妈妈,结果他妈妈愣是没听出来。世界上最熟悉你自己声音的人是谁?可能不是你自己,因为你自己听到的声音和别人听到的是有区别的。最熟悉你声音肯定是你的母亲。

图片来自网络

既然身边最熟悉的人都被这样“伪装”骗了,那只要使用这种软件不就拥有了“变身”的超能力了吗?

事实上,利用AI语音合成冒充熟人进行电信诈骗的案例这几年时常发生,并且涉及金额都非常的巨大。

根据《华尔街日报》2019年报道,英国某能源公司高管在一个小时之内通过匈牙利供应商向一诈骗犯转账24万美元,约175万元人民币,仅仅是因为诈骗犯通过AI技术仿造了其母公司CEO的声音。该高管表示,在整个通话过程中,老板轻微的德国口音都展现得淋漓尽致,该高管完全没有任何的怀疑,直到被要求再次转账时才发觉了事件异常。

在报案调查后,警方只能发现该笔转账流动到了墨西哥等地区,但是具体嫌疑犯的身份始终无法确定。这个案件带来的损失目前只能由保险公司承担。这位受害者后来在一封电子邮件中写道,虽然“老板”的要求相当奇怪,但声音如此逼真,他觉得自己别无选择,只能服从。

美国网络安全公司Symantec的研究人员表示,他们发现至少有三起公司高管的声音被人模仿以用于电信诈骗。虽然Symantec拒绝透露这些受害公司的名称,也不愿透露上述英国能源公司是否是其中之一,但它指出,其中一起案件的损失总计达数百万美元。

Symabtec公司大楼,图片来自网络

虽然有种种风险,但技术的发展一点也没有慢下来。目前,许多硅谷巨头和人工智能初创企业都在开发这种语音合成软件,用以模仿人的声音节奏和语调,并被用来制作令人信服的演讲。

Lyrebird 官网

几个月前,Resemble团队发布了一个名为Resemblyzer的开源工具,该工具使用人工智能和机器学习来通过获取语音样本的高级表示并预测它们是真实的还是生成的来检测深度伪造。而在AI语音合成届早已成名已久的Lyrebird,其开发出的AI合成软件更是可以在合成语音中模拟出说话人的感情。

 2 

AI技术被滥用,它的工作原理是什么?

无数的研究表明,重现人们讲话的韵律只需要一个小的数据集。像Resemble和Lyrebird这样的商业系统仅需要几分钟的音频样本,而百度最新的Deep Voice实现等复杂的模型可以从3.7秒的样本中复制语音。

斯坦福大学网络政策中心研究员、曾任奥巴马和特朗普政府时期白宫网络安全政策高级主管的Andrew Grotto(安德鲁·格罗托)表示:“罪犯将使用任何能让他们以最低成本实现目标的工具。也许这是一项在10年前听起来很新奇的技术,但是现在任何有想法的非专业罪犯都可以使用。”

图片来自网络

目前市面上的AI语音合成软件的工作原理是将一个人的声音分解成不同的组成部分,比如音轨或音节,然后将这些组成部分重新排列,形成具有相似语音模式、音调和音色的新语音。除了借助这种新技术,骗子们还依赖于最常见的诈骗技巧来提高他们的效率,利用时间压力,比如临近的截止日期,或者社会压力,比如安抚老板的愿望,来让受害人打消任何疑虑。在某些情况下,犯罪分子会瞄准公司会计或财务的负责人,因为他们知道这些人有能力立即汇款。

Pindrop的CEO演示如何合成公众人物的视频截图

除了进行诈骗,DeepFake音频还存在向公众传递负面信息的风险。RSA大会演讲现场,Pindrop的CEO向公众演示了一款合成公众人物声音的AI系统,这项技术通过在网上搜索特朗普之前的录音来模仿他的声音,耗时不到一分钟,并用美国总统特朗普的声音说了一些笑话。如果这项技术被用于仿造领导人物的声音,并用到犯罪事件中,无疑可能非常危险,甚至给国家安全带来危害。

 1 

AI声音合成如此猖獗,应该如何防范?

虽然风险重重,但语音模拟技术的发展势不可挡。例如,Google已经为自动识别DeepFake语音的研究项目提供了资金和资源的帮助。但Google也开发了一些世界上最具说服力的语音人工智能,包括它的Duplex服务,它可以用电脑生成的栩栩如生的声音,打电话给餐厅预定座位。

Google语音助手,图片来自网络

卡内基国际和平基金会(Carnegie Endowment for International Peace)硅谷办公室主任Charlotte Stanton则提醒业界:“在商业领域,人们有很强的的意愿想要制造出好的技术产品,但一定要平衡,避免它被用于非法途径。所以,研究人员在研发像AI语音合成技术这样强大的技术时需要更加谨慎,很明显,AI语音合成已经到了可以被滥用的地步。”

幸运的是,人工智能开发人员正在努力构建能够检测和打击Deepfake音频的解决方案。例如,Pindrop公司已经开发出一种人工智能算法,可以从DeepFake的音轨中辨别真实的语言。它是通过检查说话时单词的实际发音,以及这些发音是否与真实人类的说话模式相匹配,因为人类的声音无法像机器伪装那样标准和快速。

Pindrop还预测到,也许有一天音频安全服务会像数据安全服务一样有巨大的市场。该公司CEO表示:“会有一些公司建立检测这些安全漏洞的机制。如果网上出现了伪造的音频,那么这个机制就会开始保护你的声音数据。”

Pindrop CEO Vijay Balasubramaniyan,图片来自网络

除了Pindrop等小公司。硅谷科技巨头也积极的致力于寻找检测Deepfake音频的方案。例如,谷歌在去年年初与GNI合作,发布了一系列合成语音,其中包含由其深入学习的文本到语音(TTS)模型所说的数千个短语,来自英文报纸文章68种不同的合成语音,并涵盖了各种区域口音。该数据库提供给了2019 ASVspoof挑战的参与者使用,该竞赛旨在开发针对假语音的对策,特别是可以创建区分真实和计算机生成的语音的系统。

同时,DeepFake音频的潜在威胁也可能会改变用户的行为,使用户在向互联网上传声音时更加谨慎。Pindrop调查的诈骗案例中就有这样一位受害者,他几乎没有在任何社交平台上公开过自己的声音,仅仅是因为召集员工开会时的讲话被窃取,就成为了犯罪分子的目标。这样的案例不禁会让人联想:“既然这么谨慎的人都会存在被诈骗的风险,那么我们干脆就不要在公众平台上表露自己的任何生理特征,包括声音和长相。这实在太恐怖了!”

图片来自网络

不敢想象,如果我们的公众社交平台上面看不到任何超出文字以外的更生动的表达,那么几十年来的科技和信息发展不就白费了吗?这无疑是对多年来为人类科技文明进化做出贡献的科技工作者的侮辱。

小探相信,随着AI不断的发展,我们所面对的DeepFake威胁将会越来越多。因此,无论是视频或音频,建立一个完善的安全审核机制是非常有必要的!

关于预防DeepFake的安全机制,你还有什么想法吗?欢迎来评论区留言哦!

RECOMMEND

             

  AI社群  

AI感兴趣的小伙伴,

网易智能12个不同垂直领域社群等你来
添加智能菌微信:kaiwu_club

和我们一起探讨AI的故事~

你有没有“在看”鸭?

AI软件克隆你的声音,全球诈骗案件已屡次得逞!相关推荐

  1. ai声音模仿_该AI只需聆听5秒钟即可克隆您的声音

    ai声音模仿 This post is about some fairly recent improvements in the field of AI-based voice cloning. If ...

  2. 五大创新型AI软件公司,下一个AI独角兽就是你

    本文转载自公众号"读芯术"(ID:AI_Discovery) 商业领域的AI热词频出,以至于很多时候我们忘记了机器学习只是达成目的的手段,而非目的本身.对大多数公司而言,其真正的目 ...

  3. 百度语音系统Deep Voice新突破 可在几秒内克隆你的声音

    文章来源:ATYUN AI平台 百度的AI研究部门近日宣布,其文本到语音(TTS)系统"Deep Voice"已经学会了如何使用仅三秒钟的语音样本数据来模仿人类的声音. 这项技术被 ...

  4. 五大创新型AI软件公司,下一个AI独角兽就是你!

    全文共2867字,预计学习时长8分钟 图源:knowledg 商业领域的AI热词频出,以至于很多时候我们忘记了机器学习只是达成目的的手段,而非目的本身.对大多数公司而言,其真正的目标并非创建AI,而是 ...

  5. “深度学习之父”后悔投少了?90后华人学者:我们只卖AI软件

    "如果 AI 在现实场景中不具备自主性,就没有任何价值,也没有任何意义." 90 后华人学者陈曦(Peter Xi Chen)的观点一针见血.毫不妥协. 陈曦是美国加州大学伯克利分 ...

  6. 绝症老父亲即将说不了话,儿子用AI技术挽留他的声音

    赖可 发自 凹非寺 量子位 报道 | 公众号 QbitAI 我真的很害怕忘记他的声音,想制作许多录音. 看着自己的父亲被渐冻症逐渐侵蚀,即将不能说话,一位网友发帖求助. 他希望AI能帮助自己. &qu ...

  7. 【AI芯片格局最全分析】国内AI芯片百家争鸣,何以抗衡全球技术寡头

    如果说 2016 年 3 月份 AlphaGo 与李世石的那场人机大战只在科技界和围棋界产生较大影响的话,那么 2017 年 5 月其与排名第一的世界围棋冠军柯洁的对战则将人工智能技术推向了公众视野. ...

  8. python模仿声音_5秒钟让python克隆别人的声音

    AI越来越强大,不仅能模仿别人的表情,还能模仿别人说话的声音和语气,以后电话听到好友的声音也有可能不是本人哦,今天小编来讲讲一个实时声音克隆库Real-Time-Voice-Cloning githu ...

  9. AI软件视频生成工具 抖音蓝V运营小助手

    AI软件视频生成工具为用户提供了智能混剪.批量生成标题文案.智能发布和移动端操作等功能. 海量自定义风格商务模板: AI软件视频生成工具提供了大量专业商务风格的视频模板,模板可根据用户的需求进行自定义 ...

最新文章

  1. Delphi真的没落了吗?_说Delphi母语Pascal的另一个应用
  2. java Class类与反射
  3. 开源大数据周刊-第76期
  4. python截取逗号_Python基础知识: 元组
  5. ACM 配置中心实战:Spring + MyBatis + Druid + ACM
  6. 管人、管团队、管项目,如何让团队管理者成为技术团队中的发动机?
  7. C++ 40行超级加速命令
  8. idea找不到Hide empty Middle Packages???
  9. 卡写入保护开关原理_老电工带你解密:插卡取电开关
  10. range函数python3_Python3如何使用range函数替代xrange函数
  11. java.lang.IllegalStateException: UT010019: Response already commited
  12. [CERC2017]Intrinsic Interval(神仙+线段树)
  13. 单源最短路径的Bellman-Ford算法。
  14. svm神经网络葡萄酒matlab,SVM神经网络的数据分类预测-葡萄酒种类识别
  15. 微信小程序:高德地图在小程序中的实践(含静态地图)
  16. 男生必须给女友纠正的小习惯
  17. 联想Lenovo IdeaPad-100s-14IBR安装win7系统
  18. dat文件导入cad画图步骤_准确又高效的读入CAD几何——详解Fluent Meshing导入文件的几种方法...
  19. 涨势迅猛!拼多多跨境平台TEMU在美掀起流量风暴!
  20. Go语言的GPM模型

热门文章

  1. 国外牛人总结的机器学习领域的框架、库以及软件
  2. git解决push错误failed to push some refs to的解决
  3. ionic 指定蒙文字体
  4. 快速入门rsync远程同步
  5. 首个5G智慧机场落地广州 速度是4G的50倍
  6. ALIENTEK TFTLCD显示大字例程(ASCII 38*38,,46*46, 60*60).包含取模软件,字库,函数
  7. ADI评估板EVAL-AD9174开发记录---下
  8. 按键精灵怎么打地鼠_和大家聊少儿编程,什么时候学最佳?怎么选课?
  9. flink监控prometheus/influxdb + grafana企业实战
  10. c语言中其不同数据类型,C语言中不同类型数据间的转换