麻省理工学院开发出可“听音识貌”的人工智能

https://www.toutiao.com/a6701470960853189127/

美国麻省理工学院的研究人员已经开发出一种令人印象深刻但又令人生畏的人工智能应用程序，它可以通过听你的声音来弄清楚你的样子。

在最近一篇名为“语音转脸部：声音背后的学习”的论文中，研究人员详细介绍了AI软件如何利用各种声音后重建面部。

为了实现这一目标，神经网络从视频网站youtube上获得了数百万个视频，其中包含超过100000人。

研究人员在研究报告中解释说，这项工作的目标是研究我们在多大程度上可以从一个人的说话推断出他的容貌。

显然，面容和声音之间没有一对一的匹配关系。因此，科学家们的目标不是预测精确面部的可识别图像，而是捕捉与输入语音相关的人的主要面部特征。

人工智能能够研究视频素材，并在说话人的声音和面部之间形成相关性，并对年龄，性别和种族等因素做出判断。

研究人员说，这种人工智能能够在不需要人为干预的情况下做到这一点。

这项人工智能将来可能具有有益的应用

研究人员表示，这项人工智能将来可能具有有益的应用，例如，根据说话者的声音将其脸部添加到电话/视频通话中。

然而，他们警告说，神经网络并不意味着能够准确描述一个人的样子，相反，它只生成粗略的近似值。

人工智能形成说话者的声音和面部之间的相关性，并对年龄，性别和种族等因素做出判断

研究人员表示，他们也能够发现面部模式中的一些相关性，他们认为这可能是一个突破。

该论文指出：“我们的重建揭示了颅面特征（例如鼻子结构）和声音之间不可忽略的相关性。”

鉴于人工智能有望判断一个人的外表，研究人员说，他们觉得有必要解决他们的研究结果引起的一些潜在的道德和隐私问题。

例如，该AI很难判断具有某些身份的人。当它被分析一个说中文的亚裔美国人的镜头时，它正确地判断出了这是一个亚洲人。但是此人讲英语时。它会错误地认为此人为白人。

人工智能很难判断具有某些身份的人

AI还认为，高音调的人是女性，男性声音着更低沉。

有些人在发现他们的脸被用于研究之后感到不安，研究人员确实试图解决研究中的隐私问题，并指出他们的系统不会产生“人的真实身份”，只会产生“大众面孔”。

但是根据论文中提供的示例，AI生成的面部仍然相对逼真，与训练录像中显示的原始人非常相似。

该研究发表在Arxiv论文网站上。

麻省理工学院开发出可“听音识貌”的人工智能相关推荐

听音识故障，人工智能“诊断”机器新形式
本文由人工智能观察编译译者:Sandy 声音无处不在,即使有时候你听不到.也正是这种无声的声音,宣示着机器的工作状态. 总部位于芬兰赫尔辛基的Noiseless Acoustics和总部位于荷兰阿姆 ...
「蚂蚁呀嘿」克星来了！中科院23岁博士生开发「听音识人」，准确率近90%
转自:新智元看脸和声音是否匹配,这种黑科技如今走向了现实.中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术,只需1秒就能将声音和正确人脸进行匹配,准确率接近 90%. 「AI ...
人民大学提出听音识物AI框架，不用人工标注，嘈杂环境也能Hold住，还可迁移到物体检测...
明敏发自凹非寺量子位 | 公众号 QbitAI 不用人工标注,也能让AI学会听音寻物. 还能用在包含多种声音的复杂环境中. 比如这个演奏会视频,AI就能判断出哪些乐器在发声,还能定位出各自的位置 ...
听音识情绪 | 程序员手把手教你搭建神经网络，更快get女朋友情绪，求生欲max！⛵
atitit 音频项目系列功能表音乐 v3 t67.docx Atitit 音频项目系列功能表 1.音频音乐语言领域的功能表听歌识曲功能酷我功能。铃声功能。。音频切割（按
atitit 音频项目系列功能表音乐 v3 t67.docx Atitit 音频项目系列功能表音频音乐语言领域的功能表听歌识曲功能酷我功能. 铃声功能.. 音频切割(按照副歌部分 ...
atitit 音频项目系列功能表音乐 v3 t67.docx Atitit 音频项目系列功能表音频音乐语言领域的功能表听歌识曲功能酷我功能。铃声功能。。音频切割（按照副歌部
atitit 音频项目系列功能表音乐 v3 t67.docx Atitit 音频项目系列功能表音频音乐语言领域的功能表听歌识曲功能酷我功能. 铃声功能.. 音频切割(按照副歌部分 ...
《麻省理工学院技术评论》评出最新十大突破性技术
来源:新华网摘要:全球知名科技评论期刊<麻省理工学院技术评论>27日发布2019年"全球十大突破性技术",灵巧机器人.核能新浪潮.定制癌症疫苗.人造肉汉堡等入选. 这 ...
麻省理工学院研究人员设计出针对幽灵党和熔毁的DAWG方法
麻省理工学院的安全研究人员声称已经设计出一种硬件解决方案来防止基于推测执行的缓存定时攻击,例如幽灵党和熔解.他们的方法被称为动态分配路径保护(DAWG),将处理器缓存分割成大小不一的分区,使得进程无法 ...
听歌识曲也太牛了吧！只“音”奥秘在此……
摘要: 抖音等短视频软件的兴起,让一些不为大众所知的歌曲一夜爆红,当我们遇到中意的音乐却苦恼于找不到资源时,"听歌识曲"的功能顺势而生.而这类技术是如何实现歌曲的精准识别的呢?跟我 ...

麻省理工学院开发出可“听音识貌”的人工智能

麻省理工学院开发出可“听音识貌”的人工智能相关推荐

最新文章

热门文章