https://www.toutiao.com/a6701470960853189127/

麻省理工学院开发出可“听音识貌”的人工智能

美国麻省理工学院的研究人员已经开发出一种令人印象深刻但又令人生畏的人工智能应用程序,它可以通过听你的声音来弄清楚你的样子。

在最近一篇名为“语音转脸部:声音背后的学习”的论文中,研究人员详细介绍了AI软件如何利用各种声音后重建面部。

为了实现这一目标,神经网络从视频网站youtube上获得了数百万个视频,其中包含超过100000人。

研究人员在研究报告中解释说,这项工作的目标是研究我们在多大程度上可以从一个人的说话推断出他的容貌。

显然,面容和声音之间没有一对一的匹配关系。 因此,科学家们的目标不是预测精确面部的可识别图像,而是捕捉与输入语音相关的人的主要面部特征。

人工智能能够研究视频素材,并在说话人的声音和面部之间形成相关性,并对年龄,性别和种族等因素做出判断。

研究人员说,这种人工智能能够在不需要人为干预的情况下做到这一点。

这项人工智能将来可能具有有益的应用

研究人员表示,这项人工智能将来可能具有有益的应用,例如,根据说话者的声音将其脸部添加到电话/视频通话中。

然而,他们警告说,神经网络并不意味着能够准确描述一个人的样子,相反,它只生成粗略的近似值。

人工智能形成说话者的声音和面部之间的相关性,并对年龄,性别和种族等因素做出判断

研究人员表示,他们也能够发现面部模式中的一些相关性,他们认为这可能是一个突破。

该论文指出:“我们的重建揭示了颅面特征(例如鼻子结构)和声音之间不可忽略的相关性。”

鉴于人工智能有望判断一个人的外表,研究人员说,他们觉得有必要解决他们的研究结果引起的一些潜在的道德和隐私问题。

例如,该AI很难判断具有某些身份的人。当它被分析一个说中文的亚裔美国人的镜头时,它正确地判断出了这是一个亚洲人。但是此人讲英语时。它会错误地认为此人为白人。

人工智能很难判断具有某些身份的人

AI还认为,高音调的人是女性,男性声音着更低沉。

有些人在发现他们的脸被用于研究之后感到不安,研究人员确实试图解决研究中的隐私问题,并指出他们的系统不会产生“人的真实身份”,只会产生“大众面孔”。

但是根据论文中提供的示例,AI生成的面部仍然相对逼真,与训练录像中显示的原始人非常相似。

该研究发表在Arxiv论文网站上。

麻省理工学院开发出可“听音识貌”的人工智能相关推荐

  1. 听音识故障,人工智能“诊断”机器新形式

    本文由人工智能观察编译 译者:Sandy 声音无处不在,即使有时候你听不到.也正是这种无声的声音,宣示着机器的工作状态. 总部位于芬兰赫尔辛基的Noiseless Acoustics和总部位于荷兰阿姆 ...

  2. 「蚂蚁呀嘿」克星来了!中科院23岁博士生开发「听音识人」,准确率近90%

    转自:新智元 看脸和声音是否匹配,这种黑科技如今走向了现实.中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术,只需1秒就能将声音和正确人脸进行匹配,准确率接近 90%. 「AI ...

  3. 人民大学提出听音识物AI框架,不用人工标注,嘈杂环境也能Hold住,还可迁移到物体检测...

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不用人工标注,也能让AI学会听音寻物. 还能用在包含多种声音的复杂环境中. 比如这个演奏会视频,AI就能判断出哪些乐器在发声,还能定位出各自的位置 ...

  4. 听音识情绪 | 程序员手把手教你搭建神经网络,更快get女朋友情绪,求生欲max!⛵

  5. atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 1.音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能。 铃声 功能。。 音频切割(按

    atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能. 铃声 功能.. 音频切割(按照副歌部分 ...

  6. atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能。 铃声 功能。。 音频切割(按照副歌部

    atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能. 铃声 功能.. 音频切割(按照副歌部分 ...

  7. 《麻省理工学院技术评论》评出最新十大突破性技术

    来源:新华网 摘要:全球知名科技评论期刊<麻省理工学院技术评论>27日发布2019年"全球十大突破性技术",灵巧机器人.核能新浪潮.定制癌症疫苗.人造肉汉堡等入选. 这 ...

  8. 麻省理工学院研究人员设计出针对幽灵党和熔毁的DAWG方法

    麻省理工学院的安全研究人员声称已经设计出一种硬件解决方案来防止基于推测执行的缓存定时攻击,例如幽灵党和熔解.他们的方法被称为动态分配路径保护(DAWG),将处理器缓存分割成大小不一的分区,使得进程无法 ...

  9. 听歌识曲也太牛了吧!只“音”奥秘在此……

    摘要: 抖音等短视频软件的兴起,让一些不为大众所知的歌曲一夜爆红,当我们遇到中意的音乐却苦恼于找不到资源时,"听歌识曲"的功能顺势而生.而这类技术是如何实现歌曲的精准识别的呢?跟我 ...

最新文章

  1. 抽血检查超敏c高_答疑抽血检查甲状腺需要空腹吗?
  2. word2016公式自动编号
  3. iOS - 修改 UITextField 的 clearButtton 样式
  4. 那年的12月,那些悟与思2018-12-23
  5. video.js html5 视频播放器
  6. MapReduce简述
  7. VSS (Visual Source Safe 2005) 用法详解(转载)
  8. python中pack函数,python中struct.pack()函數和struct.unpack()函數
  9. 手机长时间不用自动断网_WiFi动不动就自动断网?都怪手机的默认设置!点这里一键修改...
  10. easypoi之IExcelVerifyHandler自定义校验使用
  11. Linux curl命令简介
  12. Redis: 配置文件示例
  13. Python爬取百度翻译-可以选择语言
  14. 模块化的机器学习系统就够了吗?Bengio师生告诉你答案
  15. java 正则表达式电话邮箱_Java编程:正则表达式判断邮箱及电话号码是否有效
  16. 从尺规作图到机器证明
  17. Java应届生大学四年怎么做,可以毕业就进入华为工作,致Java高级工程师的一封信
  18. 概率论与数理统计---------大数定律
  19. 3、管理员添加内容的实现
  20. 共享打印机找不到网络路径的解决方法

热门文章

  1. 熵的定义(很好的方法论工具尤其第三熵增益的计算)
  2. std::vectorint size_type 是STL的什么用法
  3. select count(*) from temp 与select count(1) from temp有什么区别
  4. AAAI 2021最佳论文《Informer》作者:Transformer 最新进展
  5. 智源青年科学家梁云:异构系统中张量计算的自动调度和优化框架
  6. 不扶好眼镜,请别打开这本挑战JS语言特性的书
  7. 冯怡:我想给大家展示一种可能性(图灵访谈)
  8. 回馈读者【赠技术书通知】
  9. 独家 | 识别并解决数据质量问题的数据科学家指南
  10. 报名 | 基于大数据的中国城市技术社会治理探索