雾中之栗 发自 凹非寺
量子位 出品 | 公众号 QbitAI

 精神的力量

人类非常善于在嘈杂的环境中,集中注意力听某一个人说的话,从精神上“屏蔽”一切其他声音。这种现象便是“鸡尾酒会效应”,我们与生俱来。

不过,对于计算机来说,要把一个音频信号分割成多个不同的语音来源,依然有些棘手的问题需要解决。当许多人的语音交叠在一起的时候,AI时常措手不及。

谷歌团队建立了一个深度学习视听模型,用来把某个人的语音从一段混合声音里面提取出来。算法对视频做一些奇妙的改动,就可以让观众需要的声音变得格外显著,其他声音则被削弱。

 不戴眼镜,AI也一样

这项技术的独到之处,就是把听觉和视觉信号结合起来用,而不单单靠声波来分离视频中的语音。直观来看,以嘴上的动作为例,人的口型和语音相互对应。这一点会帮助AI判断,哪些声音是哪个人发出的。

视听语音分离模型

要生成训练样例,团队先搜集了100,000条高清视频,全部是油管上的讲座和演讲。第二步,是把语音单纯 (比如,无音乐、无观众、无其他演讲者) 、且图像中只有一人出现的视频筛选出来。这样,就得到了大约2,000小时纯纯无杂质的视频。

有了这些数据,小伙伴们就开始对一个基于多流卷积神经网络 (CNN) 的模型进行训练。人工合成一些嘈杂的“鸡尾酒会”给AI欣赏,目标是让它在酒会里,把每个人的音频流分离开来。

 感觉有人,在背后截我图

视频里,演讲者的大头贴被一帧一帧地截下,计算机用它们的缩略图来提取面部特征。然神经网络食量非凡,它要吃的不止这些面部特征。加上频谱图形式呈现的音轨,才是神经网络美好的晚餐。

在训练过程中,AI学会了编码视觉和听觉信号,并且能够把它们组合成一种特殊的视听表现形式。在此基础上,AI还要为每个演讲者输出一个时频掩膜 (time-frequency mask) 。

把这些掩膜与输入的噪音频谱相乘,再转换回时域波形 (time-domain waveform) ,就能获得每个演讲者独立又清澈的语音信号了。

训练成果秀

团队用单音轨的普通视频来做实验。观众要做的很简单,想要听到哪个人的声音,就把他/她的脸从视频里选出来,当然让计算机根据场景自动选择也是可以的。

 安能辨我是雄雌

除了被选中的人,其他人的声音都可以被完全压制,或者被削弱到理想的程度

在多人发声的场景下,视觉信号除了有效提升语音分离的质量,还可以把分离之后的音轨和视频里的人物对应起来。

 两个劈柴一起秀

为了突显视觉信息的作用,团队从劈柴小哥哥 (谷歌CEO Sundar Pichai) 的同一条演讲视频里截取了两个不同的段落,左右拼接成一段视频。如果只靠音频,便很难判断是左边的劈柴还是右边的劈柴在说话。

不,是你的字幕

语音识别的预处理,以及视频字幕的自动生成中,也能用上这个方法。遇到相互交叠的声音,视听模型或许可以解决,以往语音分离系统遇到的难题。

有翻墙技能的大家,可以使用油管的字幕功能 (cc) ,对比整容前和整容后的视频,看看字幕有没有更准一些。

 刚才谁在说话

这是论文的传送门:

https://arxiv.org/pdf/1804.03619.pdf

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

不戴眼镜听不清?Google用视觉信号分离语音 | 附论文相关推荐

  1. 当你开始听不清这个世界的声音

    电梯在七楼开了,进来个老太太.她看见我就问:"上次在楼下背包的是你吧?"我想了想,想起她来了.那次我和她一起上电梯,她问我:"你住几楼?"我说:"八楼 ...

  2. 长期戴耳机听歌的危害、别让这些坏习惯害了你的听力

    一部手机一副耳机似乎已经成为大家出门手头上的标配了,等车无聊,戴上耳机刷个剧:地铁太吵,戴着耳机隔离一下噪音:工作时思路枯竭,戴上耳机听首嗨歌:走在路上闲着也是闲着,那就戴上耳机吧:睡觉睡不着,戴上耳 ...

  3. 近视眼学计算机好吗6,近视又不戴眼镜,还经常对着电脑会怎么样

    第一,得了近视最好还是配戴眼镜.因为不戴眼镜的话,看书时会感觉到更吃力,眼睛更容易疲劳,视力会下降得更快.同时,眼镜是矫正曲光度和眼球的,不戴眼镜的话眼球变形会更严重. 第二,注意缓解眼睛疲劳,控制近 ...

  4. MegaFace 人脸数据集 戴眼镜数据集

    stylegan2 生成的 戴眼镜/笑容人脸数据集 [seeprettyface.com]数据集:戴眼镜/笑容人脸数据集_bupt_gwy的博客-CSDN博客_戴眼镜数据集 下载地址: 新数据集 商汤 ...

  5. 经常戴耳机有什么危害呢?如何做到在戴耳机听歌时保护耳朵听力

    不知不觉,听歌几乎是现在年轻人们必不可少的放松方式之一了,闲暇时听歌.运动时听歌.旅途中时听歌.办公时听歌--听歌放松自我是很好的方式之一,但在享受音乐的同时,也伴随着很多的隐患.此前世卫组织发布报告 ...

  6. 计算机报名寸照能戴眼镜吗,拍证件照可以戴眼镜吗 没有明确要求

    现在近视的人越来越多,很多人都戴起了眼镜,但是有一点很麻烦的就是,我们平时在拍证件照的时候需不需要把自己的眼镜给摘下来呢? 拍证件照可以戴眼镜吗 拍证件照是可以戴眼镜的. 现在的证件照要求平常习惯载眼 ...

  7. 注入游戏没有焦点_不戴眼镜看3D电影、玩3D游戏,这项技术能焕发端游市场第二春吗?...

    在今年5月的华为2020全球分析师大会,提到"裸眼3D,如果这项技术能够实现,将会给人们带来革命性体验的提升,被应用在生活.娱乐以及医疗.教育等领域.届时,裸眼3D也有望开创出难以想象的新的 ...

  8. 安卓项目打开有时候manifests不见了_手机通话音量太小?教你打开这个开关,再也不怕听不清了...

    分享最实在的玩机技巧,洞察最前沿的科技资讯!大家好,这里是手机科技园! 我们在生活中,经常用手机与家人朋友通话,可是有时候即使将音量开到最大,通话声音还是非常小,这到底是为什么呢?下面就来教你打开这个 ...

  9. 长期戴耳机听歌的危害这么大,这些坏习惯你还在做吗

    "耳机"是我们必不可少的听歌神器,然而,在我们享受美妙音乐的时候,可能从未想到过戴耳机会导致听力下降,甚至造成耳鸣. 然而长时间使用耳机也会出现问题. 女生长期戴耳机听歌,结果患上 ...

最新文章

  1. java 业务层业务接口层_Java web五层架构
  2. 移植uboot第八步:裁剪、修改默认参数、分区
  3. 04-java学习-选择结构
  4. 安装Eclipse插件
  5. 修正本地乱码(待补充)
  6. Qt for Python之 PySide2+QML 入门示例
  7. python2与python3代码互相转化时注意事项
  8. iOS之地理位置及定位系统 -- 入门笔记(用Swift)
  9. 双非毕业生,如何入职大厂
  10. Nginx源码阅读笔记-内存池的设计
  11. Linux IO调度器相关算法介绍
  12. Linux下查看网卡实时流量工具
  13. Eclipse/MyEclipse一次修改或者编辑多行的快捷键
  14. RecyclerView 数据刷新的几种方式 局部刷新 notify MD
  15. MySQL单元三试题与答案_2016年3月三级MySQL数据库试题及答案
  16. php 问卷调查,使用php问卷调查结果统计
  17. python做bi系统_python开发bi
  18. Leetcode 5773:插入后的最大值
  19. Windows下使用命令修改文件权限和所有者
  20. matlab怎么画loess拟合,matlab smooth loess

热门文章

  1. “封杀中兴”后,TensorFlow、MySQL、Hadoop 也被“闭源”怎么办?
  2. 辽工大计算机网络实验报告,辽工大计算机硬件实验报告.doc
  3. 金九银十!2021阿里+头条+腾讯等大厂Java笔试题分享
  4. 深度学习分类只有正样本_自动调制分类:一种深度学习的方法
  5. Linux哈希表数组,开地址哈希表(Hash Table)的接口定义与实现分析
  6. python异步查询数据库_Python中使用aiomysql异步操作MySQL实例效果
  7. php程序如何保证3秒作出响应,这个留言本的响应时间总是在3秒左右,如何优化?...
  8. 数组的循环移位c语言,如何将一个数组的元素循环左移?
  9. 机器人编程python代码_自己动手开发智能聊天机器人完全指南(附python完整源码)...
  10. matlab的mlx文件 变成HTML,MLX 文件扩展名: 它是什么以及如何打开它?