21岁华人本科生,凭什么拿下CVPR 2020最佳论文提名?
金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
在训练神经网络的时候,经常会出现「缺数据」的情况。
这时候,就需要「数据增强」来获取更多数据。而近几年,镜像反转成了最为常用的方法之一。
转一次,获得2倍数据,真香!
然而,事情却没有想像中的那么简单——当翻转了数据集里所有的图片时,神经网络所拟合的函数,还能代表原先的图像分布么?
针对这一问题,来自康奈尔大学的研究员,首次挑战了常规神经网络训练中,图片「翻转不变性」(flip-invariant) 的这一假设。
研究的题目叫做视觉手性 (Visual Chirality),并在CVPR 2020中获得了最佳论文提名。
注:手性的定义为「一个物体无法与其镜像相重合」。「视觉手性」一词启发自手性,意指「计算机视觉领域中图像分布与其镜像分布的区别」。
而该研究的一作,是此届CVPR大会上年纪最小的获奖者,年仅21岁的华人科研新秀——林之秋。
这项研究在多种领域(人脸,互联网图片,数字处理图像)上利用卷积神经网络,发现了许多常人难以捕捉的「视觉手性」线索。
通过自监督训练,在多项数据集上达到了60%,甚至到90%的精度。
镜像翻转的图像,能不变?
为了理解这一镜像翻转话题,我们先来看下这样的一个例子:
在上面这张图中,你能判断出哪些图像被翻转了吗?答案如下:
图一:镜像翻转(线索:文字)。我们可以很容易看出来文字被翻转过了。
图二:没有翻转(线索:纽扣)。男士衬衫的纽扣一般位于身体右侧。
图三:镜像翻转(线索:吉他)。吉他手的主手应当在吉他右侧。
镜像翻转对于人类而言并没有多少区别(如图二和图三),因而难以判断。
然而,神经网络却可以通过自监督训练的方法在这个任务上达到非常高的精度,并能指出图片中哪些区域可以被用于识别镜像翻转。
手性代表着单个图片的翻转不对称性,而视觉手性 (Visual Chirality)则是针对图像分布所定义的翻转不对称性。
当一个图像分布具备视觉手性时,使用镜像翻转作为数据增强方法,将不可避免的改变一个数据集所代表的分布。
换句话说,只有当一个图像分布不具备视觉手性的时候,才能在不改变原先图像分布的前提下,使用镜像翻转来增强数据集。
然而,视觉手性是大部分视觉领域都拥有的属性。正如此篇文章作者,谷歌AI科学家Noah Snavely教授所说:
在计算机视觉的研究中,我们常把这个世界视为”翻转不变“的,镜像翻转因而是一个常规的数据增强方法。
然而,当你翻转图片后,文字将被颠倒,左手变为右手,而螺旋意大利面也将朝相反方向旋转。
那么,这项研究又是如何挑战了,人们先前在计算机视觉中,对于「翻转不变性」假设的呢?
实验过程
这项研究利用了自监督学习方法来训练卷积神经网络。
对于任何一个数据集,只需要将其原有的图片标记为「无翻转」,并将镜像翻转过的图片标记为「有翻转」,即可训练神经网络识别镜像翻转这个二分类任务(binary classification)。
同时,可以根据神经网络在验证集的表现,来评估这一图像分布是否具备视觉手性:
如果验证集上的精度要显著大于50%,便有充足的证据来证明视觉手性的存在。
这项研究利用了ResNet-50作为基本的网络结构,并使用SGD方法来训练网络。
为了了解神经网络学到了哪些视觉手性线索,研究人员利用了类激活映射(CAM:Class Activation Map)方法,在原有图片上对于视觉手性敏感的区域进行了高亮。
同时因为能造成视觉手性的现象有很多,研究人员还推出了一个简单的基于类激活映射的聚类方法——手性特征聚类 (Chiral Feature Clustering)。
在互联网图片集上,神经网络在镜像翻转识别上取得了高达60%-80%的精度。
研究人员在Instagram图片集上进行了手性特征聚类,并挑选了一系列与人们生活相关的典型视觉手性现象进行讨论。
手机:对着镜子自拍是人们最爱做的事。此类照片具有视觉手性,因为手机的摄像头一般固定在手机背面的一侧(因品牌而异),同时由于多数人是右撇子,一般都以右手持手机进行自拍。
吉他:几乎大多数的吉他手都以右手拨弦,左手持把。
手表:手表一般都被带在人们的右手侧。
为了深入了解人脸的视觉手性现象,研究人员在人脸数据集上进行了孤立训练。
在Flickr-Faces-HQ (FFHQ)人脸数据集上进行了训练,并在测试集上取得了高达81%的精度,还利用手性特征聚类对人脸中的视觉手性现象进行了初步的探讨:
刘海分界处:人们一般用右手来分理刘海,这会导致刘海的朝向向一侧偏移,并出现视觉手性现象。
眼睛:人们在看向物体时倾向于用一只主视眼进行瞄准,这样会导致人们的目光在进行拍摄时出现偏移。多数人的主视眼为右眼,而这一现象可能是导致视觉手性现象的成因。
胡子:与头发一样,可能与人们习惯于用右手理胡子有关。
文中对以上的视觉手性现象的讨论均为初步的分析,而人脸中任有大量的视觉手性线索值得被发掘。
除此之外,研究人员还对数字图像处理过程 (例如去马赛克和图片压缩)中产生的视觉手性现象进行了分析。
举个例子,当研究人员首次利用神经网络,在Instagram数据集上进行自监督训练时,发现没有使用随机剪裁(random cropping)的神经网络。
但在部分图片上,类激活映射所得到的热图更着重关注图片的边缘部分,如下图所示:
而在使用随机剪裁之后,研究人员得到的新的热图,则更关注来自于图片中物体本身的线索。
研究人员提出:当数字图像处理过程和镜像翻转不具备「交换律」时,视觉手性将会凭空产生在一个图像分布上。
作者通过概率论与群论(group theory),对此假设进行了严谨的数学论证,并通过神经网络实验验证了这一现象在互联网图片中广泛存在。
而此类的线索往往不能被肉眼可见,却在图片中存在固定的模式,因而为图像识伪的应用创造了可能性。
98年华人科学新秀
这项研究的第一作者,是98年生的华人科学新秀——林之秋。
林之秋17岁便考入美国“常春藤”盟校——康奈尔大学,而这也是他「开挂人生」的开始。
林之秋仅用两年时间就全部修完计算机和数学两个专业的本科课程,并从大二开始选修博士课程,同时跟随计算机系的教授从事科研工作。
他在多项专业课上,例如多元微积分、线性代数、高等抽象代数、人工智能、计算机操作系统等都取得过第一名。
由于成绩极为优异,自大二起林之秋就接受计算机系里邀请,以助教身份给高年级同学讲课,为康奈尔科技学院编写硕士生的预修课程,甚至在高阶机器学习课上给博士生的试卷打分。
而这篇「CVPR 2020最佳论文提名」的研究,是林之秋从大二就开始着手准备的项目,这也显示了他「超级大学霸」的真实实力。
如今,本科毕业的林之秋,总成绩在学院数千名学生中名列前三,并受院长邀请在毕业典礼上代表学院举旗。之后,他即将前往卡内基梅隆机器人学院,攻读计算机视觉博士学位。
在此,也预祝林之秋同学,能够在科研的道路上,继续乘风破浪!
传送门
文章链接:
https://arxiv.org/abs/2006.09512
文章网站:
http://visual-chirality.io
代码链接:
https://github.com/linzhiqiu/digital_chirality
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
喜欢就点「在看」吧 !
21岁华人本科生,凭什么拿下CVPR 2020最佳论文提名?相关推荐
- CVPR 2020 最佳论文解读:无需任何监督,即可重建三维图像
作者 | 陈大鑫.蒋宝尚 编辑 | 丛末 我有一张二维照片,能让它变成三维图像么?可以,当前的一些3D电影相册工具,给图片加一个相框也能形成动态效果. 另外,用PS软件,进行一步.两步.三步等等操作后 ...
- 后浪“95”获 CVPR 2020 最佳论文,前得主这样解读
来源 | AI TIME 论道 CVPR 2020已落下帷幕,共计投稿6656篇,录用1470篇,涵盖的方向包括目标检测.目标跟踪.图像分割.人脸识别.姿态估计.三维点云.视频分析.模型加速.GAN. ...
- 北大图灵班本科生吴克文获STOC 2020最佳论文奖
来源|机器之心 今天,北京大学前沿计算研究中心官方公众号报道称,在全球计算机理论顶会 STOC 2020 上,北大本科生吴克文有两篇论文发表,其中一篇获得了最佳论文奖. 根据北京大学前沿计算研究中心官 ...
- 98后常春藤学霸林之秋,一作拿下CVPR最佳论文提名,首次挑战图片翻转不变性假设...
点击上方"视学算法",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI科技评论 今年CVPR 最大的亮点之一,当属"后浪"们在学 ...
- python如何让图片镜像翻转_98后常春藤学霸林之秋,一作拿下CVPR最佳论文提名,首次挑战图片翻转不变性假设...
今年CVPR 最大的亮点之一,当属"后浪"们在学术研究上的出色表现. 在一众获奖论文作者中,年龄最小的一位一作获奖者甚至还在本科阶段.他就是来自康奈尔大学的"98后&qu ...
- radioml2018数据集_7 Papers Radios | CVPR 2020获奖论文;知识蒸馏综述
机器之心 & ArXiv Weekly Radiostation 参与:杜伟.楚航.罗若天 本周的重要论文是CVPR 2020 公布的各奖项获奖论文,包括最佳论文和最佳学生论文等. 目录: K ...
- CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明、陶大程、沈春华等人上榜义目录标题)
作者: 清华AMiner团队 CVPR 2021最佳论文奖的候选名单,华人占据半壁江山,何恺明.陶大程.沈春华等人上榜,共32篇论文,可直接下载! CVPR 今年共有7015篇有效投稿,有1663篇被 ...
- CVPR 2021大奖出炉!何恺明获最佳论文提名,华人四篇“最佳”!第一届Thomas S. Huang 纪念奖颁发...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者 | 陈大鑫.琰琰.青暮 本文转载自:AI科技评论 就在刚刚,CVPR 2021最佳论文.最佳学生论文等 ...
- vb.net 图片水平翻转_太牛了!98 年后浪科学家,首次挑战图片翻转不变性假设,一作拿下 CVPR 最佳论文提名...
出品 | AI科技大本营(ID:rgznai100)刚刚结束的CVPR大会,总共收到6424篇论文中,仅有26篇获得最佳论文提名,占0.4%的比例.其中,康奈尔大学大四学生林之秋,以第一作者身份提交的 ...
最新文章
- 十年后你用什么听音乐?
- JavaScript/VBScript脚本程序调试(Wscript篇)
- 如何使用python给PDF文件加水印
- C++继承和组合——带你读懂接口和mixin,实现多功能自由组合
- 数据库系统实训——实验八——数据库维护
- sqlalchemy like
- oracle一对多个值,Oracle一张表中实现对一个字段不同值和总值的统计(多个count)...
- 通过helm在k8s上部署spark(伪集群版)
- 拓端tecdat|python使用MongoDB,Seaborn和Matplotlib文本分析和可视化API数据
- littlevgl之roller 滚动轴控件
- h5分享图片到微信好友、微信朋友圈、qq好友功能
- linux只能单向ping通,两机只能单向Ping通的原因、ping的原理
- 书摘—跟鬼谷子学处世 跟菜根谭学修身
- GitHub远程拉取仓库项目提示Please use a personal access token instead.解决方法
- CSS布局——圣杯布局、双飞翼布局
- 笔记本亮度无法调节的可能原因
- 完美解决:STM32CubeMX生成MDK项目报错
- 【git安装、使用、常用命令】
- Navicat mysql 数据库备份和使用,备份以后是nb3文件
- 通配符选择器/后代选择器(包含选择器)/选择器分组