vb.net 图片水平翻转_太牛了!98 年后浪科学家,首次挑战图片翻转不变性假设,一作拿下 CVPR 最佳论文提名...
训练方法
「视觉手性」这篇文章利用了自监督学习(self-supervised learning)方法来训练卷积神经网络。对于任何一个数据集,只需要将其原有的图片标记为“无翻转”,并将镜像翻转过的图片标记为“有翻转”,即可训练神经网络识别镜像翻转这一二分类任务(binary classification)。同时我们可以根据神经网络在验证集(validation set)的表现上来评估这一图像分布是否具备视觉手性:如果验证集上的精度要显著大于50%,我们便有充足的证据来证明视觉手性的存在。作者在这篇文章中利用了ResNet-50作为基本的网络结构,并使用SGD方法来训练网络。基于先前自监督学习方法的启发,作者将同一张图片的原图和翻转图放到了SGD的同一batch里(shared-batch training),加速了网络的训练。为了了解神经网络学到了哪些视觉手性线索,作者利用了类激活映射(CAM:Class Activation Map)方法,在原有图片上对于视觉手性敏感的区域进行了高亮。同时因为能造成视觉手性的现象有很多,作者推出了一个简单的基于类激活映射的聚类方法:手性特征聚类(Chiral Feature Clustering)。
手性特征聚类方法
类激活映射方法本质上是对于神经网络最后一层卷积层输出的特征图(feature map)的加权线性和(linear weighted sum)。当我们假设神经网络是利用区域特征(local feature)来判断图像是否为镜像翻转时,我们可以将类激活映射(CAM)最强的区域视为神经网络最为关注的区域特征。只需要取最后一层卷积层输出的特征图上这一区域的特征,便可以利用传统的聚类方法例如K-means clustering进行自动分类。ResNet-50最后一层卷积输出的特征图为一个(16x16x2048)的三维矢量f,而类激活映射所得到的热图(heatmap)为(16x16)的二维矢量A。假设热图上数值最大的点为(x*,y*),那么我们用来聚类的区域特征即为f(x*,y*)。作者在多个不同图像分布上利用手性特征聚类方法对视觉手性现象进行了归因和讨论。
互联网图片集
在互联网图片集上,神经网络在镜像翻转识别上取得了高达60%-80%的精度。作者着重分析了Instagram图片上的视觉手性现象。在不用随机剪裁(random cropping)时,神经网络在测试集上取得了高达92%的精度。然而因为有JPEG压缩失真的可能性存在(JPEG edge artifact一般出现于图片的边缘),作者同样使用随机剪裁进行了训练,并仍旧取得了高达80%的精度。考虑到大量Instagram图片有配文字,而文字是最明显的视觉手性现象,作者用文字识别器滤除了Instagram中含有文字的图片重新进行了训练,但仍旧在测试集上取得了74%的高精度。值得一提的是这些训练出来的模型具有一定程度的泛化能力,可以不经训练,在其他的互联网图片集(Flickr F100M)上取得高于50%的精度。作者在Instagram图片集上进行了手性特征聚类,并挑选了一系列与我们生活相关的典型视觉手性现象进行讨论。1、手机对着镜子自拍是人们最爱做的事。此类照片具有视觉手性,因为手机的摄像头一般固定在手机背面的一侧(因品牌而异),同时由于多数人是右撇子,一般都以右手持手机进行自拍。2、吉他几乎大多数的吉他手都以右手拨弦,左手持把。3、手表手表一般都被带在人们的左手侧。4、男士衬衫领子男士衬衫的扣子一般处于右侧。5、上衣口袋正装上衣的口袋几乎无一例外处于身体左侧,为了更好地服务于占大多数的右撇子。6、人脸更令人吃惊的是,类激活映射方法在大量的人脸上出现了较强的反应,说明人脸中视觉手性的存在。多数情况下人脸通常被认为是对称的:此届CVPR 2020另一篇best student paper(Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild)更是将人脸视为了轴心对称的物体,并以此为线索来进行3D重建。需要强调的一点是,这些视觉手性现象在每张图片中看似孤立,但神经网络仍有可能会利用多种不同的线索来对图片是否翻转进行判断。为了深入了解人脸的视觉手性现象,作者在人脸数据集上进行了孤立训练。作者在Flickr-Faces-HQ (FFHQ)人脸数据集上进行了训练,并在测试集上取得了高达81%的精度,并利用手性特征聚类对人脸中的视觉手性现象进行了初步的探讨:1)刘海分界处人们一般用右手来分理刘海,这会导致刘海的朝向向一侧偏移,并出现视觉手性现象。2)眼睛人们在看向物体时倾向于用一只主视眼进行瞄准,这样会导致人们的目光在进行拍摄时出现偏移。多数人的主视眼为右眼,而这一现象可能是导致视觉手性现象的成因。3)胡子与头发一样,可能与人们习惯于用右手理胡子有关。作者提到,文中对以上的视觉手性现象的讨论均为初步的分析,而人脸中仍有大量的视觉手性线索值得被发掘。数字图像处理作者对数字图像处理过程,例如去马赛克(最常见为Bayer Demosaicing)和图片压缩(最常见为JPEG Compression)过程中产生的视觉手性现象进行了分析。举个例子,当作者首次利用神经网络在Instagram数据集上进行自监督训练时,发现没有使用随机剪裁(random cropping)的神经网络尽管精度更高(在测试集上高达92%),但在部分图片上,类激活映射所得到的热图更着重关注图片的边缘部分,如左下图所示:而在使用随机剪裁之后,我们得到的新的热图则更关注来自于图片中物体本身的线索(例如右图的衬衫领子)。作者推断这是由于Instagram的图片均为JPEG格式,经过了JPEG图像压缩这一数字图像处理方式。JPEG压缩的算法是在图片上对于每16乘16的像素格进行分别处理的,而对于不能被16整除的图片,其边缘会用统一方式进行处理(例如重复边缘像素)。这会导致JPEG压缩的图片的边缘失真(edge artifact),从而导致了视觉手性现象。作者通过概率论与群论(group theory)对数字图像处理过程产生的视觉手性现象进行了数学论证,并通过神经网络实验验证了这一现象在互联网图片中广泛存在。而此类的线索往往不能被肉眼可见,却在图片中存在固定的模式,因而为图像识伪的应用创造了可能性。由于文中的证明和实验过程较为复杂,此处我们先给出数学定义和最重要的几点结论。定义
- D为数据集所来源于的图像分布。
- T为一个图像变换函数,例如镜像翻转。需要注意的是论文中的证明不仅限于镜像翻转,也可以被用于任何具备结合律(associativitive)和可逆性(invertible)的变换。
- J为一个图像处理函数。例如去马赛克以及JPEG图片压缩。
- 为经过J处理后所得到的的新图像分布。
我们沿用之前对视觉手性的定义。对于任意图片x,如果D(x)= D(T(x)),那么D不具备视觉手性。对于任何经过数字图像处理的图片y,如果,那么同样不具备视觉手性。文中最重要的结论是:当图像变换函数T和图像处理函数J具备交换律(commutative property)时,如果原先的图像分布D没有视觉手性,经过数字图像处理后的分布也不具备视觉手性。换句话说,我们可以通过检查T和J的交换律,来判断数字图像处理能否造成视觉手性现象。作者在论文中主要涉及了两种最常见的图像处理方式:
- 去马赛克(Demosaicing):数字相机的感光元件一般只能在每个像素格上捕捉RGB中的其中一种颜色,而其中最常用的为贝尔滤色镜(Bayer Color Filter Array),如下图所示。去马赛克则是将感光元件得到的二维图像还原为三维全彩的这一过程。
- JPEG压缩算法(JPEG Compression):JPEG是一种有损的图像压缩方式,被广泛应用在如今大量的互联网图片上。一般以每16乘16的像素格为单位通过色彩空间变换,缩减像素采样,离散余弦变换等步骤来进行图片编码压缩。
结论
- 去马赛克或JPEG压缩算法单独使用时,会在特定的图片大小产生视觉手性现象。对于去马赛克,由于贝尔滤色镜为2乘2的像素格,且滤色镜本身不对称(参考上图绿红蓝绿的排序),任何能被2整除的图片宽度均会导致视觉手性。对于JPEG压缩,任何不被16整除的图片宽度均会导致视觉手性。这意味着,当去马赛克和JPEG压缩被共同使用时,任意宽度的图片都将产生视觉手性,因为同时满足不被2整除和能被16整除的数字不存在。
- 当使用随机剪裁(random cropping)时,去马赛克或JPEG压缩单独使用并不产生视觉手性现象。
- 当使用随机剪裁(random cropping)时,去马赛克和JPEG压缩同时使用将会产生视觉手性现象。这意味着互联网图片中可能存在大量有规律的,肉眼不可见的视觉手性线索,而人们将能够利用这类线索来进行图片识伪。
证明那下面我们进入证明部分(读者需要对群论(Group Theory)有一定基础):文中最重要的证明为附加材料中的命题3:命题3:当原图像分布D不具备视觉手性时,如果图像处理函数J与图像变换函数T具备交换律,则经J处理后的图像分布也不具备视觉手性。证明:由于T具备可逆性和分配律,T可以将原分布中的图片分为一个个不相交的循环群(disjoint cyclic groups)。即为一个循环群,而这个循环群的单位元(identity element)可以选这个集合里面任意一个元素。这些循环群的群运算(group operation)可以被定义如下:每个循环群的阶(order of group)由T以及其中的元素决定。举个例子,如果T为镜像翻转,那么对于一张对称的照片,其所在群的阶为1。对于不对称的一张照片,其所在群的阶为2。经过图像处理后,每个循环群将变化为:命题3里,我们假设T和J具备交换律,那么我们可以将上面的公式改写,并得到:原分布D不具备视觉手性意味着:每个循环群中的元素都有相同的概率出现。因此,由于经过J图像处理后循环群变为了,我们只需要证明以下运算为同态(homomorphism):因为对于同态来说,根据第一同构基本定理(First Isomorphism Theorm)可以推理出每个输出对应着相同数量的输入。而因为每个循环群中单个输入在原分布D上有着相同的概率,意味着每个输出也具备相同的概率,也意味着不具备视觉手性。证明同态的步骤如下:以上为命题3的证明。通过命题3,我们知道了J和T的交换律与处理后图像分布的视觉手性的关系。那么,只需要通过检查交换律,我们便可以判断图像处理是否可能产生新的视觉手性。检查的方式也很简单,对于任意图片x,我们只需要计算其交换残差(commutative residual)是否为0:下图形象的解释了交换残差的计算过程:文中使用去马赛克、JPEG压缩、以及两者结合这三种图像处理方法,对于镜像翻转这一图片变换方式分别计算了交换残差。当去马赛克处理的图像宽度为奇数时,处理后的图像分布可能具备视觉手性;反之如果为偶数,则不具备视觉手性。当JPEG压缩的图片不为16整除时,处理后的图像分布可能具备视觉手性,反之则不具备。当两者结合后,处理后的图片一定具备视觉手性:作者为了验证这些结论,在原本不具备视觉手性的人工数据集(高斯分布生成的随机图片)上,对不同宽度的图片分别进行了这三种处理,并使用神经网络进行了自监督学习。实验结果符合这一测试的预期。因为大量互联网图片都经过了去马赛克和JPEG压缩,这一结论意味着数字图像处理所带来的视觉手性现象在互联网图片中广泛存在。当加入随机剪裁(random cropping)后,我们还能得到这一结论么?作者的答复是肯定的。为了理解随机剪裁对于视觉手性的影响,作者提到了两个关键点。第一点:命题三中只讨论了单种J的情况。而随机剪裁可以被视为许多种J(例如是向右平移一格并剪裁,是向右平移两个并剪裁)的结合,每一种有相同概率出现。第二点:命题三中并没有讨论T和J不具备交换律的情况。例如当J是向将图片右平移十个像素并进行一次中心剪裁时,T和J无法具备交换律。在这种情况下,新的图像分布并不一定具备视觉手性。对于第一点来说,假设我们有多种不同的J(例如,,),而他们分别与T具备交换律时,我们可以用以下公式表达新的图像分布:我们可以很容易看出,当每一个单独的J都和T具备交换律时,我们可以分别应用命题三,来证明每一个J产生的新图像分布不具备视觉手性。而当我们将这些不具备视觉手性的新图像分布加权求和的时候(公式20),我们得到的新图像分布仍旧不具备视觉手性。对于第二点来说,即便每个单独的J都不和T具备交换律时,我们仍可以找到新的图像分布不具备视觉手性的情况。为了理解这一点,作者引入了一个新的概念”排列交换律”(Permuted Commutativity),如下图所示:在这个例子中,作者假设,,)单独并不和T具备交换律,但在一种打乱的排列下具备交换性,如图中不同颜色的箭头所示。这种排列带来的交换律的关系可以用以下公式表达(a和b为排列中的序号)。在这个情况下,每一条箭头都能满足命题三中的条件,因此他们的加权和仍旧不具备视觉手性。作者将这种具备”排列交换律“的情况形象得称为”平移交换律“(Glide Commutativity),因为这类视觉现象在自然界广泛存在。例如人类的足迹,经过平移之后仍旧是对称的:那么如何检验这种”平移交换律“的存在呢?作者针对随机剪裁提出了一个简单的平移交换律测试(Glide Commutativity Test):假设一种平移(例如左移五个像素)为Φ,测试步骤如下:
- 首先将任意图片x进行填充,并确保边缘足够大。
- 将填充后的图片进行Φ平移。
- 通过先后运算T和J,得到两种图片: 和
- 将这两个图片用T(-Φ)平移回原处。
- 将这两个图片多余的填充像素剪裁掉。
而平移交换律测试只需要对任意两种平移方式(和)检查以下残差是否为0:作者对去马赛克,JPEG压缩,以及两者结合这三种图像处理方式进行了测试。测试结果为:当去马赛克和JPEG压缩单独使用时,经过随机剪裁后的分布具备平移交换律(如下图1和2中的黑色格子),所以一定不具备视觉手性。而当两者结合时,平移交换律就消失了,同时可能产生视觉手性。作者同样利用人造数据集进行了神经网络训练,并验证了这一测试的结果。这意味着对于大量的互联网图片,由于它们都经过了去马赛克和JPEG压缩,即便我们使用了随机剪裁,仍然有可能观察到视觉手性。也就是说,数字图像处理所导致的视觉手性现象可能大量存在于互联网图片之中,并且这类线索可能存在于任意图片区域。这类线索在互联网图片中可能肉眼不可见,却能被神经网络捕捉到。这也为图片识伪(image forensic)提供了新的可能性。「视觉手性」这篇文章首次挑战了神经网络训练中对于图片”翻转不变性“的假设,并在多种不同的视觉分布上发现了”视觉手性“的线索。这篇文章对于未来的数据增强和图片识伪方法将有很大的指导意义。
#欢迎来留言#
你正在学习哪种语言?
留言点赞数量最多的前三名
程序人生携手【电子工业出版社-博文视点】送出
《深度学习推荐系统》一本
截至7月27日12:00点
更多精彩推荐
☞苹果:App Store中国区无版号游戏8月1日起下架;美国计划打造量子互联网;HHVM 4.67 发布 | 极客头条☞Dubbo to Mesh 云原生架构改造方案解析☞马斯克,带动大盘的男人:财报一出市值飙升 840 亿!☞98年“后浪”科学家,首次挑战图片翻转不变性假设,一作拿下CVPR最佳论文提名☞Golang 混合写屏障原理深入剖析,这篇文章给你梳理的明明白白!!!☞手把手教你使用Michelso编写智能合约点分享点点赞点在看
vb.net 图片水平翻转_太牛了!98 年后浪科学家,首次挑战图片翻转不变性假设,一作拿下 CVPR 最佳论文提名...相关推荐
- 98年“后浪”科学家,首次挑战图片翻转不变性假设,一作拿下CVPR最佳论文提名...
出品 | AI科技大本营(ID:rgznai100) 刚刚结束的CVPR大会,总共收到6424篇论文中,仅有26篇获得最佳论文提名,占0.4%的比例. 其中,康奈尔大学大四学生林之秋,以第一作者身份提 ...
- 98后常春藤学霸林之秋,一作拿下CVPR最佳论文提名,首次挑战图片翻转不变性假设...
点击上方"视学算法",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI科技评论 今年CVPR 最大的亮点之一,当属"后浪"们在学 ...
- python如何让图片镜像翻转_98后常春藤学霸林之秋,一作拿下CVPR最佳论文提名,首次挑战图片翻转不变性假设...
今年CVPR 最大的亮点之一,当属"后浪"们在学术研究上的出色表现. 在一众获奖论文作者中,年龄最小的一位一作获奖者甚至还在本科阶段.他就是来自康奈尔大学的"98后&qu ...
- 98 年“后浪”科学家,首次挑战图片翻转不变性假设,一作拿下 CVPR 最佳论文提名...
出品 | AI科技大本营(ID:rgznai100) 刚刚结束的CVPR大会,总共收到6424篇论文中,仅有26篇获得最佳论文提名,占0.4%的比例. 其中,康奈尔大学大四学生林之秋,以第一作者身份提 ...
- vb.net 图片水平翻转_犁耕作业效果差?试试大马力拖拉机液压翻转犁正确调整与使用方法...
欢迎来到 农机指南 WE HOPE YOU LIKE IT 欢迎关注:农机指南!液压翻转双向犁进行犁耕作业时具有地头空行程少.梭形作业无沟垄.翻垡一致性好等优点,近年来液压翻转双向犁使用的越来越普遍, ...
- vb.net 图片水平翻转_公务员行测图形推理考点:位置类考点“翻转”【秒杀技巧】...
公考路上,我与你并肩同行! 持续为大家整理公务员行测笔试秒杀技巧,觉得有用,请文末点个在看或转发收藏哦~ 这是公考君为大家整理的第③④期秒杀技巧:图形推理之位置类考点"翻转". 一 ...
- jsp 如何动态给图片赋值_在Excel表格中你知道如何动态引用图片吗?
上期文章为朋友们分享了如何将照片快速批量导入导出到Excel表格中,那么如何根据文字匹配对应的图片你知道吗?这篇文章就和朋友们一起学习一下! 一.根据名称批量导入图片: 上期文章为朋友们分享的批量导入 ...
- vb.net 图片水平翻转_初中数学翻转课堂教学设计与应用
翻转课堂并非是对传统课堂学习模式的抛弃,而是在去除糟粕的基础上进行的改良,学生可以通过各种通信软件与教师进行课下交流,师生互动增加,学生也就更加愿意学习.需要注意的是,尽管翻转课堂教学模式的优点很多, ...
- er图用什么软件_太牛逼!一款软件几乎可以操作所有的数据库!
公众号关注 "程序媛猫妹" 设为 "星标",带你学习更多知识! 作者:不剪发的Tony老师来源:http://suo.im/5OBiUiDBeaver是一个基于 ...
最新文章
- 再见SpringMVC!小程序开发工程师岗位职责
- Css相对定位和绝对定位实现CSDN标题栏
- acdream 1222 Quantization Problem [dp]
- 《互联网+流通——F2R助力传统产业创新与转型》一一第1章 “互联网+”的新时代...
- 自助式BI工具分享:浅析FineBI
- uV胶点胶机器人_解析手机用粘合剂十大用胶点
- delphi VMP加壳 自检保护和硬件ID获取
- 计算机二级资料(公共基础知识、考纲、历年真题、VB、Java、Access、C/C++)---百度网盘下载
- 我用一张图彻底了解 SpringAOP 切面表达式
- 数据库系统:第二章关系数据库
- JS实现表格增、删、排序
- 1. 用户行为采集平台概述
- 怎么实现抓取同行网站访客号码
- java产生100以内的随机数_由系统随机产生一个100以内的随机数
- InfoQ中文站特供稿件:Rust编程语言的核心部件
- 12306订票助手.NET
- 言论管制_您的言论:如何设置新手证明计算机
- linux进程的使用xps,linux kernel 网络协议栈之xps特性详解
- 继承QWidget使用QPainter自定义二维图形控件【Qt学习】
- 整理一些不错的、网上好评的电影、电视、视频等资源地址