—————————————————————————————————————————————————————————————

AlignMixup: Improving Representations By Interpolating Aligned Features

—————————————————————————————————————————————————————————————

一、 先验知识

1.正则化

在数学与计算机科学中,尤其是在机器学习和逆问题领域中,正则化(英语:regularization)是指为解决适定性问题或过拟合加入额外信息的过程。
在机器学习和逆问题的优化过程中,正则项往往被加在目标函数当中。

常见的正则化方法有L1、L2正则化。

2.数据增强

简单的说数据增强就是对输入数据进行一些列的变化产生新的输入数据,用来丰富或者得到高质量的数据集。好的数据集将会提高模型性能,可以提高模型泛化能力和不变性。
下图为常见的数据增强方法(分别为单个图片几何变换、两张图片A、B利用公式mixrmix_rmixr=rA+(1−r)BrA+(1-r)BrA+(1r)B混合输入)

最近在读一篇数据增强的综述,读完之后系统性更新数据增强的相关内容。

3.最优传输理论

简单的说已知A和B、以及他们之间的距离、A的总量等于B的总量。现在需要找到一种最优传输方案来把A的所有东西传输给B。
根据描述可以看出如果利用数学工具的话便必然设计最优化理论以及针对该问题的数学模型的建立。

最优传输 (Optimal transport) 和 sinkhorn 迭代这篇博客对于最优传输理论的相关介绍写的挺全的,推荐阅读。以便理解本篇论文中使用的方法。
下面我结合本篇论文涉及到的最优传输理论案例来进行进一步说明。

  • 问题描述
    已知图片AAAA′A'A,现在要将图片AAA和图片A′A'A进行对齐(align),咋办?
    按照我们的所学知识,是不是首先把A和A’利用矩阵表示出来。其次该数学方法最好能得到一个变化矩阵RRR使得ARARAR便得到和AAA‘对齐后的矩阵,以及A′A'ARTR^TRT
    这个RRR该如何设计?这便可以利用最优传输理论了。

  • 最优化问题求解
    现阶段,对于最优传输理论的求解常见的是利用skinhorn算法求得该问题的近似解。skinhorn算法是一个迭代算法便于编程计算,同时在原问题的基础上增加了一个熵正则使得求出来的解不再稀疏(见公式8)。

    为啥添加熵正则,网上解释的原因是:1.增加了熵正则便于进行求解;2.不加熵正则,一方面太难求解且计算量大,另一方面求出的解较为稀疏(特征值部分为0),且添加熵正则后解分布较为光滑和均衡(举个例子,高中学过的线性规划也是一个典型的最优化问题,求出的最优解往往是定点,这边导致部分维度为0;熵越大概率分布越均匀,添加了约束便于使得解的分布趋向于均匀)

4.自动编码器

自动编码器是一个包含Encoder+Decoder的神经网络,它的输出要和输入一样,这样便可以利用样本和重构损失函数进行训练。

肯定有人疑问输入和输出都一样,那这个模型有啥设计的目的?这样设计便于得到一个具有良好性能的Encoder,Encoder的输出往往很有用。

二、论文内容

1.出发点

数据增强具有可以提高模型泛化能力以及学习不变性等优点。现阶段对单个图像做变化在对抗训练数据的记忆和对抗样本的敏感性方面帮助不大。故需要进行两幅或者多幅图像的融合,当仅使用mix进行混合时仅仅只是图片简单的堆叠且得到的图片很不自然,如果采用随机混合会导致模型学习到不相关的特征(因为label也随之变化,由于混合是随机的便会导致得到的label可能不包含我们所需要的特征,训练时用label进行约束便会导致学习到不相关的特征)。有人提出了流行混合用来固定模式,更进一步,有人提出了利用自动编码器来进行数据增强,但是该方法计算代价大且模型较为复杂同时在大数据集上的表现不如简单的混合。
据此本文作者提出了对齐(连续变化)图像/浅层特征 的方法,该方法的动机是变形的想法作为一种自然的方式插值图像,其中一个图像可以变形到另一个,在一个连续的方式。

2.方法

Alignmixup
论文主要利用最优传输理论来进行图像/特征对齐,然后将对齐后的图像 /特征 利用公式mixrmix_rmixr=rA+(1−r)A′rA+(1-r)A'rA+(1r)A得到新的图像进行计算。

注: 本篇论文不仅只是对输入图像进行对齐混合,而是对通过Encoder得到的特征也进行的对齐混合。

下图为对齐+混合示意图,A和A’可以是输入图像也可以是通过神经网络提取到的浅层特征。 首先把特征或者图片从c x w x h reshape成c x r,其中r=w x h。这样便转化为可以使用最优传输距离的形式,然后利用2范数计算出代价矩阵M,之后利用Sinkborn算法计算得到最优分配矩阵P∗P^*P。然后通过公式R=rP∗R=rP^*R=rP得到转换矩阵R。在模型训练过程中可以通过随机数任选


作为混合后的结果输入进网络。


下图为利用alignmixup混合图像的可视化结果。从图中可以看到保留图像2的姿态和图像1的纹理,这与现有的混合方法不同。

损失函数为

论文源码中的损失函数部分如下

criterion = nn.CrossEntropyLoss()
def mixup_criterion(criterion, pred, y_a, y_b, lam):return lam * criterion(pred, y_a) + (1 - lam) * criterion(pred, y_b)

Alignmixup/AE
这是实验中作者后加的一个结构,简单的说就是在网络训练过程中设置两个模式:clean(没有混合)和不是clean(有特征混合)。新加入的便是clean这个模式,在该模式中原本网络通过一部分神经网络(即Encoder)得到浅层特征后又添加了embedding层和decoder层,这样便形成了一个自编码器结构,当然该结构训练需要利用训练自编码器的常用损失函数——重构损失。不是clean模式还是按照Alignmixup之前的训练流程。
关于这两个模式的选择作者在伪代码中给出的是利用随机数。源码中也没有看到clean模式的使用。

算法流程图

实验中混合输入的是一个Batchsize里面的两张图片的特征。

三、实验结果

实验结果较多且很多角度对我来说很新奇,论文中已经有详细说明,故在此不介绍。

参考文献

机器学习正则化方法 – Regularization
如何理解Sinkhorn算法?
最优传输 (Optimal transport) 和 sinkhorn 迭代
数据增强(Data Augmentation)常用方法汇总
什么是潜在表示?
神经网络中对抗攻击的基本概念和FGSM/PGD算法原理
最优传输理论
简单易懂的自动编码器

数据增强:AlignMixup: Improving Representations By Interpolating Aligned Features阅读笔记相关推荐

  1. Task 06 数据增强;模型微调;目标检测基础 学习笔记

    Task 06 数据增强:模型微调:目标检测基础 学习笔记 数据增强 图像增广 在5.6节(深度卷积神经网络)里我们提到过,大规模数据集是成功应用深度神经网络的前提.图像增广(image augmen ...

  2. 推荐系统领域对比学习和数据增强论文及代码集锦

    对比学习和数据增强是近年各领域关注度较高的研究方向,在推荐系统领域也是如此,并取得了众多成果.本文汇总了推荐系统领域对比学习和数据增强的最新论文和代码,涵盖 SIGIR.SIGKDD.RecSys.C ...

  3. 大杀器!攻克目标检测难点秘籍四,数据增强大法

    点击上方"AI算法修炼营",选择加星标或"置顶" 标题以下,全是干货 前面的话 在前面的秘籍一:模型加速之轻量化网络.秘籍二:非极大抑制算法和回归损失优化之路. ...

  4. 点云 3D 天气数据增强 - LiDAR Snowfall Simulation for Robust 3D Object Detection (CVPR 2022)

    点云 3D 天气数据增强 - LiDAR Snowfall Simulation for Robust 3D Object Detection - 用于鲁棒3D目标检测的激光雷达降雪模拟(CVPR 2 ...

  5. 《预训练周刊》第21期:FlipDA:有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...

    No.21 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期&l ...

  6. 图机器学习中的数据增强技术

    文稿整理者:张琳 审稿&修改:赵通 本人总结来自圣母大学的博士生赵通在深蓝学院分享的"图机器学习中的数据增强技术"公开课.通过介绍图机器学习的概念,发展历程等,以及分享两篇 ...

  7. 用于语音识别的数据增强

    原标题:用于语音识别的数据增强 Data Augmentation for Speech Recognition 作者 | Edward Ma 翻译 | 类更里.敬爱的勇哥 编辑 | 咩咩咩鱼.唐里 ...

  8. 数据增强:具有自预测表示的数据高效强化学习

    题目:Data-Efficient Reinforcement Learning with Self-Predictive Representations 出处:International Confe ...

  9. NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...

最新文章

  1. 【SICP练习】110 练习3.23
  2. 如何删除输入文本元素上的边框突出显示
  3. 关于mysql的表名/字段名/字段值是否区分大小写的问题
  4. Misc-wireshark-1(秒懂!!)
  5. 实现锁死的有滚动条的div的表格(datagird)
  6. 阿里云人脸识别sdk
  7. 4月第一个惊喜:iPhone 9现已直接上架苹果中国官网?
  8. python 批量导入mysql_Python批量插入数据到Mysql
  9. cmake之交叉编译arm32/arm64(四)
  10. 【开发工具】【i2c-tools】I2C总线调试工具(i2c-tools)的安装与使用
  11. WINDOWS系统下四叶草CLOVER引导U盘制作
  12. Gulp简明使用教程
  13. EasyDarwin EasyCamera支持海康摄像机接入了
  14. 开源java数据库库
  15. Cabbage教学(4)——面向对象编程
  16. 4.React Native项目开发如何配置调试
  17. 苹果手机之间怎么传照片_如何使用蓝牙手机之间传照片
  18. Protected or Private?
  19. 导航网这个最强大吗?
  20. python在画布上显示动态图片_python – matplotlib – 直接在画布上绘图

热门文章

  1. mysql 5 7 教程视频_[MySQL] MySQL 5.7从入门到精通视频教程
  2. 【SAP】用户维护-加解锁和密码初始化
  3. Mysql一个Select 查询出表内语文及格数学及格的算合格,其他算不合格的统计人数
  4. C++ QT QDBus进阶用法。
  5. 戴尔成就微塔式小机箱装华硕1060-6G大显卡
  6. mysql气象数据分析_气象行业 - 解决方案 - MySQL分布式数据库_开源数据库解决方案_数据处理技术提供商-爱可生...
  7. MacOS恶意软件驻留技术分析
  8. Windows窗口设计
  9. 【单片机项目与仿真】实现音乐中1234567,即DO,RE,M,SO,LA,SI的发音
  10. perl dbi mysql 参数_Perl数据库DBI接口简介【转载】