作者

Hongyi Zhang 张宏毅 @ 张宏毅知乎      北大->MIT    论文所属FAIR

Abstract

深度神经网络有些不好的行为:强记忆和对对抗样本敏感

Christian Szegedy等人在ICLR2014发表的论文中,他们提出了对抗样本(Adversarial examples)的概念,即在数据集中通过故意添加细微的干扰所形成的输入样本,受干扰之后的输入导致模型以高置信度给出一个错误的输出。在他们的论文中,他们发现包括卷积神经网络(Convolutional Neural Network, CNN)在内的深度学习模型对于对抗样本都具有极高的脆弱性。

提出了mixup这个方法来减轻这些问题, mixup是在样本对以及标签对的凸组合上进行训练。

在ImageNet2012,CIFAR10/100,UCI,Google commands都取得了更好的结果,也就是说提高了当前最好的网络模型的泛化性能

Introduction

神经网络有两个共性:  使用ERM(最小化所有训练数据的平均误差)  +  对应不同数据集的最优模型的大小(参数量表示)和数据集数据量是同步线性增长关系

Vapnik & Chervonenkis, 1971 经典的学习理论: ERM的收敛性可以得到保证,只要模型的大小(参数量或者VC复杂度)不睡训练数据的增长而增长

这与上面的现象矛盾,那么ERM真的是合理的吗?一方面,ERM使得神经网络强记训练数据(而不是泛化)甚至对数据进行任意的标签赋值,另一方面,ERM对于对抗样本非常敏感,与训练数据集分布稍微不一样,就会得到大不同的结果

ERM没有能力解释或者提供 在与训练集分布稍微不同的数据上的泛化能力.

数据增广, 形式化为VRM(Vicinal Risk Minimization)领域风险最小化,已证明数据增广可以提升泛化性能。但是这个过程是依赖于数据的,因此就需要用到专家知识,而且数据增广假设样本的领域共享同一个标签,并没有对不同类别的样本进行建模领域关系。

主要贡献

提供一种简单数据无关的数据增广方式,mixup,对训练数据集中数据任意两两线性插值:

利用先验知识:对特征向量的线性插值会导致目标的线性插值,也就是说对y进行插值的合理性

mixup实现非常简单只需几行代码,但是只引入了非常小的计算负担

虽然极其简单,但是在CIFAR10/100, ImageNet2012上都取得了最好的结果,对于欺骗性的label或者对抗样本也更具有鲁棒性,在语音任务上和列表数据上提升了泛化性能,可以稳定GAN的训练过程

从ERM到mixup

expected risk:

P(x,y)在实际场景中是不可知的,所以,我们用empirical distribution代替实际分布P(x,y)

empirical risk:

通过最小化上式来学习函数f就是Empirical Risk Minimization(ERM)  经验风险最小化

这个经验风险代表着有限的n的样本的行为,很容易就变成了强记忆训练数据。

根据VRM原理,经验分布可以由下式替换:

对于高斯近邻,可以认为就是在训练数据上增加了高斯噪声:

mixup的实现很简单直接,而且只引入了很小的计算负担。

What is mixup doing?

可以认为mixup vicinal distribution是一种数据增广方式使得模型f在训练数据上表现地线性,这种线性表现体现在当预测训练集外数据时会减少振荡。

Result

转载于:https://www.cnblogs.com/lainey/p/8493205.html

ICLR2018_mixup: Beyond Empirical Risk Minimization相关推荐

  1. mixup:beyond empirical risk minimization

    全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. - 知乎全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. 本文由林大佬原创,转载请注明出处,来 ...

  2. 【Mixup】《Mixup:Beyond Empirical Risk Minimization》

    ICLR-2018 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 Ex ...

  3. [ICLR 2018] mixup: Beyond Empirical Risk Minimization

    Contents Mixup Experiments Image Classification Task Speech data Memorization of Corrupted Labels Ro ...

  4. mixup: BEYOND EMPIRICAL RISK MINIMIZATION

    原文:https://arxiv.org/pdf/1710.09412.pdf 代码:https://github.com/hongyi-zhang/mixup 摘要:深度神经网络非常强大,但也有一些 ...

  5. 【深度学习】Mixup: Beyond Empirical Risk Minimization

    博主整理了近几年混合样本数据增强(Mixed Sample Data Augmentation)相关论文和代码,并分享在github上,地址如下, https://github.com/JasonZh ...

  6. [论文评析]Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification,AAAI,2022

    Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification 文章信息 背景 动机 方法 因果分析 ...

  7. 机器学习理论 之 经验风险最小化(Empirical Risk Minimization)

    该理论探讨的是模型在training set上的error 与 generation error的关系. 训练模型时,需要多少个样本,达到什么精度,都是由理论依据的. 理论点: 偏差方差权衡(Bias ...

  8. mixup: BEYOND EMPIRICAL RISK MINIMIZATION 小笔记

    概述 文章指出一些成功的神经网络所有的两个共同点:首先是会拟合一个训练集,其次是模型规模随着数据集样本增多而增大.同时也指出一些问题:一是尽管在很强的正则化下,模型也可以记住训练数据,而不是根据泛化得 ...

  9. 经验风险最小化(ERM, Empirical risk minimization)

    转自:http://sophic.blog.163.com/blog/static/35997947201362975230995/

最新文章

  1. CDN边缘JavaScript敏捷交付实践
  2. 元组字典集合内置方法与拷贝
  3. 大道至简第六章读后感
  4. [实践系列]Promises/A+规范
  5. mysql 5.0 数据库_mysql5.0常用命令
  6. 十年后可能消失的五种编程语言
  7. 作者:周涛,电子科技大学大数据研究中心主任、教授、博士生导师。
  8. 智能手机RAM和ROM的区别以及SD卡的作用
  9. 私有继承与保护继承(protected 成员)
  10. echarts实现2d柱状_记录echarts比较难实现的图1(一个背景上呈现三个柱状图)
  11. JAVA API中文在线帮助文档
  12. 国密SM2非对称加密算法(对本地文件的加解密)代码展示
  13. 黑苹果驱动 hackintosh
  14. 【网络教程】苹果MACCMS10怎样设置伪静态
  15. 冯小刚回应质疑:中国没大师 谁都别装!
  16. ECharts之饼状图
  17. use ida6.8 + windbg on win10
  18. 如何从无到有做一个好关卡?
  19. PHP1c型GNAS,8盘位HP ML110 G9开箱测试,刷群晖改装20盘位
  20. 阿联酋和沙特阿拉伯就加密货币展开合作

热门文章

  1. RedHatLinux6.5下安装无线网卡驱动
  2. 在宇宙中重生:量子置乱可能使人死而复活
  3. 智慧工厂和数字化车间的区别、联系是什么?
  4. Hauwei MA5626-8恢复出厂设置密码
  5. 怎样在bios屏蔽集成显卡
  6. 美国马萨诸塞州修订法律,称旨在保护消费者免受数据泄露侵害
  7. 开源社区活跃度分析——api.github.com的使用
  8. 【STM32F407的DSP教程】第25章 DSP变换运算-快速傅里叶变换原理(FFT)
  9. 模块说和神经网络学说_2021考研312统考心理学知识:大脑皮层与脑功能学说
  10. 如何局域网设置通过IP共享文件