ICLR2018_mixup: Beyond Empirical Risk Minimization
作者
Hongyi Zhang 张宏毅 @ 张宏毅知乎 北大->MIT 论文所属FAIR
Abstract
深度神经网络有些不好的行为:强记忆和对对抗样本敏感
Christian Szegedy等人在ICLR2014发表的论文中,他们提出了对抗样本(Adversarial examples)的概念,即在数据集中通过故意添加细微的干扰所形成的输入样本,受干扰之后的输入导致模型以高置信度给出一个错误的输出。在他们的论文中,他们发现包括卷积神经网络(Convolutional Neural Network, CNN)在内的深度学习模型对于对抗样本都具有极高的脆弱性。
提出了mixup这个方法来减轻这些问题, mixup是在样本对以及标签对的凸组合上进行训练。
在ImageNet2012,CIFAR10/100,UCI,Google commands都取得了更好的结果,也就是说提高了当前最好的网络模型的泛化性能
Introduction
神经网络有两个共性: 使用ERM(最小化所有训练数据的平均误差) + 对应不同数据集的最优模型的大小(参数量表示)和数据集数据量是同步线性增长关系
Vapnik & Chervonenkis, 1971 经典的学习理论: ERM的收敛性可以得到保证,只要模型的大小(参数量或者VC复杂度)不睡训练数据的增长而增长
这与上面的现象矛盾,那么ERM真的是合理的吗?一方面,ERM使得神经网络强记训练数据(而不是泛化)甚至对数据进行任意的标签赋值,另一方面,ERM对于对抗样本非常敏感,与训练数据集分布稍微不一样,就会得到大不同的结果
ERM没有能力解释或者提供 在与训练集分布稍微不同的数据上的泛化能力.
数据增广, 形式化为VRM(Vicinal Risk Minimization)领域风险最小化,已证明数据增广可以提升泛化性能。但是这个过程是依赖于数据的,因此就需要用到专家知识,而且数据增广假设样本的领域共享同一个标签,并没有对不同类别的样本进行建模领域关系。
主要贡献
提供一种简单数据无关的数据增广方式,mixup,对训练数据集中数据任意两两线性插值:
利用先验知识:对特征向量的线性插值会导致目标的线性插值,也就是说对y进行插值的合理性
mixup实现非常简单只需几行代码,但是只引入了非常小的计算负担
虽然极其简单,但是在CIFAR10/100, ImageNet2012上都取得了最好的结果,对于欺骗性的label或者对抗样本也更具有鲁棒性,在语音任务上和列表数据上提升了泛化性能,可以稳定GAN的训练过程
从ERM到mixup
expected risk:
P(x,y)在实际场景中是不可知的,所以,我们用empirical distribution代替实际分布P(x,y)
empirical risk:
通过最小化上式来学习函数f就是Empirical Risk Minimization(ERM) 经验风险最小化
这个经验风险代表着有限的n的样本的行为,很容易就变成了强记忆训练数据。
根据VRM原理,经验分布可以由下式替换:
对于高斯近邻,可以认为就是在训练数据上增加了高斯噪声:
mixup的实现很简单直接,而且只引入了很小的计算负担。
What is mixup doing?
可以认为mixup vicinal distribution是一种数据增广方式使得模型f在训练数据上表现地线性,这种线性表现体现在当预测训练集外数据时会减少振荡。
Result
转载于:https://www.cnblogs.com/lainey/p/8493205.html
ICLR2018_mixup: Beyond Empirical Risk Minimization相关推荐
- mixup:beyond empirical risk minimization
全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. - 知乎全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. 本文由林大佬原创,转载请注明出处,来 ...
- 【Mixup】《Mixup:Beyond Empirical Risk Minimization》
ICLR-2018 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 Ex ...
- [ICLR 2018] mixup: Beyond Empirical Risk Minimization
Contents Mixup Experiments Image Classification Task Speech data Memorization of Corrupted Labels Ro ...
- mixup: BEYOND EMPIRICAL RISK MINIMIZATION
原文:https://arxiv.org/pdf/1710.09412.pdf 代码:https://github.com/hongyi-zhang/mixup 摘要:深度神经网络非常强大,但也有一些 ...
- 【深度学习】Mixup: Beyond Empirical Risk Minimization
博主整理了近几年混合样本数据增强(Mixed Sample Data Augmentation)相关论文和代码,并分享在github上,地址如下, https://github.com/JasonZh ...
- [论文评析]Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification,AAAI,2022
Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification 文章信息 背景 动机 方法 因果分析 ...
- 机器学习理论 之 经验风险最小化(Empirical Risk Minimization)
该理论探讨的是模型在training set上的error 与 generation error的关系. 训练模型时,需要多少个样本,达到什么精度,都是由理论依据的. 理论点: 偏差方差权衡(Bias ...
- mixup: BEYOND EMPIRICAL RISK MINIMIZATION 小笔记
概述 文章指出一些成功的神经网络所有的两个共同点:首先是会拟合一个训练集,其次是模型规模随着数据集样本增多而增大.同时也指出一些问题:一是尽管在很强的正则化下,模型也可以记住训练数据,而不是根据泛化得 ...
- 经验风险最小化(ERM, Empirical risk minimization)
转自:http://sophic.blog.163.com/blog/static/35997947201362975230995/
最新文章
- CDN边缘JavaScript敏捷交付实践
- 元组字典集合内置方法与拷贝
- 大道至简第六章读后感
- [实践系列]Promises/A+规范
- mysql 5.0 数据库_mysql5.0常用命令
- 十年后可能消失的五种编程语言
- 作者:周涛,电子科技大学大数据研究中心主任、教授、博士生导师。
- 智能手机RAM和ROM的区别以及SD卡的作用
- 私有继承与保护继承(protected 成员)
- echarts实现2d柱状_记录echarts比较难实现的图1(一个背景上呈现三个柱状图)
- JAVA API中文在线帮助文档
- 国密SM2非对称加密算法(对本地文件的加解密)代码展示
- 黑苹果驱动 hackintosh
- 【网络教程】苹果MACCMS10怎样设置伪静态
- 冯小刚回应质疑:中国没大师 谁都别装!
- ECharts之饼状图
- use ida6.8 + windbg on win10
- 如何从无到有做一个好关卡?
- PHP1c型GNAS,8盘位HP ML110 G9开箱测试,刷群晖改装20盘位
- 阿联酋和沙特阿拉伯就加密货币展开合作