1 Invariance vs. Sensitivity

无论是对于图像、文本还是视频,我们都希望找到好的向量表示

好的向量表示需要对我们任务所关心的特征敏感:

  • 动物识别问题中,动物的品种就是一个值得关心的特征
  • 语音识别中,音素(区分词的最小单位)就是一个值得关心的特征

好的特征也需要对任务所不关心的特征保持不变性:

  • 动物识别问题中,动物的位置、背景颜色、动物的动作等,应该不关心,需要保持不变性
  • 语音识别问题中,口音方言应该不关心,需要保持不变性

2 Inductive Bia 归纳偏差

Induction ≈ learning from data

归纳偏差是指模型和学习算法倾向于学习某些类型的函数。

比如CNN倾向于平移不变性、SGD倾向于flat minimum

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客_cnn卷积神经网络

3 数据增强 data augmentation

使得input处于同一分布,同时保证label不变

3.1 数据增强的好处

  • 帮助网络学习更鲁棒和不变的特征
  • 它创造了更多的数据。更多的数据是好的,如果它们和我们期望在未来看到的数据分布一致。

4 数据增强举例

4.1 水平翻转

4.1.1 为什么鲜有垂直翻折 ?

我们先看一般性的情况,垂直翻折只是其中的特例

一开始,数据很少,因此我们可能会有很多可能的分界线

如果我们使用数据增强,获得了很多同分布或者相似分布的数据,那么我们可以减少我们分界线的选择

但是如果我们数据增强获得的数据和原来已有的训练数据分布不同,那么我们可能会得到不正确的分界线

而我们的图片一般都是正着拍的,所以如果我们垂直翻转图片,会影响整体图片的分布,可能会导致不正确的分界线。

4.2  Cropping 裁剪

通过随机裁剪和调整比例,可以帮助网络识别大小略有不同的目标。

平移和遮挡的不变性

4.3 旋转 rotation

旋转和朝向的不变性

4.4 颜色抖动

•模拟光照变化和白平衡问题

4.5   cutout

随机去除一部分的像素(一般是一个长方形形状的像素)

为了更好地保持整体图像的平均值,我们可以将去除的像素点设置为各channel上的均值

cutout的作用是来模拟遮挡,同时可以让模型只关注于某一部分之外其它部分的特征

比如这张图,我们就可以说,模型考虑的是狗的眼睛之外的其他特征

机器学习笔记 invariance data augmentation相关推荐

  1. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  2. Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation 阅读笔记

    Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation PyTorch实现:https://g ...

  3. AutoML论文笔记(十四)Automatic Data Augmentation via Deep Reinforcement Learning for Effective Kidney Tumor

    文章题目:Automatic Data Augmentation via Deep Reinforcement Learning for Effective Kidney Tumor Segmenta ...

  4. 吴恩达神经网络和深度学习-学习笔记-38-使用开源的方案+迁移学习+数据增强data augmentation

    使用别人的开源成果 想要用现成的网络,最好在网络上找到开源的实现,这要比从头开始实现快得多. 比如:直接在Google上搜索resnets github,找到合适的后点击下载会得到URL,然后在cmd ...

  5. Improved Mixed-Example Data Augmentation论文阅读笔记

    Improved Mixed-Example Data Augmentation Abstract 本文致力于研究为什么mixed数据增强方式在改变标签的情况下还可以增加网络性能,并提出了一种更加泛化 ...

  6. MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 阅读笔记

    MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 2021 Associatio ...

  7. Mechine Learning 机器学习笔记

    笔记作者:OUC_Shizue 参考课程:复旦大学 邱锡鹏 <神经网络与深度学习> 第一章:机器学习概论 一.机器学习的定义 1.直接定义 ​ 机器学习≈计算机自动构建映射函数 ​ Mac ...

  8. 机器学习笔记之学习率(learning rate)与过拟合(overfitting)

    这次的笔记,之所以把学习率和过拟合放在一起讲,是因为,Msc阶段的几个挂掉的入职面试(投的实习,有的直接变成了校招的比如hw和zx,还有ali),问了相关的问题,结果回答地不好,所以在这里把这两个东西 ...

  9. 【机器学习笔记】可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning)

    [机器学习笔记]可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning) 目录 [机器学习笔记]可解释机器学习-学习笔记 Interpre ...

最新文章

  1. javascript 入门事件的
  2. [java进阶]2.Jedis基础与List的接口
  3. 关于SQL SERVER高并发解决方案
  4. # 2018-2019-1 20165230 《信息安全系统设计基础》第四周学习总结
  5. 推荐十款非常优秀的 HTML5 在线设计工具
  6. TTL怎么计算拉电流和灌电流_预付费电表工作原理 是怎么实现断电功能
  7. Struts分页的一个实现
  8. c语言字符串注入命令,C语言基础之输入输出、常量定义、随机数、动态链接库的注入、数据类型介绍、goto语句的使用...
  9. 《Linux杂记》Window读取 Ext3/Ext4文件系统数据
  10. python新手入门(四)
  11. matlab-线性代数 det 各阶主子式、余子式、代数余子式
  12. 笃情开源:我和 Apache DolphinScheduler 社区的故事
  13. exec不同文件l怎么汇总_mount命令详解及常见问题汇总
  14. / 和 /* 和 /** 的区别
  15. Web性能压力测试工具-Webbench
  16. 2、深度剖析ConcurrentHashMap
  17. vue 悬浮按钮组件_Vue悬浮球效果
  18. MySQL由于找不到msvcp140.dll无法继续执行代码
  19. 计算机操作系统课后习题答案
  20. 与员工沟通 你需要知道的6种聊天姿势

热门文章

  1. MyEclipse和tomcat结合编写jsp对于中文乱码的解决方法
  2. 诸法无我-悉达多 乔达摩
  3. C语言SHELL排序算法
  4. 关于LCD的duty与bias
  5. Cortex M3寄存器组
  6. python_wifi
  7. Linux信号 三 信号发送接口集合
  8. intent和intentfilter
  9. android内存泄漏原因分析,Android Studio3.6的内存泄漏检测功能 VS LeakCanary
  10. php后台无法接受文件,ios afnetworking2.x上传图片 服务端php无法接受文件问题