MABN论文的译读笔记
摘要
BN是深度学习领域使用最广泛的方法之一;但是其性能会因为batch-size不足而严重下降。这个缺点限制了BN在某些计算机视觉任务上的应用,例如:检测和分割,某些情况下由于内存使用的限制batch-size会设置得较小。因此,提出了很多改进的归一化方法;这些方法有的无法达到BN的性能,又或者需要在推理阶段引入额外的非线性操作而需要更大的计算资源。在本文中,作者展现了BN在反向传播是涉及的两个额外的批统计量,这两个统计量在之前并没有被充分讨论过。两项批统计量与梯度相关,并且会密切地影响深度神经网络的训练。基于本文的分析,作者提出新型的归一化方法,称为 Moving Average Batch Normalization, MABN。MABN可以在小批次情况下完全恢复单纯BN的性能,且不需要在推理阶段引入任何额外的非线性操作。本文从理论分析和实验上验证了MABN的收益。实验还展示了MABN在多个计算机视觉任务上的有效性,包括ImageNet和COCO。MABN的相应代码开源在https://github.com/megvii-model/MABN。
1 引言
BN【(Ioffe & Szegedy, 2015)_BN】是训练神经网络最流行的方法之一。 它已在许多应用中被广泛证明是有效的,并成为许多最先进的深度模型不可或缺的一部分。
尽管BN十分成功,在 batch size很小时使用BN时仍然面临问题。小batch-size下的批次统计量是十分不稳定的,会导致训练时收敛较慢以及推理时性能变差。举例来说,在检测或分割任务中,由于需要高分辨率输入或模型的复杂结构,批次大小通常限制为每个GPU为1或 2。不经过任何修改而直接在每个GPU上计算批次统计量会使得模型的性能严重下降。
为了解决这方面问题,
MABN论文的译读笔记相关推荐
- CBNetV2论文的译读笔记
论文名称 CBNetV2: A Composite Backbone Network Architecture for Object Detection 摘要 如今性能最好的目标检测器在很大程度上依赖 ...
- KaimingInit论文的译读笔记
摘要 Rectified activation units (rectifiers)(即:整流激活单元,一般就是ReLU函数,因为在本文中Kaiming还提出了PReLU,所以他这里用的是" ...
- ShuffleNetV2论文译读笔记
论文 Ma, Ningning, et al. "Shufflenet v2: Practical guidelines for efficient cnn architecture des ...
- MobileNetV3论文译读笔记
论文 Searching for MobileNetV3 摘要 本文提出了新一代的MobileNets模型,基于互补搜索技术的组合,同时这也是一种新型的架构设计.(实际上就是加入了NAS方法)Mobi ...
- PicoDet论文译读笔记
PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices 摘要 在目标检测中如何实现更好的精度-速度均衡是一个具有挑战性的问题. ...
- 【NIPS 2020】Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for...译读笔记
论文名称 Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete ...
- 【CVPR 2021】VarifocalNet: An IoU-aware Dense Object Detector的译读笔记
论文 VarifocalNet: An IoU-aware Dense Object Detector 摘要 准确排序大量候选框对dense检测器获得高精度是十分重要的.之前的工作使用类别分数或者类别 ...
- 【IEEE Transactions NNLS】DSAN: Deep Subdomain Adaptation Network for Image Classification译读笔记
笔记 摘要 对于标注数据难以获取的目标任务来说,域自适应能够将知识从一个不同的源域中将知识迁移过来.之前的深度域自适应方法主要学习全局域漂移,即在全局上对齐源分布和目标分布,而不考虑两个同类别不同域的 ...
- 【TGRS】Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention译读笔记
论文信息 Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention 摘要 使用SAR进行 ...
最新文章
- 做 Java 工程师,挺!好!
- .Net MVC Redirect出现:服务器无法在已发送 HTTP 标头之后设置状态解决方案
- 批量查询,mget语法,mget批量查询(来自学习资料,第26节)
- windows 64 oracle sga,oracle 10g for windows sga区最大多少
- 小程序 -- [sitemap 索引情况提示] 根据 sitemap 的规则[0],当前页面 [pages/index/index] 将被索引
- yii2中的rules 自定义验证规则详解
- WINCE 网卡控制
- Web API 设计摘要
- Windows 10 让所有程序默认为“以管理员身份运行”并且取消“确认”按钮
- 随身WiFi刷百度直连
- 一北大毕业生的返乡报告:家乡面目全非 备感无力
- 联想rd650怎么装系统win7_ThinkServer - RD650 - RAID及系统安装 - 图文
- java配置jdk和jre_为什么要配置java环境变量?JDK和JRE的区别在哪里?
- 借游戏带动“卖铲”收益,“卖铲子”的Unity借元宇宙起飞?
- pytorch框架下faster rcnn使用softnms
- javascript闭包的前世今生
- 程序员的数学思维修炼
- 唯品会数据笔试mysql_唯品会测试开发笔试记录
- 二本考南方科技大学计算机,南方科技大学是一本还是二本大学
- 【win8系统开机自动拨号连接宽带图文教程】
热门文章
- Mock(模拟后端接口数据)配合Vuex的使用
- [转][C#]Environment 类
- 在使用FireFox浏览器时,经常打开新标签,页面总是不断自动刷新,解决办法
- AC自动机 学习链接
- strncpy 用法
- MailMail正式发布!注册码免费发放活动开启!(已结束~~不要再回复咧~)
- 【SpringBoot 】 组件管理 + 属性注入
- 《恋上数据结构第1季》二叉树基础、真二叉树、满二叉树、完全二叉树、二叉树的遍历(重点)
- 【LeetCode刷题】23. 合并K个排序链表
- linux系统下tar打包压缩命令的使用总结