摘要:在通用目标检测算法,空洞卷积能有效地提升网络的感受野,进而提升算法的性能。本次解读的文章提出了一种空洞卷积变体及对应的空洞卷积搜索方法,充分探索空洞卷积的潜力,进一步提升网络模型的性能。

本文分享自华为云社区《论文解读系列十:空洞卷积框架搜索》,原文作者:我想静静 。

空洞卷积是标准卷积神经网络算子的一种变体,可以控制有效的感受野并处理对象的大尺度方差,而无需引入额外的计算。但是,在文献中很少讨论针对不同的数据,如何设计调整空洞卷积使其得到更好的感受野,进而提升模型性能。为了充分挖掘其潜力,本文提出了一种新的空洞卷积变体,即inception (dilated)卷积,其中卷积在不同轴,通道和层之间具有独立的空洞。

同时,本文提出了一种基于统计优化的简单而高效的空洞搜索算法(EDO,effective dilation search),自适应搜索对训练数据友好的空洞卷积配置方法。该搜索方法以零成本方式运行,该方法极其快速地应用于大规模数据集。

方法

在不同任务中对于输入图像的大小和目标对象的不同,有效感受野(effictive reveptive field,ERF)的要求也有所不同。图像分类输入的尺寸比较小,目标检测中输入的size而比较大,目标的范围也很大。即使对于固定网络的同一任务,某一层卷积的最优解ERF也和标注卷积不一定一样,于是为了适应不同ERF的要求,需要针对不同任务提供一种通用的ERF算法。

本文提出一种膨胀卷积的变体,Inception卷积,他包含多种膨胀模式如下图:

Incetption 卷积提供了一个密集可能的ERF范围,该文提供了一种高效的膨胀优化算法(EOD),其中超网络的每层都是一个标准的卷积操作,该卷积包含了所有可能的膨胀模式。对每一层的选择,通过最小化原始卷积层和与所选膨胀模式的卷积的期望误差,使用一个预训练的权值解决选择问题。具体流程如下图所示:

上图为EDO的算法概述,以resnet50为例,我们先在训练数据上训练获得一个bottleneck卷积内核为(2dmax + 1) × (2dmax + 1)的res50。这个例子里,supernet的内核为5*5,所以dmax=2。然后对于卷积运算的每个filter的输出,我们要计算与预期输出的L1误差,选择最小的(这个例子里是E=3)。最后重新安排filter使相同的空洞卷积排在一起,就成为了我们的inception convolution。

实验结果

实证结果表明,本文方法在广泛的Baseline测试中获得了一致的性能提升。例如,通过简单地将ResNet-50主干中的3x3标准卷积替换为Inception Conv,将Faster-RCNN在MS-COCO上的mAP从36.4%提高到39.2%。此外,在ResNet-101骨干网中使用相同的替代方法,在自下而上的人体姿势估计上将AP得分从COCO val2017的AP得分从60.2%大幅提高到68.5%。

点击关注,第一时间了解华为云新鲜技术~

论文解读丨空洞卷积框架搜索相关推荐

  1. DeepLabV3论文解读(空洞卷积/膨胀卷积 理解)

    DeepLabV3论文解读(空洞卷积/膨胀卷积 理解) 最近在做基础网络研究,设计的网络结构除了在分类数据集上测试,还需要在分割和检测网络上测试效果,故选择了DeepLabV3作为对比平台.本想直接替 ...

  2. 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)

    本文分享自华为云社区<论文解读:基于局部特征保留的图卷积神经网络架构(LPD-GCN)>,原文作者:PG13 . 近些年,很多研究者开发了许多基于图卷积网络的方法用于图级表示学习和分类应用 ...

  3. 论文解读丨无参数的注意力模块SimAm

    摘要:本文提出了一个概念简单但对卷积神经网络非常有效的注意力模块. 本文分享自华为云社区<论文解读系列三十:无参数的注意力模块SimAm论文解读>,作者:谷雨润一麦. 摘要 本文提出了一个 ...

  4. AI论文解读丨融合视觉、语义、关系多模态信息的文档版面分析架构VSR

    摘要:文档版式分析任务中,文档的视觉信息.文本信息.各版式部件间的关系信息都对分析过程具有很重要的作用.本文提出一种融合视觉.文本.关系多模态信息的版式分析架构VSR. 本文分享自华为云社区<论 ...

  5. 论文解读丨Zero-Shot场景下的信息结构化提取

    摘要:在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取.论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题. 本文分享自华为 ...

  6. 论文解读丨LayoutLM: 面向文档理解的文本与版面预训练

    摘要:LayoutLM模型利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果. 本文分享自华为云社区<论文解读系列二十五:LayoutLM: 面向文 ...

  7. 论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

    摘要: 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求.本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER) ...

  8. 论文解读丨文档结构分析

    摘要:一个端到端的文档结构分析方案(DocParser),对文档(扫描版.图片版等)进行结构提取,包括实体识别(这里实体指所有需要检测的元素,包括文本.行.列.单元格等)和关系分类. 本文分享自华为云 ...

  9. 高德KDD2020论文解读|混合时空图卷积网络:更精准的时空预测模型

    导读 时空预测在天气预报.运输规划等领域有着重要的应用价值.交通预测作为一种典型的时空预测问题,具有较高的挑战性.以往的研究中主要利用通行时间这类交通状态特征作为模型输入,很难预测整体的交通状况,本文 ...

最新文章

  1. SQL Relay开源的数据库池连接代理服务器
  2. Java 调用Oracle的存储过程
  3. java 32个Java面试必考点
  4. 《CCIE路由和交换认证考试指南(第5版) (第2卷)》——1.2节构建BGP邻居关系...
  5. 105.通信同步异步定义及其相关
  6. 白话Elasticsearch44-深入聚合数据分析之案例实战_颜色+品牌下钻分析时按最深层metric进行排序
  7. redis日志_为什么我的Redis这么“慢”?
  8. 极速搭建一个个人博客网站
  9. 文献记录(part24)--Nonlinear dictionary learning with application to image classification
  10. list 排序_十个必知的排序算法|Python实例系列
  11. jeecg 输入框属性 自定义ajax 验证字段值是否存在
  12. 信息学奥赛C++语言:约瑟夫问题
  13. 70 SD配置-发票凭证配置-定义回扣协议类型
  14. 用BT搜宝快速找种子
  15. uni-app项目打包为app
  16. Chrome 小恐龙
  17. 【机器学习】10:朴素贝叶斯做文本分类
  18. go实现零停机重启和代码升级endless
  19. 模模搭古城搭建学习笔记2:基础设施篇
  20. Arqit公司将于2023年用卫星发送量子密钥;QC Ware发布量子线性代数API | 全球量子科技与工业快讯第二十六期

热门文章

  1. 前端:CSS/13/HTML引入CSS的方法,CSS表格属性,盒子模型,上下外边距合并
  2. Eigen 矩阵计算工具
  3. ROS笔记(15) Xacro
  4. mysql repos_mysql yum源安装
  5. c#上传文件程序在本地测试没问题发布到服务器上就,高分求助!!!C#为什么程序在本地运行没有问题,但布署到服务器上后就不行了呢...
  6. usb禁止重定向_一种USB重定向处理方法和系统与流程
  7. gels imagej 图片处理_如何用ImageJ进行粒度分析
  8. css网页设计作业_小姐姐用 HTML + CSS 画油画?谁能想到前端还有这么一手操作!...
  9. matlab读取xlsx文件,从电子表格读取数据
  10. c语言 将点同时保证x坐标从小到大,y坐标从小到大地排序,C语言程序设计实验报告(二)...