来源:人工智能AI技术

本文约3400字,建议阅读7分钟

本文介绍我们被NeurIPS 2020会议录用的一篇文章。

本文主要介绍我们被NeurIPS 2020会议录用的一篇文章:Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification。

论文:

https://arxiv.org/abs/2010.05300

代码和预训练模型已经在Github上面放出:

https://github.com/blackfeather-wang/GFNet-Pytorch

这项工作提出了一个通用于绝大多数CNN的自适应推理框架,其效果比较明显,在同等精度的条件下,将MobileNetV3的平均推理速度加快了30%,将ResNet/DenseNet加速了3倍以上,且在iPhone XS Max上的实际测速和理论结果高度吻合。此外,它的计算开销可以简单地动态在线调整,无需额外训练。

(太长不看版)下面一张图可以概括我们做的事情:将图像识别建模为序列决策过程,先将缩略图输入神经网络(Glance),再不断选择最关键的图像区域进行处理(Focus,利用强化学习实现),直至网络产生一个足够可信的预测结果时停止;对于简单和困难的样本分配不同的计算资源,以提升整体效率。

图1 Glance and Focus Network (GFNet) 效果图

下面,我将详细介绍这一工作的具体内容。

1. Introduction (研究动机及简介)

在基于卷积神经网络(CNN)的图像任务中,提升网络效果的一个有效方法是使用高分辨率的输入,例如,在ImageNet分类[1]任务上,近年来的最新网络(DenseNet[2], SENet[3], EfficientNet[4])往往需要使用224x224或更大的输入图片以取得最佳性能:

Model Input Size Accuracy
DenseNet-265 224x224 77.85 %
SENet-154 320x320 82.72 %
EfficientNet-B7 600x600 84.40 %

然而,这种方式会带来较大的计算开销,因为推理CNN所需的计算量(FLOPs)基本与像素数目成正比[5],即与图形的长、宽成二次关系,如下图所示:

图2 CNN计算量与图片长/宽的关系

在实际应用(例如手机APP、自动驾驶系统、图片搜索引擎)中,计算量往往正比于能耗或者时间开销,显然,无论出于成本因素还是从安全性和用户体验的角度考虑,网络的计算开销都应当尽可能小。那么,如何在保留高分辨率输入所带来的好处的同时,减小其计算开销呢?

事实上,我们可以借助神经网络的一个有趣的性质。与人类视觉相似,神经网络往往可以通过仅仅处理图像中与任务相关的一小部分区域而得到正确的结果,例如在下图中,遮挡住屋顶、飞鸟或花朵之外的部分,神经网络仍然可以得到正确的分类结果[6]:

图3 部分关键信息足以使神经网络做出可靠的判断

这便是本文所提出方法的出发点,我们的目标是,对于输入图片,自适应地找到其与任务最相关的区域,进而通过使神经网络只处理这些区域,以尽可能小的计算量得到可信的结果。具体而言,我们采用的方法是,将一张分辨率较高的图片表征为若干个包含其关键部分的“小块”(Patch),而后仅将这些小块输入神经网络。以下面的示意图为例,将一张224x224的图片分解为3个96x96的Patch进行处理所需的计算量仅为原图的55.2%。

图4 Glance and Focus Network (GFNet) 的基本建模方式

2. Method (方法详述)

为了实现上述目的,事实上,有两个显然的困难:

(a) 任意给定一张输入图片,如何判断其与任务最相关的区域在哪里呢?

(b) 考虑到我们的最终目的是使神经网络得到正确的预测结果,不同输入所需的计算量是不一样的,例如对于下面所示的两个输入图片,神经网络可能仅需要处理一个patch就能识别出特征非常突出的月亮,但是需要处理更多的patch才能分辨出猫咪的具体品种。

图5 对于不同输入,应分配不同大小的计算资源

为了解决这两个问题,我们设计了一个Glance and Focus的框架,将这一思路建模为了一个序列决策过程,如下图所示。

图6 Glance and Focus Network (GFNet) 的基本框架

其具体执行流程为:

  1. 首先,对于一张任意给定的输入图片,由于我们没有任何关于它的先验知识,我们直接将其放缩为一个patch的大小,输入网络,这一方面产生了一个初步的判断结果,另一方面也提供了原始输入图片的空间分布信息;这一阶段称为扫视(Glance)。

  2. 而后,我们再以这些基本的空间分布信息为基础,逐步从原图上取得高分辨率的patch,将其不断输入网络,以此逐步更新预测结果和空间分布信息,得到更为准确的判断,并逐步寻找神经网络尚未见到过的关键区域;这一阶段称为关注(Focus)。

值得注意的是,在上述序列过程的每一步结束之后,我们会将神经网络的预测自信度(confidence)与一个预先定义的阈值进行比较,一旦confidence超过阈值,我们便视为网络已经得到了可信的结果,这一过程立即终止。此机制称为自适应推理(Adaptive Inference)。通过这种机制,我们一方面可以使不同难易度的样本具有不同的序列长度,从而动态分配计算量、提高整体效率;另一方面可以简单地通过改变阈值调整网络的整体计算开销,而不需要重新训练网络,这使得我们的模型可以动态地以最小的计算开销达到所需的性能,或者实时最大化地利用所有可用的计算资源以提升模型表现。

3. Network Architecture (网络结构)

下面我们具体介绍Glance and Focus Network (GFNet) 的具体结构,如下图所示

图7 Glance and Focus Network (GFNet) 的网络结构

GFNet共有四个组件,分别为:

  • 全局编码器和局部编码器 (Global Encoder and Local Encoder)为两个CNN,分别用于从放缩后的原图和局部patch中提取信息,之所以用两个CNN,是因为我们发现一个CNN很难同时适应缩略图和局部patch两种尺度(scale)的输入。几乎所有现有的网络结构均可以作为这两个编码器以提升其推理效率(如MobileNet-V3、EfficientNet、RegNet等)。

  • 分类器  (Classifier)为一个循环神经网络(RNN),输入为全局池化后的特征向量,用于整合过去所有输入的信息,以得到目前最优的分类结果。

  • 图像块选择网络  (Patch Proposal Network)是另一个循环神经网络(RNN),输入为全局池化前的特征图(不做池化是为了避免损失空间信息),用于整合目前为止所有的空间分布信息,并决定下一个patch的位置。值得注意的是由于取得patch的crop操作不可求导,是使用强化学习中的策略梯度方法(policy gradient)训练的。

4. Training (训练方法)

为了确保GFNet的四个组件按照我们预期的方式工作,我们提出了一个三阶段的训练策略,在这里简要概述,更多细节可以参见我们的paper~

  • 首先,我们从GFNet中移除 ,在每一步均以均匀分布随机选择patch的位置,以下面所示的损失函数训练和 ,使其达到最佳的分类性能,其中  代表交叉熵损失,  和  分别代表在第  步的预测结果和原始输入图片  对应的标签,  表示训练集,  表示序列的最大可能长度。

  • 而后,我们固定第一步得到的和 ,在网络中插入一个随机初始化的 ,以强化学习算法(policy gradient)优化以下形式的折扣奖励函数。其中  为一个预先定义折扣因子, 为每次选择patch位置的奖励(reward),我们将其定义为所选择的patch所造成的在正确标签上的confidence的增量,换言之,我们总是希望选择目前的网络没有处理过的、对产生正确的预测结果最有帮助的patch。

  • 最后,我们固定第二步得到的 ,再以第一步中的损失函数对和 进行最终的微调(Finetune)。

5. Experiments (实验结果)

在实验中我们考虑了两种设置:

  • budgeted batch classification,测试数据伴随有一个计算开销的预算(budget),网络需要在这个计算预算内进行推理。在此设置下,我们使用前面提到的方法,确定阈值(confidence threshold)并进行自适应推理。

  • anytime prediction,网络有可能在任何时候被要求立刻输出预测结果。在此设置下,我们不使用自适应推理技术,并假设所有测试样本的序列长度固定。

下图为我们在不同网络结构上实现GFNet的实验结果,其中横轴为网络的平均理论计算开销,纵轴为准确率,(a-e)为budgeted batch classification的结果,(f)为anytime prediction的结果。可以看出,GFNet明显地提升了包括MobileNetV3、RegNet和EfficientNet在内的最新网络结构的推理效率,同等精度下,计算开销减小达30-40%以上,对于ResNet/DenseNet的增幅可达3倍甚至更高;同等计算开销下,对MobileNetV3提点2%左右,对ResNet/DenseNet达5-10%以上。

图8 GFNet基于不同CNN的实验结果(Accuracy v.s. Multiply-Adds)

GFNet的另一个显著优势是,由于其没有更改CNN的具体结构,其可以方便地在移动端或边缘设备上使用现有的工具部署,且享有和理论结果几乎等同的实际加速比。下图为我们在一台iPhone XS Max(就是我的手机)上基于TensorFlow Lite的测试结果:

图9 GFNet在一台iPhone XS Max上的实际测试结果(Accuracy v.s. Latency)

下面是GFNet的一些可视化结果,可以从中看出,对于比较简单的样本,GFNet可以仅在Glance阶段或Focus阶段的第一步以很高的confidence得到正确的结果,对于较为复杂的样本,则实现了以不断关注关键区域的形式逐步提升confidence。

图10 GFNet的可视化结果

6. Conclusion (结语)

最后总结一下,其实我本人是非常喜欢这项工作的,因为它非常的自然、通用、有效。一方面它很好的模拟了生物(或者说人)识别一张图片的过程,人眼对图像数据的认知事实上也是一个先扫视得出一些直觉信息、再逐渐关注关键区域的过程。另一方面GFNet的实际效果也非常显著,且能在目前最佳的一些模型上进一步提升理论计算效率,并加快实测速度。欢迎大家follow我们的工作~。

@inproceedings{NeurIPS2020_7866,        title = {Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification},       author = {Wang, Yulin and Lv, Kangchen and Huang, Rui and Song, Shiji and Yang, Le and Huang, Gao},    booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},         year = {2020},}

参考

  1. ^[1] http://www.image-net.org/

  2. ^[2] https://arxiv.org/pdf/2001.02394.pdf

  3. ^[3] https://arxiv.org/pdf/1709.01507.pdf

  4. ^[4] https://arxiv.org/pdf/1905.11946.pdf

  5. ^[5] https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf

  6. ^[6] https://arxiv.org/pdf/1910.08485.pdf

编辑:于腾凯

校对:林亦霖

NeurIPS 2020 | 清华大学提出:通用、高效的神经网络自适应推理框架相关推荐

  1. NeurIPS 2020 | Glance and Focus: 通用、高效的神经网络自适应推理框架

    文 | rainforest wang 源 | 知乎 本文主要介绍我们被NeurIPS 2020会议录用的一篇文章: Glance and Focus: a Dynamic Approach to R ...

  2. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码...

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  3. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  4. NeurIPS 2020 | MiniLM:通用预训练模型压缩方法

    基本信息 机构: 微软研究院 作者: Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou 论文地址: https://arx ...

  5. NeurIPS 2022 Oral | 摘下悬在神经网络上的达摩克利斯之剑:从模型层面获得对抗鲁棒性保证...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 本文是NeurIPS 2022入选论文Rethinking Lipsc ...

  6. ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet

    来源:PaperWeekly 本文约1900字,建议阅读5分钟 本文介绍了通用时间序列神经网络骨干-TimesNet. 01 简介 本文中了 ICLR 2023,是清华软院老师组的文章,一如既往的 S ...

  7. 提出智能扰动方法!字节跳动隐私保护论文入选 NeurIPS 2020 联邦学习Workshop

    摘要:字节跳动在隐私保护上的最新研究,有利于打消联邦学习上对标签数据安全的顾虑,进一步推动隐私计算的发展. 第三十四届神经信息处理系统大会(Conference and Workshop on Neu ...

  8. 内存256KB设备也能人脸检测,微软提出用RNN代替CNN | NeurIPS 2020

    蕾师师 发自 凹非寺 量子位 报道 | 公众号 QbitAI 为了让更多IoT设备用上AI,在条件"简陋"的单片机上跑图像识别模型也成为一种需求. 但是图像识别对内存有较高的要求, ...

  9. NeurIPS 2020有哪些值得读的「图神经网络」论文?

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果.如果你也希望让自己的科研成果被更多人看到, ...

最新文章

  1. 实时传输协议(RTP)
  2. supervisor源码分析
  3. 三种方式实现圣杯布局
  4. SAP修改数据表(tables)的方法
  5. poj2449(第k短路)
  6. 知识点025-服务器的基础优化脚本
  7. 如何优雅的激怒C/C++程序员
  8. Java JDK安装和配置
  9. Nodejs express、html5实现拖拽上传(转载)
  10. 软件生命周期、面向对象基本概要
  11. 垃圾邮件过滤python_手把手教你用 python 和 scikit-learn 实现垃圾邮件过滤-阿里云开发者社区...
  12. 转载_tolua之wrap文件的原理与使用_写的非常好!
  13. 日文输入法快捷键整理
  14. kali永久获取root权限
  15. 觉醒年代HTML,CSS接下文
  16. Springboot启动流程简述
  17. 机器学习---sklearn
  18. keil (MDK + C51) 安装
  19. [行人重识别论文阅读]Invariance Matters: Exemplar Memory for Domain AdaptivePerson Re-identification
  20. 写两个函数 分别求两个整数的最大公约数和最小公倍数 用主函数调用这两个函数 并输出结果 两个整数由键盘输入

热门文章

  1. python网络编程--socket简单实现
  2. 金山电子表格金山电子表格为何会死机?
  3. 把Nginx注册成Windows的系统服务
  4. 文件系统和磁盘挂载、卸载
  5. 为EditText输入框加上提示信息
  6. centos添加新硬盘
  7. 导入导出 SAPSCRIPT 的程序
  8. 你的火狐很慢吗? - Firefox启动和运行速度优化
  9. java异常类型和基本处理原则_Java异常控制机制和异常处理原则
  10. idea 连接 mysql_IDEA 与MySQL连接问题