今天学习论文:【Optimization Algorithm Inspired Deep Neural Network Structure Design】https://zhouchenlin.github.io/Publications/2018-ACML-Network.pdf​zhouchenlin.github.io

自从听了ruoyu Sun的关于深度学习优化理论的暑期班后Zootopia:名校随处可见的暑期班,你能学到什么?---Ruoyu Sun北大暑期班笔记​zhuanlan.zhihu.com

对优化算法这个在DNN中的黑箱子,充满了好奇。今天学习的这篇论文来自北大团队Huan Li, Yibo Yang, Dongmin Chen 和Zhouchen Lin。

摘要

摘要开门见山提出现在DNN已经蓬勃发展,尤其像ResNet和DenseNet的提出引起了不小的轰动,但是随着如春笋般涌出的各种Net,每个Net往往都是实践表明效果很好,却没有一个统一的对于神经网络结构的设计框架。这篇论文基于的思想是:神经网络可以受优化算法启发来设计网络结构,并且更快的优化算法可以得到更好的网络设计。

观察:前向神经网络传播(假设每层线性变换一致)等价于利用梯度下降法优化某个目标函数

基于这个观察可以通过将现有的heavy ball或者是Nesterov加速算法来替代GD,从而得到更好的网络设计。ResNet和DenseNet都是其统一框架的特殊情形。

从优化算法的角度建立了unified framework,不仅为后续网络优化提供了理论思路,也为优化和DNN建立了更紧密的联系

Motivation

【受压缩感知领域的启发】传统压缩感知一般常用的是解决这样一个优化问题(L1正则化问题)

这个问题涉及到迭代中求解

这个步骤很费时、需要迭代很多步才能保证收敛(虽然也有大量的文献努力在提高此步骤的效率)。针对这个问题,以下文献(可能包含的不全)

G. Huang, Z. Liu, L. van der Maaten, and K. Weinberger. Densely connected convolutional

networks. In CVPR, 2017.

B. Xin, Y. Wang, W. Gao, B. Wang, and D. Wipf. Maximal sparsity with deep networks?

In NIPS, 2016

K. Kulkarni, S. Lohit, P. Turaga, R. Kerviche, and A. Ashok. Reconnet: Non-iterative

reconstruction of images from compressively sensed mmeasuremets. In CVPR, 2016

J. Zhang and B. Ghanem. ISTA-Net: Iterative shrinkage-thresholding algorithm inspired

deep network for image compressie sensing. In arxiv:1706.01929, 2017

建立了基于神经网络的方法来解决压缩感知问题,核心思想是:给定深度,训练一个非线性的前向神经网络,在每一层,对输入做一个非线性变换

Wk是可以学习的,这样,相比传统压缩感知W是固定的,这样的方法更高效。

【个人觉得,以上方法也是NN和CS的一种联系,做CS的人通过NN的经典思想来改进CS优化迭代算法,这样的联系也能反过来影响DNN】

这篇论文不考虑最优权的部分。主要贡献在于建立了优化算法和DNN之间的初步联系(论文作者一直强调初步,很谦虚也很严谨)

建立了一个基于优化算法的unified 框架,为DNN网络设计提供了理论思路

Modeling前向神经网络传播

在神经网络中,前向传播一般表示为

这里

是例如ReLU和sigmoid的激活函数,因为这篇论文不考虑最优

,所以可以直接视为W。

而梯度下降算法中主要迭代为

【怎么建立(1)和(7)的联系?】

本质上就是找到了GD需要最优的目标函数F(x),这也是这个论文最重要的引理--建立了NN和GD的联系

针对不同的激活函数,论文中都有提供其对应目标函数

假设:更快的优化算法可以启发更好的神经网络

既然神经网络可以等价于利用GD来优化一个目标函数,那么尝试是否更快的算法,此文主要考虑了Heavy ball、Nesterov's加速算法以及近些年在优化领域很火的ADMM(交替方向乘子算法)能否对应更好的神经网络。

Heavy ball:

Nesterov's

ADMM(ADMM是并行算法,所以是两个量同时算)

有了网络和算法之间的联系表达式,现在就是付诸于实践看,这样的网络效果如何

从表格中看到:

(1)Nesterov's的两个版本AGD和heavy ball都比GD效果更好,这也和他们比GD收敛速率更快的理论符合

(2)ADMM效果最差,这也和ADMM收敛并不比GD好的理论符合【前几年,关于ADMM的收敛分析曾经掀起很大的一波研究热潮】

(3)随着网络深度加深,大部分方法的MSE并不会随着继续减少,意味着基于GD,HB,AGD的深度网络较难训练,AGD2却仍然很有效(虽然AGD2和AGD理论是一致的)

联系DNN实际

放松

和W:考虑把

设置为池化、BN、卷积或者全连接的组合函数,这样,网络就可以覆盖CNN一类的网络

自适应调整参数:可以考虑把参数

等做自适应的调整、或者设置为0。例如

设为0,就是ResNet; 下面这个表格涵盖了几种常用方法

模拟实验

直接上数据结果:

何凯明的ResNet论文中阐述过关于NN的深度问题,一般的网络在18层就很难收敛了需要一个warming-up,那么这个论文在ResNet(18)时候是通过重复实验从而得到收敛结果的,但是HB-Net是需要一次实验即可得到收敛结果,所以HB-Net可能在解决网络深度困境上表现更优秀。

【个人感想】这个论文作者一直在强调是一个初步的结果,但是这个初步探索给了大家一个新的视野去看待DNN,同样也给了做CS或者稀疏优化等一个新的视野去解决一些问题,尝试建立不同领域的联系,真的很interesting!

dnn解读_论文学习+解读1--受优化算法启发的DNN网络设计相关推荐

  1. 吴恩达深度学习笔记6-Course2-Week2【优化算法】

    优化算法 一.Mini-batch gradient descent(小批量梯度下降法) Mini-batch: 把整个训练数据集分成若干个小的训练集,即为Mini-batch. 为什么要分?梯度下降 ...

  2. 2020美赛F奖论文(四):模拟退火算法驱动的结构策略设计

    上接:2020美赛F奖论文(三):足球团队指标和基于机器学习的球队表现预测 全文: 2020美赛F奖论文(一):摘要.绪论和模型准备 2020美赛F奖论文(二):传球网络模型(PNM)的建立和影响因子 ...

  3. 融合互利共生和透镜成像学习的哈里斯鹰优化算法-附代码

    融合互利共生和透镜成像学习的HHO优化算法 文章目录 融合互利共生和透镜成像学习的HHO优化算法 1.哈里斯鹰优化算法 2.改进哈里斯鹰优化算法 2.1 Tent 混沌初始化种群 2.2 融合互利共生 ...

  4. 深度学习中常用的优化算法(SGD, Nesterov,Adagrad,RMSProp,Adam)总结

    深度学习中常用的优化算法(SGD, Nesterov,Adagrad,RMSProp,Adam)总结 1. 引言 在深度学习中我们定义了损失函数以后,会采取各种各样的方法来降低损失函数的数值,从而使模 ...

  5. 基于准反射学习的哈里斯鹰优化算法

    文章目录 一.理论基础 1.哈里斯鹰优化算法 2.改进哈里斯鹰优化算法 (1)基于反向学习 (2)基于准反向学习 (3)基于准反射学习 二.仿真实验与分析 三.参考文献 一.理论基础 1.哈里斯鹰优化 ...

  6. 基于混沌透镜成像学习的哈里斯鹰优化算法

    文章目录 一.理论基础 1.哈里斯鹰优化算法 2.基于混沌透镜成像学习的哈里斯鹰优化算法 (1)Fuch无限折叠混沌策略 (2)黄金正弦策略 (3)融合透镜成像学习和柯西变异策略 二.仿真实验与结果分 ...

  7. 单目相机 svd 从图像恢复3维位置_论文学习——VINSMono:一种鲁棒且通用的单目视觉惯性系统...

    点击上方"视觉部落",选择"星标"公众号 精选作品,第一时间送达 文章同步首发于知乎用户yikang专栏 Part 1. 基本信息 本文提出了一种基于紧耦合滑动 ...

  8. 粒子群优化算法_每日论文19:粒子群优化算法综述

    每日论文 第十九篇 2020/07/27 摘要:粒子群优化 (PSO)算法是一种新兴的优化技术 ,其思想来源于人工生命和演化计算理论.PSO通过粒子追随自己找到的最好解和整个群的最好解来完成优化.该算 ...

  9. 深度学习-各类梯度下降优化算法回顾

    本文是根据 链接 进行的翻译,回顾了深度学习的各种梯度下降优化算法.*已获得原作者的翻译许可. 文章目录 一.概述 二.引言 三.Gradient Descent Variants(梯度下降法变体) ...

最新文章

  1. 数据库优化案例——————某市中心医院HIS系统
  2. ADAS实际已涵盖20多种功能
  3. SAP信用控制配置事物码
  4. 原HP大中华区总裁孙振耀的退休感言
  5. 天梯赛2016-L2
  6. java socket调用接口_java调用websocket接口
  7. Moto X的谷歌基因
  8. opencv 把3通道图像转成单通道_【3】OpenCV图像处理模块(4)图像腐蚀与膨胀
  9. c#利用反射Assembly 对类和成员属性进行操作
  10. tomcat普通用户启动不了
  11. win10无法装载iso文件_装载Win10 ISO镜像文件的具体方法
  12. 通用权限管理系统设计篇
  13. 计算机显存影响什么,老司机告诉你显存是怎样影响电脑速度的
  14. 并发编程----接口聚合 (实现方法)
  15. 基于腾讯云实时音视频(TRTC)的web端 多人人脸识别小游戏
  16. CVPR 2021 论文解读I 动态区域感知卷积,进一步提升分类/检测/分割性能|Dynamic Region-Aware Convolution
  17. Meetup回顾|星策社区FeatureStore Meetup V2
  18. 亚马逊新品如何报秒杀?成都星志远
  19. 鼠标乱动原来是这个问题啊=.=
  20. 三分钟教你怎么照片变漫画

热门文章

  1. kettle java交互_java程序中给Kettle传参数,其实很简单
  2. Facebook中国程序员之死:年仅38岁就跳楼轻生
  3. 感觉自己效率太低怎么办?
  4. 计算机辅助技术衡量国家,机械计算机辅助技术(CAD)及其发展趋势
  5. 在GPU上运行MATLAB程序
  6. 【毕设记录】第一篇:开题,整体App计划
  7. Numpy学习07-随机抽样
  8. JS 对象直接量方法创建对象
  9. java前后端技术栈
  10. 携程酒店评论EDA及词云展示—数据来自和鲸社区