Deep Residual Learning for Image Recognition个人有感
问题:当网络深度到一定深度后,网络层数越深,纯神经网络的效果呢,如图所示?
从理论上来讲,神经网络越深,其学习能力越强;但实际上却面临着优化难题;不是梯度消失也不是梯度爆炸导致的,因为使用了BN;论文作者推断是因为深度网络面临着随着层数增加,而出现指数级下降的收敛速度,换句话说,需要非常多的训练次数;这个优化难题留在未来解决;
作者设计了两个网络,一个是较浅的神经网络结构,另一个较深的神经网络结构在前者后面链接数据层网络,但其新的层数只有一个功能就是完美复制,不作任用修改,专业术语为恒等映射,其结果为输出结果完全等同于较浅的神经网络;这个设计就表明更深的深度神经网络至少能训练出不亚于较浅的神经网络结构模型;但事实证明无法找到比这种恒等映射更好的结果了;
针对这个超深度网络,作者独创了一种名为residual learning,如图所示:
可以把正常的h(x)分成两部分一是f(x)与x,可以看作是先验的一部分,也可以一种独特的结构,对h(x)的收敛方向作了一定的约束或者指向;可以加快其收敛速度;该结构的网络非常容易优化,网络深度快速增加时,能较快的优化或者收敛;效果如图所示:
作者将层数增加到1000层,训练误差降到历史新低,但测试误差一样;说明此时出现了过拟合;此时可以考虑使用dropout,maxout等正则化;
对于imagenet的训练,于卷积后激活之前使用了BN,使用了batchsize=256的SGD,学习率从0.1开始,每进入稳定期后,学习率除以10,迭代次数为60万次,使用权重decay值为0.0001,动量系数为0.9,不使用dropout;
对于CIFAR-10的训练,使用权重decay值为0.0001,动量系数为0.9,不使用dropout,mini-batchsize=128,两块GPU,学习率以0.1开始,到迭代到32000次和48000次时学习率除以10;当层数增加到110层时,初始学习率为0.1就太大而不能收敛,所以开始就以0.01进行训练直到训练误差下降到80%(大概迭代480次),然后将学习率恢复到0.1进行训练
Deep Residual Learning for Image Recognition个人有感相关推荐
- Deep Residual Learning for Image Recognition(ResNet)论文翻译及学习笔记
[论文翻译]:Deep Residual Learning for Image Recognition [论文来源]:Deep Residual Learning for Image Recognit ...
- 图像分类经典卷积神经网络—ResNet论文翻译(中英文对照版)—Deep Residual Learning for Image Recognition(深度残差学习的图像识别)
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[ResNet纯中文版] Deep Residual Learning for Image ...
- 深度学习论文:Deep Residual Learning for Image Recognition
论文: He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the ...
- 深度学习论文阅读图像分类篇(五):ResNet《Deep Residual Learning for Image Recognition》
深度学习论文阅读图像分类篇(五):ResNet<Deep Residual Learning for Image Recognition> Abstract 摘要 1. Introduct ...
- 【论文翻译】Deep Residual Learning for Image Recognition
[论文翻译]Deep Residual Learning for Image Recognition [论文题目]Deep Residual Learning for Image Recognitio ...
- 论文翻译[Deep Residual Learning for Image Recognition]
论文来源:Deep Residual Learning for Image Recognition [翻译人]:BDML@CQUT实验室 Deep Residual Learning for Imag ...
- 基于深度残差学习的图像识别 Deep Residual Learning for Image Recognition
[译]基于深度残差学习的图像识别 Deep Residual Learning for Image Recognition Kaiming He Xiangyu Zhang Shaoqing Ren ...
- Deep Residual Learning for Image Recognition浅读与实现
目录 1.研究背景 2.目前研究存在的问题 3.本文贡献 4.文本模型 4.1构建块 4.2残差网络 5.模型训练 5.1 ImageNet2012 5.2 CIFAR-10 6.复现 6.1代码大致 ...
- 图像分类经典卷积神经网络—ResNet论文翻译(纯中文版)—Deep Residual Learning for Image Recognition(深度残差学习的图像识别)
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[ResNet中英文对照版] Deep Residual Learning for Ima ...
最新文章
- js-----第四篇
- php水平垂直居中,html水平垂直居中的问题
- zend framework2 入门实例代码album模型
- python画五角星填充不同颜色_Python绘制分形树(一)
- mysql got signal 11_mysql bug : mysqld got signal 11
- Java设置edittext光标,如何改变的EditText光标高度?
- 计算机科学和建筑设计结合,智能化建筑中计算机科学与技术的应用
- 信息学奥赛一本通(1195:判断整除)
- 缓存世界中的三大问题及解决方案
- (25)Verilog HDL循环语句:forever
- xtarbackup 安装
- 介绍如何隐藏JDataGridBean的SplashScreen?
- python和java的区别-Java和Python的区别 学Python语言好还是Java好
- Mac OS 连内外网
- java 转义符 输出,Java转义字符怎么输出的
- 企业不可忽略的问题——员工移动设备管理
- 如何查看自己的appid以及在微信开发者工具中查看APPID
- calloc和realloc
- 美国计算机科学奥林匹克竞赛试题,2019USAAAO美国天文奥林匹克竞赛预赛试题(答案)...
- 树莓派远程4G遥控车教程(二)-相机云台舵机初步调试
热门文章
- Python scrapy 命令行传参 以及发送post请求payload参数
- python基础教程:filter(),map()函数用法
- python教程:循环(while和for)
- PHP 与Python 读取大文件的区别
- 用python实现自己的小说阅读器
- 求不选修c语言课程的学生学号,数据库综合练习二.docx
- mysql+只读参数_mysql只读变量
- python 将PascalVOC(XML)格式的标注数据批量转换为YOLO(txt)格式的标注数据
- python matplotlib.figure.Figure.add_subplot()方法的使用
- DreamWeaver下如何应用CSS样式