1、paper的贡献:

  • 训练了一个最大的神经网络,然后取得了特别好的结果
  • 实现了GPU上性能很高的一个2D的卷积
  • 网络有一些新的特性能够提升性能,降低模型的训练时间
  • 使用一些方法防止过拟合,使得模型更好
  • 模型具有5个卷积层,3个全连接层,得出深度很重要
    2、数据集
    对ImageNet中的图片没有做任何的预处理只是进行了简单的剪裁。当时计算机视觉都是将特征抽取出来,在之后的工作中基本上就是将原本的文本或者图片放进去不做任何的特征抽取,通过神经网络完成这部分工作。
    3、结构


    (1)卷积层
    卷积的过程高宽慢慢变小,深度渐渐增加,随着深度的增加,慢慢地将空间信息压缩,知道最后每一个像素能够代表前面一大块的像素,然后再将通道数慢慢增加。慢慢地将空间信息压缩,语义空间信息增加,到最后卷积完成之后,进入全连接层。
    (2)降低过拟合

    • 数据增强

    • dropout
      随机的将一些隐藏层的输出变成0,dropout在全连接层会用到
      (3)Relu非线性激活函数,Relu激活函数计算简单,不需要如sigmoid激活函数那般复杂的求幂运算。另一方面,当使用不同参数初始化方法时,ReLU激活函数使训练模型更加容易。
      (4)正则化、归一化
      (5)overlapping pooling
      (6)训练

    • 使用SGD随机梯度下降来进行训练

    • 批量大小为128

    • momentum是0.9,当优化的表面非常不平滑的时候,冲量使得不要被当下的梯度过多的误导,可以保持一个冲量从过去那个方向沿着一个比较平缓的方向往前走,这样子比较容易陷入到局部最优解。

    • 权重使用均值为0,方差为0.01的高斯随机变量来初始化

    • 每个层使用同样的学习率,从0.01开始,然后呢如果验证误差不往下降了,就手动的将他乘以0.1,就是降低十倍

    • 在Alex之后的很多训练里面,都是做规则性地将学习率往下下降十倍,这是一个非常主流的做法,但是现在很少用了,现在使用更加平滑的曲线来降低学习率,比如果用一个cos的函数比较平缓地往下降。 现在主流的做法是学习率从0开始再慢慢上升,慢慢下降

AlexNet论文精读相关推荐

  1. 【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features

    文章目录 一.摘要 二.介绍 三.相关工作 四.搜索广告 五.特征表示 5.1 独立特征 5.2 组合特征 六.模型架构 6.1 Embedding层 6.2 Stacking层 6.3 Residu ...

  2. CNN基础论文 精读+复现----VGG(一)

    文章目录 前言 第1页 第2-3页 第四页 第五页 前言 原文Github地址:https://github.com/shitbro6/paper/blob/main/VGG.pdf 原文arxiv地 ...

  3. 跟李沐学AI-AlexNet论文逐段精读【论文精读】

    视频链接:AlexNet论文逐段精读[论文精读]_哔哩哔哩_bilibili AlexNet 1.introduction 第一段 一篇论文的第一段通常是讲个故事 做什么研究 哪个方向 这个方向有什么 ...

  4. ViT论文逐段精读【论文精读】-跟李沐学AI

    视频链接:ViT论文逐段精读[论文精读]_哔哩哔哩_bilibili ViT:过去一年,CV 最有影响力的工作 推翻了 2012 Alexnet 提出的 CNN 在 CV 的统治地位 有足够多的预训练 ...

  5. CNN基础论文 精读+复现----GoogleNet InceptionV1 (一)

    文章目录 前言 第1页 摘要与引言 第2页 文献综述 第3-4页 第4-5页 inception模块细节 第5-7页 GoogLeNet 第8页 训练细节 第8-10页 ILSVRC 2014 inc ...

  6. Vision Transformer论文精读(1/2)

    目录 一.大致概况 二.论文精读 (1)前述 (2)摘要.引言 (3)结论 (4)相关工作 三.参考链接 精读论文 <AN IMAGE IS WORTH 16X16 WORDS: TRANSFO ...

  7. Swin Transformer 论文精读,并解析其模型结构

    计算机视觉的建模从AlexNet在ImageNet分类挑战的良好表现开始,然后到目标检测的SSD.RCNN.YOLO等模型,一直由CNN主导.直到NLP领域中Transformer的崛起,并经ViT应 ...

  8. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  9. 论文精读 | slam中姿态估计的图优化方法比较

    一. 摘要 对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...

最新文章

  1. QML中的JavaScript表达式
  2. svn 命令行查看history及比较不同版本
  3. C# 网络编程之最简单浏览器实现
  4. 使用secure CRT的SFTP在LINUX与WINDOWS下交换文件
  5. 听障学生计算机课本,面向听障学生程序设计的计算机教学辅助系统
  6. 【多题合集】AC自动机练习,被HDU支配的恐惧
  7. java中计算平均成绩_Java计算平均成绩
  8. Qt编写大数据大屏UI电子看板系统
  9. Hadoop1.0.4单节点StandAlone及Pseudo-Distributed部署方法
  10. mysql 什么时候用单列索引?什么使用用联合索引?
  11. jmeter下载图片
  12. 拓端tecdat|stata对包含协变量的模型进行缺失值多重插补分析
  13. linux发邮件权限,Linux通过命令行发邮件的步骤
  14. box-sizing属性介绍
  15. Android 开发的五大开源网站
  16. 手把手教你搭建使用NuGet私有源
  17. 用电脑看电视的方法!!
  18. 经典管理学定律3 - 鳄鱼法则
  19. Keil MDK又来了一个小升级
  20. Bootstrap整体架构

热门文章

  1. Outlook配置文件存放位置
  2. 思科 计算机网络 第一章测试考试
  3. Nbtscan.exe工具分析
  4. 论文精读——CenterNet :Keypoint Triplets for Object Detection
  5. 法兰克oi操作系统参数显示步骤
  6. 程序员学习和实战指南-工欲善其事必先利其器(2)
  7. XenServer 6.2部署教程
  8. android 触摸屏驱动分析,rk3188--6.android 触摸屏驱动分析
  9. 关于pc时出现--找不到网页视频播放地址的问题--解决办法
  10. 三大特性看明白中国电影市场