近年来,深度学习的发展势头迅猛,要跟上深度学习的进步速度变得越来越困难了。几乎每一天都有关于深度学习的创新,而大部分的深度学习创新都隐藏在那些发表于ArXiv和Spinger等研究论文中。

本文介绍了部分近期深度学习的进展和创新,以及Keras库中的执行代码,本文还提供了原论文的链接。

简洁起见,本文中只介绍了计算机视觉领域内比较成功的深度学习架构。

另外,文章基于已经掌握了神经网络的知识,并且对Keras已经相当熟悉了的基础。如果你对这些话题还不太了解,强烈建议先阅读以下文章:

《Fundamentals of Deep Learning – Starting with Artificial Neural Network》( https://www.analyticsvidhya.com/blog/2016/03/introduction-deep-learning-fundamentals-neural-networks/ )

《Tutorial: Optimizing Neural Networks using Keras (with Image recognition case study)》( https://www.analyticsvidhya.com/blog/2016/10/tutorial-optimizing-neural-networks-using-keras-with-image-recognition-case-study/ )

何为深度学习“高级架构”?

与一个简单的机器学习算法相比,深度学习算法包含了更加多样的模型。其中的原因是在建立一个完整的模型时,神经网络具有很大的灵活性。

有时,我们还可以把神经网络比作乐高积木,可以用它搭建任何简单或者复杂的小建筑。

我们其实可以将“高级架构”简单地定义为一个有着成功模型记录的深度学习架构,这样的“高级架构”主要出现在类似ImageNet的挑战中,在这些挑战中,你的任务是解决问题,比如用给定的数据完成图像识别。简单来说,ImageNet就是一项关于数据集的挑战,而其中的数据集是从ILSVR(ImageNet大规模视觉识别)中获得的。

就像下文即将提到的架构,其中的每个架构之间都有细微的差别,而正是这些差别使它们区别于普通的模型,让它们在解决问题的时候发挥出普通模型不具备的优势。这些架构同样属于“深度模型”的范畴,因此它们的性能也很可能优于其相对应的“浅层模型”。

不同类型的“计算机视觉任务”

本文主要关注于“计算机视觉”,所以很自然地会涉及到“计算机视觉”的任务。顾名思义,“计算机视觉任务”就是建立一个能够复制完成人类视觉任务的计算机模型。这实质上意味着,我们视力所见和感知的内容是一个能够在人造系统中被理解和完成的程序。

计算机视觉任务的主要类型有:

物体识别/分类: 在物体识别中,你会得到一张原始图像,而你的任务就是判断出这张图像属于哪一类别。

分类及定位: 如果图像中只有一个对象,那么你的任务就是找到该对象的位置。这个问题应该更加具体地表述为“定位问题”。

物体检测: 在物体检测中,你的任务是识别出物体处于图像中的什么位置。这些对象可能属于同一类别,也可能属于不同类别。

图像分割: 图像分割是一项稍微复杂的任务,其目的是将图像的各个像素映射到其对应的各个类别。

各种深度学习架构

目前,我们已经了解了深度学习“高级架构”,并探究了各种类型的计算机视觉任务。那么接下来,我们将列举出最重要的深度学习架构,并且对这些架构进行简单的介绍:

1AlexNet

AlexNet是第一个深度学习架构,它是由深度学习先锋之一——Geoffrey Hinton和他的同事们共同研究并引入的。AlexNet是一个看似简单但功能非常强大的网络架构,它为现在深度学习的突破性研究铺平了道路。下图是AlexNet架构:

从分解图中我们可以看出,AlexNet其实就是一个简单的架构,其中的卷积层和聚积层相互叠加,最顶部的是全连接层。早在二十世纪八十年代,AlexNet模型就已经被概念化描述了。AlexNet区别于其他模型的关键在于它的任务规模,以及它用于训练的GPU规模。在八十年代,用于训练神经网络的是CPU。而AlexNet率先使用GPU,将训练的速度提高了十倍左右。

虽然AlexNet现在有些过时了,但它仍然是运用神经网络完成各种任务的起点。不管是完成计算机视觉任务,还是语音识别任务,都仍然需要AlexNet。

Original Paper link( https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf )

Link for code implementation( https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf )

22. VGG Net

“VGG Net”是由牛津大学“视觉图像研究组”的研究人员引入的。VGG网络的最大特点是它的金字塔状,靠近图像的底部比较宽阔,而顶部的层相对窄且深。

如图所示,VGG Net包含了连续的卷积层,卷积层后紧接着聚积层。聚积层负责让各个层变得更窄。在这篇由组内研究人员共同完成的论文中,他们提出了各种类型的网络,这些网络架构的主要差异是深度不同。

VGG网络的优势在于:

这是对一个特定任务进行基准测试非常有效的网络架构。

同时,网上有大量免费的VGG预训练网络,因此,VGG通常会被用于各种各样的应用程序。

而另一方面,VGG主要的缺陷在于如果从头开始训练的话,其训练速度会非常慢。即使是用一个相当不错的GPU,它还是需要超过一周的时间才能正常运行。

Original Paper link( https://arxiv.org/abs/1409.1556 )

Link for code implementation( https://github.com/fchollet/keras/blob/master/keras/applications/vgg16.py )

3GoogleNet

GoogleNet(又称“InceptionNet”)是由谷歌的研究人员们设计的一个网络架构。GoogleNet在2014年的ImageNet大赛中获得了冠军,证明了它是一个功能强大的模型。

在这个网络架构中,研究人员们不仅加深了网络深度(GoogleNet包含22个层,而VGG网络只有19个层),还研究出了一个叫做“Inception模块”的新方法。

如上图所示,这个架构与我们之前看到的有序性架构相比,发生了巨大的改变。在单个层中出现了各种各样的“特征提取器”。这间接地提高了网络的性能,因为当处理任务时,网络在自我训练过程中的选择非常广泛。它既可以选择卷积输入,也可以选择直接将输入聚积起来。

最终的架构包含了许多一个个相互叠加的Inception模块。大部分最上面的层都有它们自己的输出层,所以GoogleNet的训练与其他模型有细微的差别。但这些差别能够帮助模型更快地完成卷积,因为这些层不仅有共同的训练,还有各自独立的训练。

GoogleNet的优势有:

GoogleNet的训练速度比VGGNet要快。

与预训练的VGG网络相比,预训练的GoogleNet所占规模更小。一个VGG模型所占空间可以超过500MB,而GoogleNet只占96MB。

目前为止,GoogleNet还没有直接的缺陷,但是文章中提出了一些有助于GoogleNet进一步完善的改变方案。其中有一个改变方案被称作“XceptionNet”,在这个网络中,“初始模块”的散度限制被提高了。理论上来说,其散度现在可以是无限的了。

Original Paper link( https://arxiv.org/abs/1512.00567 )

Link for code implementation( https://github.com/fchollet/keras/blob/master/keras/applications/inception_v3.py )

4ResNet

ResNet是一个真正地定义了深度学习架构深度的网络架构。“残差网络”,也就是我们所说的ResNet,包含了许多连续的“残差模块”,这些“残差模块”构成了ResNet架构的基础。“残差模块”如下图所示:

简单来说,一个“残差模块”有两个选择——它可以选择在输入上执行一组函数,也可以选择跳过这些步骤。

与GoogleNet类似,这些“残差模块”相互叠加,从而形成一个完整的网络的。

由ResNet引入的一些新技术有:

使用标准的SGD,而不是花哨的“自适应学习”技术。这是通过一个能够保持正常训练的初始化函数来完成的。

改变输入预处理的方式,先将输入分批,然后再输入至网络。

ResNet的主要优势在于,成千上万的残差层都能用于建立一个网络,而且都能被用于训练。这与平常的“时序网络”稍有不同,“时序网络”的性能会因为层数的增加而降低。

Original Paper link( https://arxiv.org/abs/1512.03385 )

Link for code implementation( https://github.com/fchollet/keras/blob/master/keras/applications/resnet50.py )

5ResNeXt

据称,ResNeXt是目前为止最先进的物体识别技术。ResNeXt建立于inception和ResNet的基础之上,是一个全新的、改良的网络架构。下图总结了ResNeXt的一个残差模块:

Original Paper link( https://arxiv.org/pdf/1611.05431.pdf )

Link for code implementation( https://github.com/titu1994/Keras-ResNeXt )

6RCNN(Region Based CNN)

RCNN据说是用于解决物体识别问题的深度学习架构中最具影响力的网络架构。为了解决识别检测问题,RCNN试图框出图像中的所有物体,然后再识别图像中的物体具体是什么。其操作流程如下:

RCNN的结构如下图:

Original Paper link( https://arxiv.org/abs/1506.01497 )

Link for code implementation( https://github.com/yhenon/keras-frcnn )

7YOLO (You Only Look Once)

YOLO是目前为止最先进的实时图像识别系统,它是以深度学习为基础的。正如我们在下图中所看到的,它首先将图像分成一个个小方格;然后将识别算法一一运行于这些格子,判断每个格子分别属于什么物体类别,之后把同一类别的方格合并起来,形成一个个最准确的物体框。

些操作都是各自独立完成的,因此能够实现实时运行。一秒内最多能够处理40张图像。

虽然与其对应的RCNN相比,YOLO的性能降低了,但是它的实时处理功能在处理日常问题中仍有巨大的优势。以下是YOLO网络架构:

Original Paper link( https://pjreddie.com/media/files/papers/yolo.pdf )

Link for code implementation( https://github.com/allanzelener/YAD2K )

8SqueezeNet

SqueezeNet架构是一个功能更加强大的网络架构,它在类似移动平台这样的低宽带场景中非常有用。这个网络架构仅占4.9MB的空间,而Inception则占超过100MB空间。这样显著的变化来源于一个叫做“fire模块”的结构。“fire模块”如下图所示:

下图为squeezeNet的最终架构:

Original Paper link( https://arxiv.org/abs/1602.07360 )

Link for code implementation( https://github.com/rcmalli/keras-squeezenet )

9SegNet

SegNet是一个用于解决图像分割的深度学习架构。它包含了一系列处理层(编码器)以及一组用于像素分类的对应的解码器。下图总结了SegNet的操作过程:

SegNet的一个关键特征是:在分割图像中保留了高频率的细节,因为编码网络的聚积索引与解码网络的聚积索引是相互连接的。简言之,信息的传递是直接的,而不是通过间接的卷积实现的。SegNet是处理图像分割问题时的最佳模型。

Original Paper link( https://arxiv.org/abs/1511.00561 )

Link for code implementation( https://github.com/imlab-uiip/keras-segnet )

10GAN (Generative Adversarial Network)

GAN是一个完全不同的神经网络架构,其中的神经网络被用于生成一个全新的不存在的图像,这个图像看似在训练数据集中出现过,但实际上并没有( https://www.analyticsvidhya.com/blog/2017/06/introductory-generative-adversarial-networks-gans/ )。下图是GAN的分解示意图。

Original Paper link( https://arxiv.org/abs/1406.2661 )

Link for code implementation( https://github.com/bstriner/keras-adversarial )

End

阅读排行榜/精华推荐1入门学习

如果有人质疑大数据?不妨把这两个视频转给他

视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都需要知道 关于大数据最常见的10个问题

2进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国我们如何收集数据?全球数据收集大教程

4干货教程

PPT:数据可视化,到底该用什么软件来展示数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?

六步,让你用Excel做出强大漂亮的数据地图

数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践

“讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群

36大数据

长按识别二维码,关注36大数据

搜索「36大数据」或输入36dsj.com查看更多内容。

投稿/商务/合作:dashuju36@qq.com

点击下方“阅读原文”查看更多

↓↓↓

数据科学家必须知道的10个深度学习架构相关推荐

  1. 网页设计制作必须知道的10个秘诀

    要制作一个网页,或由若干页面组成的网站,而要做一个有吸引力的,如长青树般的网站请看本文:网页设计制作必须知道的10个秘诀 4秒的时间(我们在设计首页时尽可能的简化,并加速打开网站的速度.)    在整 ...

  2. 数据库:学好SQL必须知道的10个高级概念

    今天给大家分享学好SQL必须知道的10个高级概念. 1.常见表表达式(CTEs) 如果您想要查询子查询,那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表. 使用常用表表达式(CTEs) ...

  3. 移动测试工程师必须知道的10个开源框架

    移动测试工程师必须知道的10个开源框架 作者:彭海波 前言 随着移动互联网的发展,移动测试技术越来越成熟,很多优秀的开源测试框架涌现出来.作为一个移动测试工程师,我们不仅要夯实自己的技术能力,也要学会 ...

  4. 你必须知道的10种国产编程语言

    你必须知道的10种国产编程语言 你必须知道的10种国产编程语言 --一个老程序员的心声:我们必须要有国产的编程语言 众所周知,编程语言是外国人的天下,我们一入行,就失去了 ...

  5. 网页最少要有一个html标签,PHP_网页开发人员必须知道的10个不常用HTML标签, 网页开发人员常常希望能 - phpStudy...

    网页开发人员必须知道的10个不常用HTML标签 网页开发人员常常希望能够了解并掌握多种语言,结果是,学习一门语言的所有内容是棘手的,但是却很容易发现你并没有完全利用那些比较特殊却很有用的标签. 不幸的 ...

  6. 要成为职业摄影师 你必须知道的10个真相

    要成为职业摄影师 你必须知道的10个真相 佳能(中国)职业摄影师 Steve Giralt,每年都会为修读摄影课的学生讲解现实世界中商业摄影的运作,以下摘选他教给学生的10个社会现实,如果你也希望修读 ...

  7. 数据人必须知道的SQL概念(A-Z)

    作为数据从业者,大家用的最多的应该就是SQL语言了,那么除了日常的select,你还了解哪些SQL相关的概念呢?今天就按照字母表的顺序(A-Z)来给大家简单介绍一下数据人必须知道的SQL概念大全. A ...

  8. 成长中必须知道的10个故事 也是做人,做营销必须知道的故事:

    成长中必须知道的10个故事  也是做人,做营销必须知道的故事: 1.断箭 不相信自己的意志,永远也做不成将军. 春秋战国时代,一位父亲和他的儿子出征打战.父亲已做了将军,儿子还只是马前卒.又一阵号角吹 ...

  9. 成长中必须知道的10个故事 也是做人,做营销必须知道的故事

    成长中必须知道的10个故事  也是做人,做营销必须知道的故事: 1.断箭 不相信自己的意志,永远也做不成将军. 春秋战国时代,一位父亲和他的儿子出征打战.父亲已做了将军,儿子还只是马前卒.又一阵号角吹 ...

最新文章

  1. access字段属性设置下拉列表_可嵌入您系统的.NET 报表控件ActiveReports:带状列表组件...
  2. LeetCode Integer Break(整数拆分问题)
  3. 三角形内随机生成一个点
  4. 这里有一份面筋请查收(四)
  5. VR+监狱,分分钟让犯罪分子重新做人
  6. 高级C语言教程-中断和设备驱动
  7. Eclipse Code Review(代码审查)工具介绍
  8. 深度学习数据驱动_利用深度学习实现手绘数据可视化的生成
  9. zabbix java api
  10. 2. SpringBoot +Mybaits
  11. MIT自动驾驶导航系统,不看地图也能穿梭乡间野路
  12. TensorFlow之Vscode调试
  13. java 凸包算法_JAVA凸包算法
  14. i.MX 8M Mini sai_low_power_audio
  15. “程序员猝死”引发的思考
  16. 学mysql需要英语水平多高_大学英语专业挂科率高吗
  17. e1000e_probe 其实是e1000_probe
  18. jar包如何在命令行运行
  19. 一键GHOST使用图文教程
  20. 企业级应用撕逼大战 toB产业链竞争升级

热门文章

  1. wordcount程序中,输出文件夹中为空
  2. 悉尼大学理学院计算机科学,悉尼大学理学院本科申请
  3. 展开阅读全文代码html,展开阅读全文 js 爬虫操作
  4. BMI指数(Body Mass Index身体质量指数),简称体质指数又称体重指数,BMI值是根据你的身高、体重按照一定的公式得出数值,是一个衡量你身体健康的参数。
  5. 已解决selenium.common.exceptions.WebDriverException: Messag: ‘geckodriver‘ executable needs to be in PA
  6. Linux传输文件 rz
  7. python嵌入式系统开发_图解嵌入式系统开发之语言篇:初识Python
  8. Process ID 59:0 owns resources that are blocking processes on Scheduler 2
  9. 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法
  10. ubuntu16.04 update 出现 aborted(core dumped)错误