ImageNet图像分类

深度学习在物体识别中最重要的进展体现在ImageNet ILSVRC挑战中的图像分类任务。传统计算机视觉方法在此测试集上最低的错误率是26.172%。2012年,欣顿的研究小组利用卷积网络把错误率降到了15.315%。此网络结构被称为 Alex Net与传统的卷积网络相比,它有三点与众不同之处:首先,Alex Net采用了dropout的训练策略在训练过程中将输入层和中间层的一些神经元随机置零。这模拟了噪音对输入数据的各种干扰使一些神经元对一些视觉模式产生漏检的情况。Dropout使训练过程收敛得更慢,但得到的网络模型更加鲁棒。其次,Alex Net采用整流线性单元作为非线性的激发函数。这不仅大大降低了计算的复杂度,而且使神经元的输出具有稀疏的特征,对各种干扰更加鲁棒。第三,Alex Net通过对训练样本镜像映射和加入随机平移扰动,产生了更多的训练样本减少了过拟合。

在ImageNet ILSVRC 2013比赛中,排名前20的小组使用的都是深度学习技术。获胜者是纽约大学罗伯·费格斯(Rob Fergus)的研究小组,所采用的深度模型是卷积网络,并对网络结构作了进一步优化,错误率为11.197%,其模型称作Clarifai。在ILSVRC 2014比赛中,获胜者GooLeNet将错误率降到了6.656%。GooLeNet突出的特点是大大增加了卷积网络的深度,超过了20层,这在此之前是不可想象的。很深的网络结构给预测误差的反向传播带了困难,这是因为预测误差是从最顶层传到底层的,传到底层的误差很小,难以驱动底层参数的更新。GooLeNet采取的策略是将监督信号直接加到多个中间层,这意味着中间层和底层的特征表示也要能够对训练数据进行准确分类。如何有效地训练很深的网络模型仍是未来研究的一个重要课题。

虽然深度学习在ImageNet上取得了巨大成功,但是很多应用的训练集是较小的,在这种情况下,如何应用深度学习呢?有三种方法可供参考:(1)可以将ImageNet上训练得到的模型作为起点,利用目标训练集和反向传播对其进行继续训练,将模型适应到特定的应用。此时ImageNet起到预训练的作用。(2)如果目标训练集不够大,可以将底层的网络参数固定,沿用ImageNet上的训练集结果,只对上层进行更新。这是因为底层的网络参数是最难更新的,而从ImageNet学习得到的底层滤波器往往描述了各种不同的局部边缘和纹理信息,而这些滤波器对一般的图像有较好的普适性。(3)直接采用Image Net上训练得到的模型,把最高的隐含层的输出作为特征表达,代替常用的手工设计的特征。

人脸识别

深度学习在物体识别上的另一个重要突破是人脸识别。人脸识别的最大挑战是如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。这两种变化的分布是非线性的,且极为复杂,传统的线性模型无法将它们有效区分开。深度学习的目的是通过多层的非线性变换得到新的特征表示。这些新特征须尽可能多地去掉类内变化,而保留类间变化。

人脸识别包括人脸确认和人脸辨识两种任务。人脸确认是判断两张人脸照片是否属于同一个人,属于二分类问题,随机猜的正确率是50%。人脸辨识是将一张人脸图像分为N个类别之一,类别是由人脸的身份定义的。这是个多分类问题,更具挑战性,其难度随着类别数的增多而增大,随机猜的正确率是1/N。两种任务都可以通过深度模型学习人脸的特征表达。

2013年,有人采用人脸确认任务作为监督信号,利用卷积网络学习人脸特征,在LFW上取得了92.52%的识别率。这一结果虽然与后续的深度学习方法相比较低,但也超过了大多数非深度学习算法。由于人脸确认是一个二分类问题,用它学习人脸特征的效率比较低,容易在训练集上发生过拟合。而人脸辨识是一个更具挑战性的多分类问题,不容易发生过拟合,更适合通过深度模型学习人脸特征。另一方面,在人脸确认中,每一对训练样本被人工标注成两类中的一类,所含信息量较少。而在人脸辨识中,每个训练样本都被人工标注成N类之一,信息量大。

在2014年的IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上, DeepID和DeepFace都采用人脸辨识作为监督信号,在LFW上分别取得了97.45%和97.35%的识别率。他们利用卷积网络预测N维标注向量,将最高的隐含层作为人验特征。这一层在训练过程中要区分大量的人脸类别(例如在DeepID中区分1000个类别的人脸),因此包含了丰富的类间变化的信息,有很强的泛化能力。虽然训练中采用的是人脸辨识任务,但得到的特征可以应用到人脸确认任务中,以及识别训练集中是否有新人。例如,LFW上用于测试的任务是人脸确认任务,不同于训练中的人脸辨识任务;DeepID和DeepFace的训练集与LFW测试集的人物身份是不重合的。

通过人脸辨识任务学习得到的人脸特征包含较多的类内变化。DeepID2联合使用人脸确认和人脸辨识作为监督信号,得到的人脸特征在保持类间变化的同时使类内变化最小化,从而将LFW上的人脸识别率提高到99.15%。DeepID2利用TitanGPU提取一幅人脸图像的特征只需要35毫秒,而且可以离线进行。经过主元分析(Principal Component Analysis,PCA)压缩最终得到80维的特征向量,可以用于快速人脸在线比对。在后续工作中,DeepID2通过扩展网络结构,增加训练数据,以及在每一层都加入监督信息,在LFW达到了99.47%的识别率。

一些人认为深度学习的成功是由于用具有大量参数的复杂模型去拟合数据集,其实远非如此简单。例如DeepID2+的成功还在于其所具有的很多重要有趣的特征:它最上层的神经元响应是中度稀疏的,对人脸身份和各种人脸属性具有很强的选择性,对局部遮挡有很强的鲁棒性。在以往的研究中,为了得到这些属性,我们往往需要对模型加入各种显示的约束。而DeepID2+通过大规模学习自动拥有了这些属性,其背后的理论分析值得未来进一步研究。

深度学习在物体检测中的应用:物体检测是比物体识别更难的任务。一幅图像中可能包属于不同类别的多个物体,物体检测需要确定每个物体的位置和类别。2013年,ImageNet ILSⅤRC比赛的组织者增加了物体检测的任务,要求在4万张互联网图片中检测200类物体。比赛获胜者使用的是手动设计的特征,平均物体检测率(mean Averaged Precision,mAP)只有22.581%。在ILSVRC 2014中,深度学习将平均物体检测率提高到了43.933%。较有影响力的工作包括RCNN、Overeat、GoogLeNet、DeepID-Net、network in network、VGG和spatial pyramid pooling in deep CNN。RCNN首次提出了被广泛采用的基于深度学习的物体检测流程,并首先采用非深度学习方法(例如selective search)提出候选区域,利用深度卷积网络从候选区域提取特征,然后利用支持向量机等线性分类器基于特征将区域分为物体和背景。DeepID-Net进一步完善了这一流程,使得检测率有了大幅提升,并且对每一个环节的贡献做了详细的实验分析。深度卷积网络结构的设计也至关重要,如果一个网络结构能够提高图像分类任务的准确性,通常也能显著提升物体检测器的性能。

深度学习的成功还体现在行人检测上。在最大的行人检测测试集(Caltech)上,广泛采用的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征和可变形部件模型的平均误检率是68%。目前基于深度学习检测的最好结果是20.86%。在最新的研究进展中,很多被证明行之有效的物体检测都用到了深度学习。例如,联合深度学习提出了形变层,对物体部件间的几何形变进行建模;多阶段深度学习国可以模拟物体检测中常用的级联分类器;可切换深度网络可以表达物体各个部件的混合模型;有人通过迁移学习将一个深度模型行人检测器自适应到一个目标场景。

物体识别_深度学习在物体识别中的应用探讨:以ImageNet和人脸识别为例相关推荐

  1. 深度学习数字仪表盘识别_深度学习之手写数字识别项目(Sequential方法amp;Class方法进阶版)...

    此项目使用LeNet模型针对手写数字进行分类.项目中我们分别采用了顺序式API和子类方法两种方式构建了LeNet模型训练mnist数据集,并编写了给图识物应用程序用于手写数字识别. 一.LeNet模型 ...

  2. python在无人驾驶中的应用_深度学习在无人驾驶汽车中的应用

    人工智能及识别技术 本栏目责任编辑 : 唐一东 Computer Knowledge and Technology 电脑知识 与技术 第 11 卷第 24 期 (2015 年 8 月 ) 深度学习在无 ...

  3. android 人脸识别_小模型,高精度!小视科技推出极致轻量型人脸识别SDK

    AI 落地为王时代的到来,使得人脸识别的精度和速度备受人们关注.近年来,随着模型压缩.量化技术的进步,模型运行速度也越来越快.对于一些特定的人脸检测任务,轻量型的人脸识别SDK即可满足需求. ▲图源网 ...

  4. 人体识别_深度学习资讯 | 用于人体动作识别的26层卷积神经网络

    诸如卷积神经网络(CNN)之类的深度学习算法已在各种任务上取得了显著成果,包括那些涉及识别图像中特定人物或物体的任务.基于视觉的人类动作识别(HAR)是计算机科学家经常尝试使用深度学习解决的任务,它特 ...

  5. 吴恩达《深度学习》第四门课(4)特殊应用:人脸识别和神经风格迁移

    4.1什么是人脸识别 (1)人脸验证(face verification):1对1,输入一个照片或者名字或者ID,然后判断这个人是否是本人. (2)人脸识别(face recognition):1对多 ...

  6. 人物关系 人脸识别_原因解密:格里兹曼宣布终止与华为合作,不只是因为人脸识别系统...

    恐怕不少球迷在看到这篇文章之前,依旧不知道格里兹曼突然间宣布终止了与华为方面的代言合作,并且这突然违约的行为背后是什么原因也让人不得而知.真的是因为华为方面研发了一款特殊的人脸识别系统,还是受到舆论的 ...

  7. 函数或变量 rtenslearn_c 无法识别_深度学习的数学-卷积神经网络的结构和变量关系...

    前言 本篇博客主要介绍卷积神经网络的组成部分,以及变量表示,最后附上卷积神经网络代价函数的计算 正文 前文中学到的神经网络都是全连接类型的,隐藏层对输入层有着各自固定的偏好模式,满足偏好模式(权重和偏 ...

  8. 机器学习_深度学习毕设题目汇总——皮肤_癌症_糖尿病

    下面是该类的一些题目: 题目 影像组学在食管癌和头颈癌放射治疗中的应用研究 面向医学图像的机器学习方法研究及在卵巢癌精准诊断中的应用 人工智能引导的宫颈癌特殊染色图像分类算法研究 医学交叉对比神经网络 ...

  9. 物体抓取位姿估計算法綜述_基于深度学习的物体抓取位置估计

    主讲题目:基于深度学习的物体抓取位置估计 主要内容:机械臂抓取技术简介与入门方法 主讲嘉宾:东北大学研究生,主要研究物体六自由度位姿估计,机械臂抓取. 知乎视频​www.zhihu.com 往期干货资 ...

最新文章

  1. Python培训教程之Python基础知识点梳理
  2. linux shell bash 内置变量参考
  3. Python+selenium 自动化-基本环境搭建,调用selenium库访问百度查询天气实例演示
  4. 8.1.4 Authentication in a Web Application
  5. python3爬虫学习笔记
  6. Cell重磅发现:人类胎儿全身组织中都含有活细菌,这些细菌激发了胎儿的免疫发育...
  7. eclipse中jsp页面%@page import=javax.servlet.http.*%报错
  8. Mystery——团队作业——系统设计
  9. 网易的java微专业_网易微专业Java开发工程师(Web方向)
  10. 2022春招第一波投递时间预测,早看早知道
  11. MATLAB-非线性方程(组)求解
  12. Ubuntu 20.04系统中VSCode+CMake+GTest实现C++程序自动化单元测试的详细方法
  13. 企业怎样管理员工更有效?
  14. Android 自定义DatePick 只显示年月,日期选择年月
  15. Android TV 8.0 Browser播放视频闪退
  16. 反射内存卡学习及使用---rfm2g驱动安装
  17. ClickHouse实战--clickhouse sql入门大全
  18. 华为笔试题-素数伴侣
  19. Linux挂载samba
  20. 安信可平头哥TG-12F-kit 模块(TG7100c) 接入阿里云生活平台

热门文章

  1. 腾讯否认微信测试语音消息进度调节​;监证会同意蚂蚁集团科创板IPO注册;React 17 正式版发布|极客头条
  2. 深度解析 | 用 AI 帮助听障人群,一共需要几步?
  3. 分析数万条国庆旅游评论数据后,我发现了“坑爹”景点背后的秘密
  4. 揭秘阿里中台!一文看懂阿里推荐业务的两项利器 | 赠书
  5. 好的程序员“借”,伟大的程序员“偷”!
  6. Python 分析 10 万条弹幕告诉你:《古董局中局2》到底好不好看?
  7. 涨知识!Google 黑客常用搜索语句一览 | 原力计划
  8. 遇到这 4 个迹象,赶紧下来、让人工智能上!
  9. 武汉新增职位数同比下降44.25%,这些企业却在猛招人,“来多少,要多少”
  10. 软件测试的出路到底在哪?