图像识别任务面临着诸多挑战, 这使得它自计算机视觉领域1966年诞生以来就成为一个十分活跃的子领域. 本文将简要讨论图像识别问题的挑战以及为了应对这些挑战而使用的数据驱动过程.

1. 图像分类问题的挑战

虽然从图像中识别一个对象对人类来说非常的简单, 但图像识别对计算机来说是一项极具挑战性的工作. 在计算机内, 图像是由一个很大三维数组表示的. 比如一张 1024 * 768 的图像, 它拥有R, G, B三个分量,  因此, 这张图像有 1024 * 768 * 3 = 2,359,296 个像素, 每个像素是一个0(黑)到255(白)之间的整数. 
这种现象, 称为语义鸿沟. 图像分类的任务是将这两百万个数字映射到一个标记, 比如``猫''.

除了语义鸿沟之外, 图像识别还有其他的一些挑战, 见上图:

- 视角变化. 一个相同的目标相对摄像机可以有不同的朝向.
- 尺度变化. 不仅是占据图像的相对大小, 目标在真实世界的大小也会发生变化.
- 形变. 许多目标并不是刚体, 有时会有很极端的形变.
- 遮挡. 目标可能被遮挡, 因此只有一小部分是可见的.
- 光照改变. 光照会对像素值的大小产生巨大的变化.
- 背景融合. 目标可能会和背景混为一体, 使得它非常难以被认出.
- 类内变化. 相同类的不同个体之间可能会变的完全不同.

2. 数据驱动过程

我们该怎样写出一个算法对图像进行分类呢? 和写出一个排序算法不同, 我们不知道如果通过指定一系列识别规则的方法来识别图像中的目标并且能应对上述的这些挑战. 回想我们人类能对图像内容进行有效的识别, 是因为我们之前已经积累了许多经验, 通过对经验的利用, 从而对新情况做出判断.

在计算机系统中, 经验通常是以数据的形式存在. 我们将提供给计算机每个类别的许多实例(examples), 它们组成了训练集(training set), 利用学习算法(learning algorithms)从训练集中产生分类器(classifier)}或模型(model). 在面对新情况时(例如看到一张以前未出现的图像), 模型会提供相应的判断. 这个过程, 叫做数据驱动过程.

[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程相关推荐

  1. [深度学习基础] 深度学习基础及数学原理

    图像分类 (image classification) 问题是指, 假设给定一系列离散的类别(categories)(如猫, 狗, 飞机, 货车, ...), 对于给定的图像, 从这些类别中赋予一个作 ...

  2. Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

    11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会.会上以及随后受邀前往清华时,他给出了题为「深度学习通往人类水平 AI 的挑战」(Challen ...

  3. Deep learning with python notebooks 笔记 第一章 深度学习基础

    第一章 深度学习基础 好的图表比文字传达的信息量多 图1-1帮助理清了人工智能.机器学习和深度学习之间的关系. 图1-2 清晰的阐述了经典程序设计范式和机器学习一种新的编程范式的不同.两种范式引出了两 ...

  4. 第三章_深度学习基础

    文章目录 第三章 深度学习基础 3.1 基本概念 3.1.1 神经网络组成? 3.1.2神经网络有哪些常用模型结构? 3.1.3如何选择深度学习开发平台? 3.1.4为什么使用深层表示? 3.1.5为 ...

  5. 深度学习基础知识每日更 upupup

    深度学习基础知识点总结 提示:菜鸟入门日记,若总结有错误,各路大佬多多指教! 文章目录 深度学习基础知识点总结 Looking for my friends 一.零散知识点 1.网络拼接和相加的区别 ...

  6. 深度学习基础篇【5】从0开始搭建YOLOV5 并进行测试

    深度学习基础篇[5] 从0开始搭建 YOLOV5  并进行测试 如何评价YOLO V5,那就必须拿"上一代"YOLO V4来做对照了.先说结论,YOLO V5 在性能上稍弱于YOL ...

  7. (十四)从零开始学人工智能-深度学习基础及CNN

    文章目录 一.深度学习基础 1.1 深度学习及其发展历史 1.1.1 什么是学习? 1.1.2 什么是机器学习? 1.1.3 什么是深度学习? 1.1.4 深度学习发展历史 1.1.5 小结 1.2 ...

  8. Python深度学习(一)深度学习基础

    翻译自Deep Learning With Python(2018) 第一章 深度学习基础:https://www.jianshu.com/p/6c08f4ceab4c 第二章 深度学习的数学构建模块 ...

  9. 【书摘】深度学习简史(摘抄自《深度学习基础与应用》)

    本文内容摘抄自 <深度学习基础与应用> 北京理工大学出版社 武玉伟 等编著 2020年4月出版 ISBN:978-7-5682-8373-1 该书绪论中讲到 人工智能和深度学习的发展历史, ...

最新文章

  1. 【视频】视频传输协议:RTSP、RTP、RTCP、RTMP、HTTP
  2. BZOJ4196:[NOI2015]软件包管理器——题解
  3. 基于矩阵分解的推荐算法,简单入门
  4. .net Web网站转换成Web应用程序 备忘
  5. webpack --- [4.x]你能看懂的webpack项目初始化
  6. 智能停车O2O 独角兽初现:“ETCP停车”获5000万美金A轮融资
  7. 专家教你如何设置无线路由器 享受无线乐趣
  8. 面试问题记录 (一)
  9. bzoj 3374: [Usaco2004 Mar]Special Serial Numbers 特殊编号
  10. Tkinter实例:家庭账本(Python)
  11. MySQL用户管理语句001
  12. 程序员,我要为了这个名号而疯狂
  13. 按分数段统计学生人数python_用Excel统计各分数段学生数
  14. vue尚品汇商城项目-day07【vue插件-49.(了解)自定义插件】
  15. Word安全警告 宏已被禁用解决
  16. 安卓开发常用icon/png图样
  17. 电脑开机为什么会出现黑屏
  18. 石墨烯之父”、诺贝尔物理学奖得主:造访江西理工大学
  19. JavaScript鼠标点击事件
  20. mysql-基础-视图,存储过程,触发器

热门文章

  1. boost::geometry::point_on_surface用法的测试程序
  2. Boost:使用std :: test进行boost:array的测试
  3. ITK:对给定LabelMap的所有LabelObject应用形态学关闭操作
  4. DCMTK:测试文件是否使用DICOM Part 10格式
  5. VTK:Utilities之FunctionParser
  6. OpenCV兼容性测试的实例(附完整代码)
  7. OpenCV如何启用Halide后端以提高效率
  8. QT实现音乐的大小可视化为动画条
  9. QT的QDesignerPropertySheetExtension类的使用
  10. dbms_java_java实现DBMS