深度学习的基础冲冲冲,CS231n的全称是CS231n: Convolutional Neural Networks for Visual Recognition,即面向视觉识别的卷积神经网络。

Lecture 1: Introduction

视觉的由来与机器视觉的演变

计算机视觉的崛起

计算机视觉而后面临的挑战

前言:
计算机视觉是一个多学科融合的领域,从计算机科学到数学,从生物学到心理学,计算机视觉都有很大的用武之地:

视觉的由来与机器视觉的演变

地球诞生生命之初,谁都不知道地球是什么样子的——因为没有生物有眼睛,慢慢的,为了更好的捕食,5亿年前第一批生物进化出了最基础的视觉,又经过漫长的时间,等到人类已经可以制造出机器,最初的机器视觉物体产生了:照相机!
而后,在20世纪,计算机视觉(机器视觉)的发展空前迅速,时间来到20世纪中叶这个重要的节点,两名哈弗的学生为了了解视觉神经的处理机制,做了一个实验:将金属探针接入猫的基础视觉皮质层中(primary visual cortex,处理大量和视觉相关的工作,但是位置在后脑勺处,并且大脑中有接近50%的神经元都参与着视觉处理的过程),并记录神经元的状态,发现猫在注视照片时并不会引起神经元的活动,但是当他们在切换照片的过程中,会激活部分神经元,这是开启深度学习的一个重大发现,他们得到的结论是:视觉处理流程的第一步,是对简单的形状结构处理,如边缘,排列等,并且凭借这一发现获得了1981年的诺贝尔医学奖。
计算机视觉在这一发现之后有了突飞猛进的发展:
现代计算机视觉领域的先驱是谁呢?是Lary Roberts在1963年的论文《Block world》,他的论文中提到边缘是决定物体形状的关键,并且解析出物体边缘的信息,属于行业内的开创性文章;
而后1966年,麻省理工成立人工智能研究室(MIT AI lab),使得计算机视觉成为人工智能中最为发展快速的领域;
接下来是David Marr,他在1970年的Vision一书中提出了另一个可以称之为深度学习基石的理论:视觉是分层的,并且我们可以建立一个分层的模型,将图像分为边缘结构->2.5D结构(因为物体之间是存在遮挡的,但是人类的大脑是可以分辨出来的,而且世界是三维的,但是我们的视觉成像是二维的)->3D结构,这是一个最基础但是也很抽象的视觉认知模型;
而后MIT与斯坦福分别对视觉模型进行研究,并且建立了简单的模型,MIT模型认为一切物体都是由简单的形状组成,例如圆柱体,只是观察角度不同;而斯坦福则认为物体是由简单形状构成,但是形状之间是由弹簧连接起来的;
接下来进入90年代,计算机视觉进入彩色世界,Normalized Cut被提出用来进行图像分割,人类视觉对于图形的分类是很奇特的,而计算机却没有办法做到完美的分组,这也使得感知分组变成视觉领域最为重要的问题,即使到现在也没有得到很好的答案;
接下来计算机视觉跳入了一个新的领域:物体识别领域,1999年的物体识别与2001年的人脸检测是这一领域的两大标志性产物,这一领域也变成目前人工智能主攻的课题;

计算机视觉的崛起

接下来进入20世纪,很多的挑战比赛加速了深度学习的进程,2006-2012年的PASCAL Vsiual Object Challenge 是一个将图片进行20分类任务的挑战,比赛持续的几年分类错误率在持续下降;
到了2009年,IMAGENET挑战横空出世,包含1000种类别的140万张标注图像提供给参赛者进行认知分类,而IMAGENET比赛进行的第三年,也就是2012年,卷积神经网络一举夺魁拿下当年比赛的桂冠,这也就是深度学习理论的开端,并且以后每一年的IMAGENET冠军都是卷积神经网络显示出最好的成绩;
其实早在1998年,LeCun就使用了卷积神经网络来进行了手写字的识别,而2012年冠军的AlexNet几乎是照搬的LeCun的网络,除了激活函数由Sigmoid变成了ReLU,而能够让卷积神经网络能有如此之进化的效果很大一部分程度上要归功于硬件的革新;

计算机视觉而后面临的挑战

计算机视觉所要专注的问题其实远远不止物体识别,对图片进行密集标记,动作识别,识别与3D整合,这些都是深度学习面临的挑战;计算机视觉针对图像,若是可以让计算机进行“看图说话”,或者让计算机理解图片中的深层语义,这些都是计算机视觉可以达到且应该达到的目标;
深度学习有着很好的发展前景,即使目前正是深度学习的“瓶颈期”,可它在图像领域仍然走在各种方法的前列。
转载内容原文链接:https://blog.csdn.net/qweqwrqw/article/details/88751404

深度学习-lecture1李飞飞计算机视觉相关推荐

  1. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 7笔记

    内容列表 Lecture 7 Convolutional Neural Networks 卷积神经网络历史 卷积神经网络具体结构 卷积层 池化层 全连接层 神经网络架构发展 LeNet AlexNet ...

  2. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 1笔记

    前言:目前做深度学习也有一段时间了,系统的知识也学了很多,但是大多数都是自己在网上所获得的零散的知识,最近看了李飞飞的斯坦福网上公开课,觉得可以好好的巩固一下基础,对每个Lecture做一下笔记,De ...

  3. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 5笔记

    内容列表 Lecture 5 Training Neural Networks,Part I 神经网络的历史 训练神经网络 激活函数 数据预处理 权重初始化 批量归一化 检查学习过程 超参数优化 小结 ...

  4. 李飞飞计算机视觉-自用笔记(第八周)

    李飞飞计算机视觉-自用笔记(八) 15 深度学习高效方法与硬件 15 深度学习高效方法与硬件 庞大模型的三大挑战: 大小.速度.能源效率 解决方法: 1.算法优化: 剪枝(pruning):并非神经网 ...

  5. 李飞飞计算机视觉-自用笔记(第一周)

    李飞飞计算机视觉-自用笔记(一) 1 课程介绍-计算机视觉概述 1.1 课程介绍-历史背景 2 图像分类 2.1 数据-驱动方法(机器学习) 2.2 K最近邻算法 2.3 线性分类I 3 损失函数和优 ...

  6. 李飞飞计算机视觉笔记(2)--线性分类器损失函数与最优化

    文章中的词语解释: 分类器:完整的神经网络 类别分类器:分类器中的某一个输出对应的所有权值(单层全连接神经网络) 损失函数:不包括正则式的损失函数 正则化损失函数:包括正则式的损失函数 多类SVM损失 ...

  7. 关于深度学习、NLP和计算机视觉的30个顶级Python库

    双语原文链接:Top Python Libraries for Deep Learning, Natural Language Processing & Computer Vision 请注意 ...

  8. 为什么深度学习几乎成了计算机视觉研究的标配?

    本次CVPR 2016上,深度学习几乎成了如今计算机视觉研究的标配,人脸识别.图像识别.视频识别.行人检测.大规模场景识别的相关论文里都用到了深度学习的方法,加上Google,Facebook这样的大 ...

  9. ​关于深度学习、NLP和计算机视觉的30个顶级Python库

    正文字数:2214  阅读时长:3分钟 再次感谢艾哈迈德·阿尼斯(Ahmed Anis)为收集这些数据做出的贡献,并感谢KDnuggets的其他工作人员的意见,见解和建议. 作者 / Matthew ...

  10. 深度学习之于传统计算机视觉

    深度学习之于传统计算机视觉

最新文章

  1. 没有与参数列表匹配的 重载函数 getline 实例_面试题:方法重载的底层原理?...
  2. 怎么把两个不同的属性值进行比较_DDD实战与进阶 值对象
  3. 60分钟正则从入门到深入
  4. 给Jquery添加alert,prompt方法,类似系统的Alert,Prompt,可以响应键盘,支持拖动...
  5. 【AR实验室】OpenGL ES绘制相机(OpenGL ES 1.0版本)
  6. jquery.ajax上传个数限制,关于jquery ajax上传的坑
  7. find vba 模糊_VBA积木代码方案:实现多重查找、模糊查找、清除值
  8. idea maven web工程明明添加了maven lib的依赖,但启动web容器时始终报No Class Found?...
  9. hive分区用2个字段有何限制_[特性]Hive动态分区功能使用
  10. 在英雄联盟地图中寻找“数据结构的大门”
  11. (计算圓柱体的体积)编写程序,读入圆柱体的半径和高,并使用下列公式计算圆柱的体积
  12. lob移表空间 oracle_关于oracle带lob对象的分区表,移动表空间的问题
  13. python实现排列组合
  14. phalapi-进阶篇6(解决大量数据存储数据库分表分库拓展)
  15. 神秘美女接机刘谦 网友见证奇迹时刻:女子像舒淇
  16. iTEST平台成绩查询代码
  17. 秘猿发布企业级开源区块链产品CITA
  18. IDEA部署项目到tomcat运行成功但是页面404的两种原因
  19. WinRAR(5.70)去广告
  20. 机器学习 数据挖掘 统计学 深度学习

热门文章

  1. 微信小程序-TabBar用法
  2. 内存颗粒位宽和容量_高手进阶,终极内存技术指南(1)
  3. 服务器上运行python
  4. mbedtls | 03 - 单向散列算法的配置与使用(MD5、SHA1、SHA256、SHA512)
  5. 使用谷歌浏览器chrome截取长图
  6. MySql -- 数据库备份工具xtrabackup
  7. PS中如何简单、快速更换照片的背景色
  8. python语言是不是多模型语言_Python模型转换为Modelica模型的方法与流程
  9. 多序列比对要多久时间_序列比对,几个常用的多序列比对软件
  10. 闭环整流电路matlab仿真,分享:基于双闭环的单相整流器原理简介及仿真验证