人脑是怎样认知图像的?——视觉计算理论(最新模式识别之一,Marr)
从七十年代以来,随着认知心理学自身的发展,认知心理学关于模式识别的研究在取向上出现了某些重要的变化。一些认知心理学家继续在物理符号系统假设的基础上进行研究,探讨计算机和人的识别模式的特点;而另一些认知心理学家则转向用神经网络的思想来研究识别模式的问题。下面介绍的一些模型是近十多年来有重要影响的理论模型。 视觉计算理论(computational theory of vision)是在20世纪70年代由马尔(David Marr)提出的。1982发表代表作《视觉计算理论》。 马尔认为,视觉就是要对外部世界的图像(iamge)构成有效的符号描述,它的核心问题是要从图像的结构推导出外部世界的结构。视觉从图像开始,经过一系列的处理和转换,最后达到对外部现实世界的认识。 三个重要概念: 表征(representation):指能把某些客体或几类信息表达清楚的一种形式化系统,以及说明该系统如何行使其职能的若干规则。使用某一表征描述某一实体所得的结果,就是该实体在这种表征下的一个描述。 处理(process):是指某种操作,它促使事物的转换。视觉从接收图像到认识一个在空间内排列的、完整的物体,需要经过一系列的表征阶段。从一种表征转换为另一种表征,必须借助于某些处理过程。 零交叉(zero crossing)代表明暗度的不连续变化或突然变化,是形成物体轮廓的基础。对零交叉的检测就是视觉系统对二维表面轮廓或边界的检测。 人和机器的最终目的:了解一个场景或一个图像的意义。马尔把视觉图像的形成划分为三个阶段。阶段如下: ⑴二维基素图(2-D sketch):视觉过程的第一阶段,由输入图像而获得基素图。视觉的这一阶段也称为早期视觉。所谓基素图主要指图像中强度变化剧烈处的位置及其几何分布和组织结构,其中用到的基元包括斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等。这些基元都是在检测零交叉的基础上产生的。 这一阶段的目的在于把原始二维图像中的重要信息更清楚地表示出来。 ⑵ 2.5维要素图:视觉过程的第二阶段,通过符号处理,将线条、点和斑点以不同的方式组织起来而获得2.5维图。视觉过程的这一阶段也称为中期视觉。所谓2.5维图指的是在以观察者为中心的坐标系中,可见表面的法线方向、大致的深度以及它们的不连续轮廓等,其中用到的基元包括可见表面上各点的法线方向、和各点离观察者的距离(深度)、深度上的不连续点、表面法线方向上的不连续点等等。由于2.5维图中包含了深度的信息,因而比二维要多,但还不是真正的三维表示,所以得名2.5维图。 视觉的这一阶段,按马尔的理论,是由一系列相对独立的处理模块组成的。这些处理模块包括:体现、运动、由表面明暗恢复形状、由表面轮廓线恢复形状、由表面纹理恢复形状等。它的作用是揭示一个图像的表面特征。马尔声称,早期视觉加工的目标就是要建立一个2.5维的要素图,这是把一个表面解释为一个特定的物体或一组物体之前的最后一步。 ⑶三维模型表征(3-D model representation):视觉过程的第三阶段,由输入图像、基素图、2.5维图而获得物体的三维表示。视觉过程的这一阶段,也称为后期视觉。所谓物体的三维表示指的是在以物体为中心的坐标系中,用含有体积基元(即表示形状所占体积的基元)和面积基元的模块化分层次表象,描述形状和形状的空间组织形式,其表征包括容积、大小和形状。 当三维模型表征建立起来时,其最终结果是对我们能够区别的物体的一种独特的描述。 评论: ⑴马尔的视觉理论把视觉研究从描述水平提高到数理科学的严密水平,因而它一出现就深受神经科学家、人工智能专家和认知心理学家的推崇。 ⑵批评:马尔对视觉的解释主要集中在视觉加工的早期阶段;除要素图以外,他设想的各种表征还没有得到神经生理学的证明。他把知识的作用限制在视觉加工的晚期阶段,也引起一些人的怀疑。还有人认为,知觉开始于大范围拓扑性质的提取,而不是对个别特征的分析。人的视觉系统的功能具有拓扑性,它注重整体性质而忽略局部性质,因而对视觉的计算性质提出了尖锐的挑战。 |
人脑是怎样认知图像的?——视觉计算理论(最新模式识别之一,Marr)相关推荐
- 《视觉计算理论》阅读笔记——第一章
注:<视觉计算理论>翻译自Marr的<Vision> Vison: A computational investigation into the human represent ...
- 人脑是怎样认知图像的?——十种模式识别认知理论简介导引
在许多科幻电影中都会看到,机器人健步如飞,寻找和发现敌人,比我们人类看的远.看的准,力大无比,智慧超群,总是在最危险的时候挽救人类.其实,这些目前还仅仅是科幻,在现实世界中办不到.原因之一就是我们还不 ...
- 视觉计算理论简介【转】
一:视觉计算理论与算法研究( 由×××自动化研究所马颂德等完成) "视觉计算理论与算法研究"的目标主要是研究计算机视觉,以使计算机具有通过二维图像感知三维环境信息的能力,包括感知. ...
- Marr的视觉计算理论
Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学.神经生理学.临床神经病理学等方面已取得的所有重要成果,是迄今为止最为系统的视觉理论.Marr 的视觉计算理论虽然在细节甚至在主导思想方面 ...
- 人类视觉计算理论经典著作,豆瓣评分9.7,中文版惊鸿面世!
关注公众号,发现CV技术之美 今天给大家介绍一本豆瓣评分高达9.7分.成书于40多年前的神书: Vision:A Computational Investigation into the Human ...
- 赠书啦!人类视觉计算理论经典著作,豆瓣评分9.7,中文版惊鸿面世!
今天给大家介绍一本豆瓣评分高达9.7分.成书于40多年前的神书: Vision:A Computational Investigation into the Human Representation ...
- 视觉计算理论(David Marr)——总导言
首先,向计算神经科学领域先驱David Marr致敬. 1.总导言 如果视觉确实是一个信息处理任务,那么只要我的计算机具有足够强的功能,具有足够大的存储器,而且有办法把它和家用电视摄像机联起来,我们就 ...
- 人脑是怎样认知图像的?——结构描述模式(传统模式识别之五)
结构描述模式一般用图来表示,图的节点表示图像某一部分或某一特性,图的节点之间用有向线段相联,说明图像各部分或各特性之间的关系. 图像特征可以是亮度.颜色.纹理.大小.取向.形状等等,特征的描述可以是文 ...
- 让机器“看山是山”:脑启发的视觉计算|VALSE2018之五
编者按:人生之三境界的第一层,"看山是山,看水是水",本质上展示了人"看见"的过程,以及思绪与理解在这一过程中所起的作用. "看见",对于人 ...
最新文章
- IPv6协议简介及与IPv4对比
- 水晶报表使用经验谈1--建立水晶报表第一步及编译最易出现错误的解决方法及报表转换成pdf文档进行打印方法...
- java数据结构博客园_常见数据结构的Java实现
- [crypto][ipsec] 简述ESP协议的sequence number机制
- jenkins插件之Publish Over SSH
- 九度OJ题目1000: A + B(数学)
- 编码规范 SonarQube检测出的bug、漏洞以及异味的修复整理
- 999999数码管显示c语言,定时器1中断动态刷新从999999~0倒计时,数码管只显示有效位的C语言程序怎么编?...
- PTA:7-120 新浪微博热门话题 (30分)--(map方法,加解析)
- win10,ubuntu18.04系统下图像识别YOLOv5菠萝_附菠萝数据集图片标签
- Unity Shader Color、HSV、HDRColor以及HDRColor面板转换源码分析
- WORD2003无法打开WORD2000文档解决方法
- 滴滴开源Android插件框架
- java生成数字字母组合_java生成随机数字和字母组合
- 腾讯云Linux云服务器如何搭建FTP服务?
- echarts的中国地图,点击进入省级地图,按需加载对应的省js,可返回中国地图
- Via浏览器怎么查看网页源码
- oracle的rowid和rownum,【oracle rowid与rownum的使用与区别 】
- 如何用python提取音频
- 面试必备之建造者模式