人类渴望知识。我们可以从人类对于感知喜爱看出这一点来。即使感知有时候并不一定有什么直接功利的效用,我们还是发自内心的喜欢它们 —— 特别是我们的视觉。对于人来说,能看见比什么都重要,除了视觉能让我们行动这一点之外,即使我们坐在那动也不动,我们也需要看见。为什么视觉相比其他感知能力如此重要?因为视觉告诉我们关于物体的知识以及如何区分它们的不同。

— 亚里士多德

1.1 由2D图像到3D模型

对于灵长类动物而言,视觉非常重要。

为什么让计算机“看见”是一件困难的事情?

首先,让计算机看见并不简简单单给它接上一个相机就结束了,这一点现在早就是一件容易的事情,摄像头可以将图像一帧一帧的传送给计算机,类似人眼视网膜做的事情。

一张图像,仅仅是一大堆像素点,每个像素点都有一个正整数值表示。那么问题来了,我们如何“解释”这些像素值呢?我们如何知道这是一个苹果还是梨或是一棵树?对于人来说,改变视角或者光照环境,我们都可以大多数情况下非常轻易的辨别我们眼前的物体。

广义的讲,视觉系统就是一组设备,这组设备将收集到的光照信息转换成有关场景的空间和材料性质的信息。

在这组设备当中,我们可能需要能够感知光照的设备,比如相机或是视网膜,同时我们还要有计算设备,也就是计算机或者我们的大脑,计算设备帮助我们从原始感知信息中抽取抽象信息。

事实上,视觉并不是一件容易的任务,在灵长类动物的大脑中,几乎多大一半的大脑皮层都参与了视觉信息的处理[Felleman and van Essen, 1991]。

为什么计算机视觉很难?

一旦我们知道视觉不仅仅是将图像从相机传到计算机,我们就可以进一步思考是哪些因素影响了视觉测量这一过程。

显然,图像之中的像素依赖于相机前的物体,如果我们改变物体形状,我们也能看到像素值的改变。因此,图像像素依赖于物体的几何构造。但是,像素也同样依赖光度(photometry),它受到光照条件和物体表面物理纹理的影响。并且,如果物体是运动的,它们反应在图像中的像素也会发生变化。

大部分情况下,我们不知道对象的形状,不知道它的材料是什么,不知道它的运动规律。我们的目标是从图像当中,抽取出一些有关世界的表示(representation)。

真实世界的复杂性几乎无限的高于我们通过相机获取的图像的复杂性。因此,在这个意义上,视觉几乎是不可能的任务。我们没有办法直接通过图像还原真实环境,我们只能通过图像建立一个世界的最佳模型,或者叫内部表示(internal representation)。

关于建模,我们需要一些假设帮助我们简化问题,一些对于环境的位置属性的猜测,以便推知其他信息。这些并没有一个通用的正确或者错误准则,建模本身就是工程的艺术,它依赖于你所面对的任务是什么。举个例子,采用什么环境模型取决于你是否想在环境中移动,还是说你是否希望对其进行可视化,又或者说你是否想要识别出物体和材料是什么。在每一个具体的应用场景中,我们都会关心一些性质而对其他一些予以忽略。比如,如果我们打算在环境当中导航,我们更加关心障碍物的形状和运动,而对它们的组成材料和光照信息不是很关心。

为什么要研究计算机视觉?

你可以想象一下一整天你都无法用眼睛看,你肯定几乎什么都做不了。人工视觉有可能能够使人类免于危险、单调乏味、无聊(例如长时间开车)、水下探测、发现一栋建筑物当中的闯入者,事实上人工视觉还可以被用于放大和增强人类固有能力,恢复人类失去的能力。

本书旨在帮助读者建立起3D视觉所需的几何原理,为在机器视觉领域进行理论和实践探索打下坚实的基础。

本书的内容范围

计算机视觉无疑是非常重要的,但是本书中我们不打算对计算机视觉的所有领域进行探讨,本书专注于多视图的几何问题。

本书不探讨单个图像的感知问题,我们专注于多个图像之间的运动线索的研究。

本书主要研究的场景是那些包含若干运动刚体,且刚体的光度性质良好。什么叫做光度性质良好,后面第3章和第4章会加以说明,我们现在其实就可以说非透明或者反射性质的材料就是光度性质良好。

给定一组2D图像,本书试图对以下问题给出答案:(1)我们如何去预测对象的3维形状,并且可以预测到何种程度?(2)我们如何恢复物体相对于相机的运动?(3)我们如何恢复相机的几何模型?

传统意义上,这些问题都是多视图几何的问题。本书介绍的算法就是用于解决这些问题的,预测3D结构,运动以及相机标定。在这个意义上,本书讲述的内容就是从2D图像到3D场景几何模型。

1.2 数学方法

从2D图像推理出3D信息的问题数学上称为逆问题。这些问题往往是病态的,除非有额外的假设,否则很难完全解决。

然而,一般来说,选择一个正确的数学模型是不那么容易的,简单的表达可以通过几何元素,如点,线,曲线,曲面和体积完成。这些几何元素都是构建在欧式空间中,所以对于欧式几何的研究和群变换的研究将在本书中得到展现。本书还将研究一个经典的主题——透视投影,并将用理想模型对其进行描述。同时,透视投影和矩阵群的结合将是多视图几何的核心主题,多视图几何研究的是运动恢复结构的几何原理。

简言之,与几何特征(点、线或平面)相关联的多视图矩阵正是在特征的单个二维图像中丢失但在多个图像中能够得到编码的三维信息。因此,秩条件施加了所有图像必须对应于相同三维特征的关联关系。如果三维空间中存在多个特征,且这些特征之间存在关联关系(如交集),则秩条件也可以统一考虑这些特征。这个简单的理论本质上使我们能够对多幅图像进行全局几何分析,并系统地描述退化的构型,而不必将图像序列分成成对或三个视图。这样一个统一的全局处理允许我们利用所有的几何约束,这些约束同时控制所有图像中的所有特征和所有关联关系,以便从多个视图中一致地恢复运动和结构(第9章)。在第十章中,我们展示了这个理论如何自然地将透视投影与三维空间的性质联系起来,这些性质在对称群下是不变的,这使得我们可以利用许多人造物体和自然物体的对称性质。

1.3 历史

对图像形成(如针孔成像现象)的初步理解存在于世界各地的古代文明中。然而,有关投影(以及刚体运动)概念的第一个数学公式是公元前4世纪亚历山大的欧几里德提出的。布鲁内莱斯基和利昂·巴蒂斯塔·阿尔贝蒂在绘画和建筑的背景下研究了透视,阿尔贝蒂写了第一篇关于透视定律的一般性论文,在1435年,透视投影对一种“新的”非希腊式的几何学方法的发明做出了很大的贡献,法国数学家吉拉德·德萨尔格称之为投影几何学,因为他在1648年发表的著名的“透视定理”,射影几何学后来被重新发明,并在18世纪和19世纪初受到另一位法国数学家加斯帕德·蒙格的学生的欢迎。然而,这一理论后来受到了费利克斯·克莱因1872年著名的厄兰根项目的挑战,该项目基本上为现代几何学在群论方面建立了一个更加民主但统一的平台。

第一个和多视图几何直接相关的工作是德国数学家Kruppa在1913年的一篇论文。他证明了五个点的两个视图足以确定视图之间的相对变换和点的三维位置,直到有限多个解。Kruppa的证明是在传统的射影几何设定下完成的。

这本书将直接在多视图几何的原始设定基础上,使它成为一个独立的主题。因此,大多数已有的结果和算法将在我们的框架中重新制定和简化。即使是两个视图之间的经典的极线约束最终也将以不同的形式表达,使其更符合多个图像中存在的其他约束(第8章)。这种方法不仅可以用很少的开销完成在多个视图中搜索所有内在约束的任务,而且最终以一种统一的形式呈现它们,这对于几何洞察和算法开发来说是更加容易的(见第9章)。我们相信这样的调整对于发展一个理论和算法框架是必要的和适当的,该框架适用于研究具有多种特征(不同类型)、多种关联关系和多种场景假设的多幅图像。

参考文献

[1] Yi Ma, Stefano Soatto, Jana Kosecka, S. Shankar Sastry. An Invitation to 3D Vision.

硬核3-D视觉 - 三维视觉简介相关推荐

  1. 揭秘三维视觉之结构光原理

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 知乎作者David LEE 本文的目的就是对结构光(Structu ...

  2. 旷视三维视觉Workshop | 3D组组长与你畅聊三维技术新动态

    在张祥雨博士与各位同学 畅聊Model设计的新视角 以及高产论文的独家秘籍后 为满足广大同学的需求 我们将在这个暑期大量放送不同主题的 线下Workshop! 为你缓解CV焦虑感,斩获CV幸福感! 本 ...

  3. ppt 胡事民 计算机图形学_从相机标定到SLAM,极简三维视觉六小时课程视频(附PPT)...

    谭平教授是加拿大西蒙弗雷泽大学副教授.不久前他与浙江大学合作了一系列三维视觉课程,内容涵盖相机标定.多视几何等多个方面.机器之心简要介绍了该系列课程,希望能够对读者学习三维视觉技术有所帮助. 课程内容 ...

  4. 港中深、华为联合培养,韩晓光课题组招收三维视觉数字人方向博士生

    来源:机器之心 学校简介 香港中文大学(深圳)以创建一所立足中国.面向世界的一流研究型大学为己任,办学特色是国际化的氛围.中英并重的教学环境.书院制传统.通识教育.新型交叉学科设置和以学生为本的育人理 ...

  5. 机器人三维视觉技术及其在智能制造中的应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 摘要:三维视觉技术是智能机器人的一个热点研究方向,它是智能机器人进 ...

  6. 盘一盘 | 30+三维视觉与自动驾驶数据集你都知道吗?

    编辑 | 深蓝前沿教育 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[多传感器融合]技术交流群 后台回复[数据集下载]获取Nusce ...

  7. 三维视觉惯性SLAM的有效Schmidt-EKF

    三维视觉惯性SLAM的有效Schmidt-EKF An Efficient Schmidt-EKF for 3D Visual-Inertial SLAM 论文地址: http://openaccess ...

  8. 机器人视觉三维成像技术全解析

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在工业4.0时代,国家智能制造高速发展,传统的编程来执行某一动作的 ...

  9. 第一届中国三维视觉大会China3DV论文展示

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 " 6月11日至13日,第一届中国三维视觉大会(China3DV 2021)在厦门召开.大会 ...

  10. CVPR 2021|三维视觉相关论文汇总

    作者丨Tom Hardy@知乎 来源丨https://zhuanlan.zhihu.com/p/355149511 编辑丨3D视觉工坊 1.GDR-Net: Geometry-Guided Direc ...

最新文章

  1. ruby gems列表
  2. BB84和B92协议
  3. 【c语言】蓝桥杯2020校内模拟赛c组
  4. Expanded, SingleChildScrollView, CustomScrollView, container, height, width
  5. 我的计算机书籍创作心得
  6. 210129阶段三调试、进程间通信-共享内存
  7. ABAP git客户端的简单介绍
  8. 成长的道路上,我很幸运
  9. 实用教程丨官方下载Oracle各版本安装软件及补丁包
  10. Google Chrome Frame 自定义渲染方式,调用ActiveX
  11. 《Linux设备驱动开发详解(第3版)》(即《Linux设备驱动开发详解:基于最新的Linux 4.0内核》)前言
  12. 判断一个数是否为质数(素数)的4种方法
  13. pixel 3 Top Shot
  14. arduino定时器控制舵机_用 Arduino 控制舵机
  15. linux cp omitting 复制,Linux中复制目录报错cp:omitting directory的解决办法
  16. 【LVGL(6)】显示中文设置,制作中文字库
  17. Redis 如何实现库存扣减操作和防止被超卖?
  18. 一篇文章彻底弄懂零拷贝底层原理
  19. 十万行业质变正当时:华为云解出了一道产业AI公式
  20. html代码在线压缩成一行,HTML压缩 - Hito's Blog

热门文章

  1. 用低维向高维“穿梭”的想法来理解高维空间
  2. android 声音同步 测试,基于FFmpeg和Android的音视频同步播放实现
  3. vue 嵌套表格组件_vue+element-ui实现嵌套表格导出
  4. 如何玩转淘宝直通车?提高转化率?
  5. c语言 函数拟合,曲线拟合成Y=a*(X^b)+c*(X^d)函数 - 数学 - 小木虫 - 学术 科研 互动社区...
  6. 这一刻我學會了堅強、給我一雙翅膀,我会向天空去翱翔。
  7. vue项目使用 Recorder.js 实现录音功能
  8. 谢烟客---------Linux之文件系统管理挂载
  9. 项目经理的工作就是胡搅蛮缠满地打滚
  10. 创业公司有哪些把服务器放在阿里云?有什么缺点?