摘要 ：透视投影是3D渲染的基本概念，也是3D程序设计的基础。掌握透视投影的原理对于深入理解其他3D渲染管线具有重要作用。本文详细介绍了透视投影的原理和算法实现，包括透视投影的标准模型、一般模型和屏幕坐标变换等，并通过VC实现了一个演示程序。

本文主体来自于： http://blog.csdn.net/wong_judy/article/details/6283019 及https://www.cnblogs.com/graphics/archive/2012/07/25/2582119.html。

投影概述

为了在显示器上显示场景中的三维物体，需要把三维物体投影到二维观察平面上。这种从三维图形到二维图形的变换称为投影变换(Projections)。投影的更抽象和精确点的数学定义是：将n维空间中定义的点变换到小于n维空间中的变换

具体点可以这么理解，投影变换完成的是如何将三维模型显示到二维视口（view port）上，这是一个三维到二维的过程。你可以将投影变换看作是调整照相机的焦距，它模拟了为照相机选择镜头的过程。投影变换是所有变换中最复杂的一个。

3D图形学中，将观察点称为投影中心。

3D图形学中，有两种基本的投影方式，即平行投影和透视投影。在平行投影中,图形沿平行线变换到投影面上；对透视投影,图形沿收敛于某一点的直线变换到投影面上,此点称为投影中心,相当于观察点,也称为视点.平行投影保持物体的有关比例不变,这是三维绘图中产生比例图画的方法.物体的各个面的精确视图可以由平行投影得到.
另一方面,透视投影不保持相关比例,但能够生成真实感视图.对同样大小的物体,离投影面较远的物体比离投影面较近物体的投影图象要小,产生近大远小的效果

透视投影的原理

基本的透视投影模型由视点E和视平面P两部分构成（要求E不在平面P上）。视点可以认为是观察者的位置，也是观察三维世界的角度。视平面就是渲染三维对象透视图的二维平面。如图1所示。对于世界中的任一点X，构造一条起点为E并经过X点的射线R，R与平面P的交点Xp即是X点的透视投影结果。三维世界的物体可以看作是由点集合 { Xi} 构成的，这样依次构造起点为E，并经过点Xi的射线Ri，这些射线与视平面P的交点集合便是三维世界在当前视点的透视图，如图2所示。

图1 透视投影的基本模型^[2]

图2 透视图成像原理^[6]

基本透视投影模型对视点E的位置和视平面P的大小都没有限制，只要视点不在视平面上即可。P无限大只适用于理论分析，实际情况总是限定P为一定大小的矩形平面，透视结果位于P之外的透视结果将被裁减。可以想象视平面为透明的玻璃窗，视点为玻璃窗前的观察者，观察者透过玻璃窗看到的外部世界，便等同于外部世界在玻璃窗上的透视投影（总感觉不是很恰当，但想不出更好的比喻了）。

当限定P的大小后，视点E的可视区间（或叫视景体）退化为一棱椎体，如图3所示。该棱椎体仍然是一个无限区域，其中视点E为棱椎体的顶点，视平面P为棱椎体的横截面。实际应用中，往往取位于两个横截面中间的棱台为可视区域（如图4所示），完全位于棱台之外的物体将被剔除，位于棱台边界的物体将被裁减。该棱台也被称为视椎体，它是计算机图形学中经常用到的一个投影模型。

图3 有限视平面的可视区间^[3]

图4 透视投影的视椎体模型^[3]

视锥体是一个三维体，他的位置和摄像机相关，视锥体的形状决定了模型如何从camera space投影到屏幕上。最常见的投影类型-透视投影，使得离摄像机近的物体投影后较大，而离摄像机较远的物体投影后较小。透视投影使用棱锥作为视锥体，摄像机位于棱锥的椎顶。该棱锥被前后两个平面截断，形成一个棱台，叫做View Frustum，只有位于Frustum内部的模型才是可见的。

透视投影的标准模型

设视点E位于原点，视平面P垂直于Z轴，且四边分别平行于x轴和y轴，如图5所示，我们将该模型称为透视投影的标准模型，其中视椎体的近截面离视点的距离为n，远截面离视点的距离为f，且一般取近截面为视平面。下面推导透视投影标准模型的变换方程。

图5 透视投影的标准模型^[4]

设位于视椎体内的任意一点X (x, y, z) 在视平面的透视投影为Xp (xp, yp, zp)，从点X和Xp做z轴的垂线，并分别在X-Z平面和Y-Z平面投影，图6是在X-Z平面上的投影结果。

图6 透视投影的相似三角形^[6]

根据三角形相似原理，可得：

xp/n = x/z, yp/n = y/z

解上式得：

xp = x*n/z, yp = y*n/z, zp = n.

上式便是透视投影的变换公式，非常简单，不是吗？需要说明的是，由于透视点始终位于视平面，所以zp恒等于n，实际计算的时候可以不考虑zp。另外还可以从照相机模型来考虑透视投影。将视点E想象为一个虚拟的照相机，视平面想象为胶片，那么图5 也是一个标准的照相机模型。

PS：上述讨论都是基于矩形视平面来考虑的，其实我们可以取视平面为任意形状，比如圆形，此时视景体变为一个圆锥体，当然现在好像还没有圆形的显示装置。另外，我还曾考虑将视平面取为凹面或凸面，此时的投影结果应该是哈哈镜效果吧（纯属想象，没有验证）。还可以想象将视平面放在E的另外一面，这时的投影图像是倒置的，但是不是更接近人的视觉成像模型？另外还可以考虑有两个甚至更多视点的透视投影，总之充分发挥你的相像，或许能得到意想不到的结果。

透视投影的一般模型

令世界坐标系的x轴指向屏幕的右方，y轴指向屏幕的上方，z轴指向屏幕外（右手坐标系）。我们在讨论标准模型的时候，曾假设E的坐标为原点，其实视点E除了有位置属性外，还有姿态属性，通常用[L U D]表示（D3D中用的是[R U D]表示），其中L表示视点的左向（Left），U表示上方（Up），D表示朝向（Direction）。在标准模型中，有L=[-1,0,0]^T , U=[0,1,0]^T , D=[0,0,-1]^T 。

透视投影的一般模型研究视点E在任意位置，任意姿态下透视图的生成算法。思路很简单，先将一般模型变换为标准模型，然后使用标准模型的透视投影公式便能计算透视结果。下面研究一般模型变换为标准模型的数学公式。

设一般模型中的点X，其对应在标准模型中的点为Y，那么当视点位于E，姿态为R时，X和Y有如下关系：

X = E+RY

反过来有：

Y = R^-1 (X-E)

通常取R为正交阵，即R^-1 =R^T ，故有

Y = R^T (X-E)

把上式改写成齐次矩阵（Homogeneous matrix ）的形式有：

式中H_view 便是透视投影从一般模型到标准模型的变换矩阵。

转换为屏幕坐标

对于透视投影的标准模型，视平面的坐标模型如图 7 所示，它的坐标原点位于视平面的中心， x 轴正向水平向右， y 轴正向垂直向上。要把透视投影的结果在计算机屏幕上显示的话，需要对透视图进行坐标变换，将其从视平面坐标系转换到屏幕坐标系。

图7 视平面坐标模型

计算机屏幕的坐标模型如图 8 所示，它的原点位于屏幕的坐上角， y 轴正向垂直向下。设视平面的宽度为 Wp ，高度为 Hp ；屏幕的宽度为 Ws ，高度为 Hs 。

图8 屏幕坐标模型^[5]

令视平面坐标系中的点（ xp, yp ）对应于屏幕坐标系中的点（ xs, ys ），它们的变换关系如下：

xs = a*xp + b;

ys = c*yp + d

由图 7 和图 8 可知，视平面中的（ 0, 0 ）点对应于屏幕坐标系中的中心点（ 0.5*Ws-0.5, 0.5*Hs-0.5 ）（ PS ：由于屏幕坐标系是离散坐标系，所有屏幕右下点的坐标为（ Ws-1, Hs-1 ），而不是（ Ws, Hs ））；另外，视平面的（ -0.5*Wp, -0.5*Hp ）对应于屏幕的（ 0, 0 ）点。将上述两种取值代入变换方程可以得出：

上式便为视平面坐标系到屏幕坐标系的变换方程。

透视投影的实现

6.1 载入3D模型

使用Matt Fairfax实现的Model_3DS类支持3DS模型文件的载入，该类的实现非常简单，而且很容易使用，具体可参考[7]。由于本文的DEMO只需要其中的模型载入功能，所以对源代码进行了删减，去掉了纹理加载（暂不需要）和渲染（我们自己实现）代码，在析构函数中添加了资源释放代码。

6.2 视图变换

为表示透视投影的一般模型，实现了KCamera类，除保存视点的位置和姿态，还保存视图变换矩阵m_kmView，随着视点位置和姿态的变化，视图矩阵也不断更新，更新算法详见第4节。对于世界坐标系中的任何一点v(x, y, z)，通过v = m_kmView*v将其变换到透视投影的标准模型坐标系，详见KCamera::Transform函数。

6.3 透视变换

KFrustum类用来对透视投影的标准模型进行建模，其成员包括视平面的尺寸大小，以及近截面和远截面的z轴坐标。KFrustum通过Project函数将视图变换的结果变换为透视坐标。算法的原理见第3节，代码实现如下：

void KFrustum::Project(KVector3& v)

{

// xp = x*n/z, yp = y*n/z, zp = n.

float fFactor = GetNear()/v.z;

v.x *= fFactor;

v.y *= fFactor;

v.z = GetNear();

}

6.4 屏幕变换

屏幕变换的算法通过宏实现，代码如下：

#define ToScreen(v, Ws, Hs) /

float x = (v.x/GetWidth()+0.5f)*(Ws-1);/

float y = (v.y/GetHeight()+0.5f)*(Hs-1);/

v.x = KMath::Round(x);/

v.y = KMath::Round(y);/

}

6.5 渲染

Demo中的渲染使用软件实现，没有使用任何第三方图形库，主代码在KCamera::Render函数中，它接收两次参数：Model_3DS和KSurface，对Model_3DS中的顶点进行透视投影，然后将结果绘制到Ksurface中。函数代码如下：

bool KCamera::Render(Model_3DS& m3DS, KSurface& kSurface)

{

kSurface.Fill(RGB(0,0,0)); // 背景为黑色

COLORREF crPen = RGB(255,0,0); // 用红色绘制模型

KMatrix4 m = m_kmView;

int Ws = kSurface.GetWidth();

int Hs = kSurface.GetHeight();

for(int i=0; i<m3DS.numObjects; i++)

{

Model_3DS::Object& obj = m3DS.Objects[i];

for(int n=0; n<obj.numFaces; n+=3)

{

int index = obj.Faces[n]*3;

KVector4 v0(obj.Vertexes[index], obj.Vertexes[index+1], obj.Vertexes[index+2]);

index = obj.Faces[n+1]*3;

KVector4 v1(obj.Vertexes[index], obj.Vertexes[index+1], obj.Vertexes[index+2]);

index = obj.Faces[n+2]*3;

KVector4 v2(obj.Vertexes[index], obj.Vertexes[index+1], obj.Vertexes[index+2]);

Transform(v0, Ws, Hs);

Transform(v1, Ws, Hs);

Transform(v2, Ws, Hs);

// 绘制网线

kSurface.MoveTo(v0.x, v0.y);

kSurface.LineTo(v1.x, v1.y, crPen);

kSurface.LineTo(v2.x, v2.y, crPen);

kSurface.LineTo(v0.x, v0.y, crPen);

}

return true;

}

6.6 Demo和效果图

Demo程序使用VC6实现，工程源代码可以在我的下载空间下载。工程代码中包含一个国际象棋的3ds模型文件chess.3ds，该模型在Demo的渲染结果如图9所示。

图9 Demo程序渲染结果

Understanding 3D Projections（理解3D投影）相关推荐

基于全局场景背景图和关系优化的全景3D场景理解（ICCV 2021）
DeepPanoContext: 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021) 论文标题:DeepPanoContext: Panoramic 3D Scene Underst ...
AI系统能否理解3D现实世界？Facebook做了这些研究
2019-12-31 10:12:51 选自Facebook AI 作者:Georgia Gkioxari.Shubham Tulsiani.David Novotny 参与:魔王 Facebook ...
点云深度学习的3D场景理解
转载请注明本文链接: https://www.cnblogs.com/Libo-Master/p/9759130.html PointNet: Deep Learning on Point Sets ...
继Facebook开源PyTorch3D后，谷歌开源TensorFlow 3D场景理解库
来源:机器之心本文约2000字,建议阅读5分钟谷歌于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D. 继 2020 年初 Facebook 开源基于 PyTorch ...
3D中的相机 - 投影矩阵和视图矩阵
3D中的相机 - 投影矩阵和视图矩阵 3d游戏中,一般通过相机的设置来计算投影矩阵和视图矩阵,比如untiy和cocos,一般情况下我们不用关注如何计算, 可以直接在可视化的编辑器中调整参数就可以了, ...
重磅！谷歌开源TensorFlow 3D场景理解库
来源丨机器之心编辑丨杜伟.陈萍继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后,谷歌也于近日开源了一个基于 TF 框架的高度模块化和 ...
继 Facebook 开源 PyTorch3D 后，谷歌开源 TensorFlow 3D 场景理解库
转自:机器之心 [导语]:继 2020 年初 Facebook 开源基于 PyTorch 的 3D 计算机视觉库 PyTorch3D 之后,谷歌也于近日开源了一个基于 TF 框架的高度模块化和高效处理 ...
如何理解3D动画中的欧拉角以及死锁？
3D游戏或者3D电影中,比如黑客帝国中酷炫的旋转是怎么实现的? 旋转的算法有很多,这里主要介绍其中一种:欧拉角. 1 欧拉角 1.1 欧拉角的算法思想是什么陌生的你来到了成都,站在盐市口茫然四顾,想 ...
理解3d卷积conv3d
理解3d卷积我的个人理解我的个人理解作分类时,对于不同类别的数据,无论是使用什么方法和分类器(仅限于线性回归和深度学习)去拟合数据,都首先要构建适合数据的多种特征(比如根据性别.年龄.身高来区分 ...
OpenCV中的姿势估计及3D效果（3D坐标轴，3D立方体）绘制
OpenCV中的姿势估计及3D效果(3D坐标轴,3D立方体)绘制 1. 效果图 2. 原理 3. 源码 3.1 姿态估计后绘制3D坐标轴 3.2 姿态估计后绘制立方体参考这篇博客将延续上一篇博客: ...

Understanding 3D Projections（理解3D投影）