目录

  • 整体思路:
    • 1、本课题的目的、意义
    • 1. 描述图像
    • 2. 标注图像
    • 3、CNN
  • 3D图像重建中的颜色预测误差研究
  • 摘 要
  • 1 绪 论
    • 1.1背景与意义
    • 1.2 课题研究内容
    • 1.3 3D重建国内外研究现状
    • 1.4 深度学习算法研究现状
      • 1.4.1 应用于自然语言处理
      • 1.4.2 提取立体图像视觉特征
      • 1.4.3 图像颜色特征提取现状研究
      • 1.4.4 深度学习模式
    • 1.4 论文章节安排
  • 2 概率图模型与深度学习基本原理
    • 2.1概率图模型
      • 2.1.1 深度估计的多尺度模型
      • 2.1.2 多尺度CRF
    • 2.2 深度学习理论
      • 2.2.1 深度学习特征
      • 2.2.2 图像二值化
  • 3 研究内容
    • 3.1单目图像估计
    • 3.2 卷积层实现和全连接实现
      • 3.2.1卷积神经网络(CNN)
      • 3.2.2 多孔卷积神经网络
    • 3.3 激活函数层
    • 3.4 数据结构
    • 3.5 3D图像重建算法
      • 3.5.1 迭代重建算法
      • 3.5.2 图像缩放
      • 3.5.3 最邻近元法
      • 3.5.4 双线性内插法
  • 第4章 模拟实现
    • 4.1 仿真模拟步骤
      • 4.1.1问题描述
      • 4.1.2 方案框架
      • 4.1.3方案实现
    • 4.2 颜色误差测试
      • 4.2.1 预测单目图像深度的指标
    • 4.3 结果分析
  • 第5章 总结

整体思路:

1、本课题的目的、意义

3D重建在计算机视觉等领域等一直是一个热门的话题。构建3D不仅可以增强视觉效果,还可以进行3D的追踪。双目或者多目构建3D需要进行相机标定、成本较高。不过大多数监控摄像头是单目的,在不改变现有基础设施下,研究单目图像的3D重建问题,达到3D的追踪的目的。通过深度学习的方法预测单目图像的深度,进而构造出3D图像。预测出深度图像的准确性直接决定了3D图像的精确度。目前, 深度学习预测深度图像有些缺陷。例如,同一个平面上不同像素由于颜色不同,传入神经网络,会计算出不同深度值,引入误差。本设计拟基于卷积神经网络研究颜色预测错误问题。

其实就是深度学习端到端的映射。就是深度神经网络模型为照片等图像的颜色进行标注,最后通过深度学习之后,进行预测。

要解决这个问题,既需要识别图像的颜色,也需要将其中的颜色用像素点(或者是那个rgb)表达出来,并且所表达出的颜色必须以正确的方式表示。这就是计算机视觉和自然语言处理的一个结合啦。从两百个已知图像(本课题都是路和标牌)进行学习。

1. 描述图像

生成图像颜色的点。啊,其实就是卷积神经网络CNN,论文里有,主要就是三个步骤
(1)把数据给它(机器);
(2)等深度学习处理完;
(3)拿到结果。

2. 标注图像

为图像中的特定区域标注像素点。在端到端的神经网络模型之前,生成图像描述的两种主要方法是基于模板的方法和基于图像缩放、双线性内插、最近邻元法修改已有描述的方法。

接着就是用于描述的神经网络模型涉及到特征提取:
特征提取模型就是一种神经网络。给定一张图像,它可以提取出显著的特征,这个课题的话,主要就是提取颜色(也可以称为像素点了)。提取出的特征是该图像的内部表征,机器懂,人不懂。

特征提取的子模型就可以给深度卷积神经网络(CNN)啦。这个网络很神奇,可以在图像描述数据集中的图像上直接训练。

3、CNN

按照CNN学到或者是训练到的东西,去进行反预测,就是给出图片,预测出来的东西看看是否准确,预测出来的有个颜色不怎么正常的那个图,就是靠学习预测出来的。

3D图像重建中的颜色预测误差研究

摘 要

3D重建在计算机视觉等领域一直是一个热门的话题。构建3D不仅可以增强视觉效果,还可以进行3D的追踪。双目或者多目构建3D需要进行相机标定、成本较高。而且市面上上的绝大多数监控摄像头是单目的,单目摄像头需要对目标进行识别,在此基础上才可以进行下一步操作,单目摄像头需要大量数据,并且不断更新和维护,本课题即是不改变现有基础设施下,研究单目图像的3D重建问题,达到3D的追踪。
通过概念图模型的构建和深度学习理论,结合图像二值化和卷积神经网络对图像进行单目图像的深度的预测,基于3D图像迭代重建缩放和最近邻元法以及双线性内插法,构造出3D图像。接着列出仿真模拟步骤,预测出深度图像的准确性,该准确性直接决定了3D图像的精确度。目前,深度学习预测深度图像有些缺陷。例如,同一个平面上不同像素由于颜色不同,传入神经网络,会计算出不同深度值,引起误差。
本设计拟首先对单目图像进行估计,基于特征提取对图像进行标注,将提取的模型交给深度卷积神经网络(CNN)对数据集进行训练,从而对单目图像进行深度获取,采用条件随机场和多尺度卷积神经网络相结合的方法对单目图像进行深度预测,所以,在某种程度上,预测出深度图像的准确性直接决定了3D图像的精确度,通过这种方法,可以减弱颜色预测误差的影响,进而得出更正确的深度图像。

关键词:多尺度卷积神经网络、条件随机场、单目图像。

1 绪 论

1.1背景与意义

3D重建在计算机视觉等领域等一直是一个热门的话题。构建3D不仅可以增强视觉效果,还可以进行3D的追踪。双目或者多目构建3D需要进行相机标定、成本较高。不过大多数监控摄像头是单目的,在不改变现有基础设施下,研究单目图像的3D重建问题,达到3D的追踪的目的。
目前,图像重建算法分为两类。一种是基于Radon变换的解析重建算法,另一种是求解方程的迭代重建算法。从Radon变换以来,解析类重建算法经过几十年的发展,形成了一个精确完整的理论体系。虽然重构速度很快,但是由于对数据完整性的要求较高,所以没有更大范围的发展。迭代重建算法的基本思想是通过由投影数据建立的未知向量代数方程求解来获得未知图像。联合迭代重建技术[1](SART)是主要的算法之一。虽然该算法不需要数据完整性,但是由于它功能的特殊性,所以占用比较大的存储空间,因此,运行时间也会加长。现如今,随着互联网技术的飞速发展,SART算法的优点越来越明显。目前,国内外对于提高三维重建算法的图像质量有着十分重要的意义。
通过深度学习的方法预测单目图像的深度,进而构造出3D图像。预测出深度图像的准确性直接决定了3D图像的精确度。目前,深度学习预测深度图像有些缺陷。例如,同一个平面上不同像素由于颜色不同,传入神经网络,会计算出不同深度值,引入误差。

1.2 课题研究内容

首先通过调研近5年内的文献,其中图像3D重构算法文献和深度学习算法文献,研究学术对图像重构的机制与算法,从中学习先进的方案进行重点分析。
第二步是研究概率图模型中的卷积神经网络,从而预测相邻颜色信息,利用高性能显卡的计算平台结合python或者MATLAB给出仿真结果和代码。本设计拟基于卷积神经网络研究颜色预测错误问题。通过结合条件随机场和多尺度卷积神经网络,进行单目图像深度预测的方法,减弱颜色预测误差的影响,进而得出更正确的深度图像。

1.3 3D重建国内外研究现状

近年来,随着相关理论的成熟,出现了有效的方法、新的模型和新的应用,3D重建也取得了丰硕的成果。深度估计:从单个图像中进行深度提取有三种方法:
(1)手工制作的有限差分法,
(2)基于图形模型的方法,
(3)采用深度网络的方法。
较早的涉及深度预测任务属于第一类。Hoiem等人[31]介绍了照片弹出,这是一种从一张照片中创建基本3D模型的全自动方法[2]。Karsch等人[32]发展深度转移,一种非参数方法,其中输入图像的深度是通过传递多个相似图像的深度,然后应用一些变形和优化程序来重建的。Ladicky[33]描述了语义对象标签与深度特征相结合的好处。
其他作品则利用图形模版的灵活性来重建深度信息。例如,Delage等人[34]提出了一种从室内场景中恢复三维信息的动态贝叶斯框架。引入了一种判别训练的多尺度马尔可夫随机场(MRF),以实现局部特征和全局特征的最优融合。深度估计被视为离散连续CRF中的一个推理问题[3].然而,这些作品并没有采用深度网络。
最近的深度估算方法以CNNs为基础。例如,Eigen等[35]人。提出了一种深度预测的多尺度方法,它包括两个深度网络,一个是基于整个图像的粗略全局预测,另一个是局部重构预测。该方法得到扩展之后,用于处理多个任务(例如语义分割、表面正常估计)。Wang等人介绍了一种用于联合深度估计和语义分割的CNN。所得到的估计是进一步完善的等级通用报告格式,深度CNN和连续CRF的代表性力量被共同开发用于深度预测[4]。然而,提出的方法是基于超像素,并没有利用与多尺度相关的信息。
多尺度CNN对于像素级的预测任务,多尺度信息的组合问题近来引起了广泛的关注。提出了一种深度监督的全卷积神经网络用于边缘检测。跳层网络,从一个初级网络的不同层次导出的特征映射在一个输出层中被共同考虑,其他被认为是多流体系结构的作品,其中多个并行网络在不同规模的输入被融合。为了聚合多尺度的上下文信息,在不同的深层网络模型中也使用了扩展的卷积(例如膨胀或TOU)[3] 。
深度估计的多尺度模型,介绍从单个图像进行深度估计的方法。将深度预测问题形式化。然后,描述了两个变化的多尺度模型,一个是基于级联的CRF和另一个在一个单一的多尺度CRF。展示如何对整个深度网络进行端到端的训练,并介绍一种新的CNN实现,用于连续CRF中的均值场迭代。

1.4 深度学习算法研究现状

1.4.1 应用于自然语言处理

卷积神经网络的深度学习算法有着广泛的应用,特别是在自然语言处理领域中,主要体现在实体识别、语义角色标注和词性标注等方面。卷积神经网络深度学习算法主要用于命名实体识别、语义角色标记。自然语言处理通常使用统计模型来实现其操作。该模型经过长期使用,已相当成熟,成为NLP领域的主流。人工神经网络(ANN)作为统计模型的一个代表部分,并没有引起足够的重视。NEC美国研究所首次尝试在向量空间中绘制词汇表,并使用卷积神经网络实现对自然语言的有效处理。实践证明,这种处理方法可以获得更准确的结果。

1.4.2 提取立体图像视觉特征

国外提出了一种基于深度学习的非参考立体图像质量评价方法。通过提取3D图像的单目和双目特征,将具有一个视觉层、三个隐藏层和一个回归层的DBN训练为预测立体图像颜色的回归模型。有三个方面。
1)特征提取:单目特征提取与立体图像特征提取中人脑图像处理过程的仿真过程。
2)回归模型:通过建立特征与主观得分差(DMOS)的关系模型DBN[5],这样的话可以得到更准确的回归模型,从而具有更强的学习和泛化能力。
3)质量加权:权重系数由左右视点特征决定,模拟人眼视觉系统的单眼。与现有的图像颜色预测方法相比,本节提出的基于深度学习的颜色预测方法评价结果和误差较小。
4)卷积网络(CNN)在图像处理领域发挥着重要作用。
Eigen等人[35]提出了一种基于多尺度网络结构的深度学习方法。该方法利用图像的局部特征进行采样,得到最终的输出结果。该方法不需要提供任何人工分类功能,直接对原始图像进行训练从而可以获得像素级的深度信息结果。后来又提出一种网络模型,该模型有效地结合了Resnet的前向转发特性[4],结合了更深层次、更复杂的网络结构,有效地提高了结果的准确性。

1.4.3 图像颜色特征提取现状研究

经研究可知,图像的重要信息一般集中在中心,基于内容的图像分类的准确性在很大程度上取决于图像分类算法。一个优秀的分类算法可以大大提高图像分类的精度。Hinton在2006年提出了一种基于菲律宾监测数据的多层神经网络深度学习算法。它克服了传统BP神经网络的缺点:梯度下降稀疏,收敛到局部极小值,可以用来标记数据训练。Hinton的深度学习算法彻底改变了机器学习[7],并且使用深度学习算法的机器视觉和语音识别的效果大大提高。为了提高基于内容的图像检索精度,提出了一种基于块的颜色特征提取方法。
研究表明,图像的重要信息一般是在中心,基于内容的图像分类,其准确性在很大程度上取决于一个良好的图像分类的分类算法,可以大大提高图像的精度。Jinton在2006年的监测数据——一个根据菲律宾深度的神经网络的学习算法,克服了传统BP算法的缺点:梯度稀疏,局部极小,可以使用标记的训练数据学习的深度。他为了提高深度学弟的精度,完全改变了机器学习的算法,图像处理语音识别效果大大提高。为提高基于内容的图像检索,基于模块的深度,并采用国家的最先进的算法对颜色特征提取。

(1) RGB颜色模型
RGB(红、绿、蓝)颜色模型广泛用于计算机图形和图像处理。RGB模型使用CIE定义的三种原色来形成一个表色系统[1]。作为一个颜色添加系统,RGB模型将引入三种原色,同时生成一种新的颜色。RGB颜色模型是针对显示设备的,而不是针对人类感知心理的。同时它们的任何组合都可以形成不同的颜色。这由三维坐标系表示(见图1-1)。图中所示的立方体对角线(距离等于三种原色)代表不同的渐变。


图1-1 三维坐标系统表示灰阶
在该颜色模型中,每个颜色图像由三个独立的主颜色图像组成,每个颜色图像由三个主颜色图像表示。
(2) HSV模型
HSV颜色模型是视觉感知的颜色模型。具有三个分量,h代表彩色信号的色调,s代表饱和度,v代表亮度。HSV颜色模型可以用倒锥来表示。距长轴的大小表示饱和度,长轴是亮度,长轴的角度代表色调。由于知觉色差与欧几里得距离成正比,因此HSV适合人类感知,又因为人眼对色调非常敏感,所以主要用于描述图像的颜色特征。
CNN研究现状
2014年,特征集卷积神经网络首次成功地解决了图像深度预测问题。基于卷积的神经网络方法与传统的深度预测算法相比,具有较强的特征提取能力,预测精度有显著提高。因此,本章首先重点介绍卷积神经网络的设计思想和特点,以及特征提取和抽象原理[8]。
与传统的神经网络相比,卷积神经网络的输出单元与输入神经元以密集的方式连接,与神经网络的密集连接不同,输入神经元和输出神经元之间的连接权值表示规则的重复,即重量共享。

1.4.4 深度学习模式

深度学习的原理是利用人工神经网络进行低维到高维的映射,进而对对象的数据特征进行提取和收集,最后得到物体的数据特征。
近年来在机器学习领域,深度学习受到了国内外学者的广泛关注。在利用多处理层,通过计算机可以学习的抽象数据模型。该方法提高语音识别、视觉识别、目标识别的准确性,在计算机视觉、语音识别、自然语言处理、在线广告和其他领域,取得了良好的效果。
在很多图像处理的颜色,在计算机技术和三维重建误差的影响,提高加工效率,不断采用新的方法和改进的方法,并付诸实践。在许多深度学习模式中,卷积神经网络的修改显示出最佳的性能。

1.4 论文章节安排

第1章绪论,主要是介绍了课题的研究背景及研究意义,对图像特征提取的方法和论文涉及的相关技术的国内外研究现状进行介绍。
第2章首先介绍了概率图模型的相关知识,描述了深度学习中基于条件随机场的多尺度模型和条件随机场的级联模型,概述了深度学习理论和深度学习特征,对图像二值化进行了理论阐述。
第3章主要是论文研究内容的相关介绍,主要对单目图像深度估计的原理进行理解和介绍。对图像3D重建算法进行了研究,主要包括了迭代重建算法、图像缩放、最近邻元法和双线性内插法。以及卷积层的实现、卷积神经网络和激活函数层进行了相关的阐述。
第4章主要是仿真的模拟实现和颜色预测中常用的衡量指标介绍,包括仿真模拟步骤,以及工程的问题描述、方案框架、方案的实现和颜色的误差测试。
第5章主要是对论文进行总结,虽然没有完全预测成功,存在较大的误差,但是对于本文来说,由于深度学习训练模型有限,以及达到了颜色误差预测的目的。

2 概率图模型与深度学习基本原理

2.1概率图模型

概率图模型结合概率论和图论的知识,采用图结构表示变量的联合概率分布[9]。PGM的分类可分为两类:
根据边有无方向性分类和边缘的抽象程度和方向性,PGM可分为三类。
(1)有向图模型,又称贝叶斯网络(BN),在网络结构中使用有向无环图;
(2)无向图模型,又称马尔可夫网络(MN),其网络结构为无向图;
(3)局部有向模型,即有向和无向边的模型,包括链图和条件随机场(CRF)。
根据表示的抽象程度,PGM分为两类:
(1)基于随机变量的概率图模型,如贝叶斯网、马尔可夫网、条件随机域和链图等。
(2)基于模板的概率图模型。
根据不同的应用场景,这些模型可以分为两种类型:
(a)瞬态模型,包括动态贝叶斯网络(DBN)和状态观测模型,其中状态观测模型包括线性动态系统(LD)和隐马尔可夫模型(HMM);
(b)对象关系域中的概率图模型,包括板模型(PM)、概率关系模型(PRM)和关系马尔可夫网络(RMN)。

2.1.1 深度估计的多尺度模型

从单个图像进行深度估计的方法将深度预测问题形式化,描述两个变化的多尺度模型,一个基于级联的CRF和另一个在单一的多尺度CRF,将单目RGB输入深度预测的任务描述为学习一个非线性映射 ,从输入空间i到输出深度空间D的问题。更正式地,设
是q对的训练集,其中表示具有N个像素的输入RGB图像,表示其对应的实值深度图[10]。
对于学习非线性映射f,我们考虑由两个主要的构建模块组成的深度模型。第一个组件是一组中间侧输出

的CNN体系结构,该结构由具有映射函数
的L个不同层产生。为了简单起见,我们用,表示所有网络层参数的集合,用 表示与l层相关的侧输出的网络分支的参数。在下面,我们表示这个网络作为前端CNN。
本文的模型的第二个组成部分是基于分块的图像融合,从不同的CNN层生成的特性捕获了互补的信息。提出的融合块的主要理论是使用连续条件随机场有效地集成我们的前端CNN的侧输出映射,以进行稳健的深度预测。本文的方法是从直觉出发的,即这些表示可以在一个顺序的框架内组合,即在一定的尺度上执行深度估计,然后在随后的水平上对得到的估计进行细化。具体来说,介绍并比较了两种不同的多尺度模型,它们都是基于连续条件随机场的,并对应于两种不同版本的融合块。第一种模型是基于单个多尺度连续条件随机场的,它集成了不同尺度的信息,同时在相邻像素的估计深度值和相邻尺度之间施加平滑约束。第二个模型实现了一个特定于尺度的CRF级联:在每个尺度上,使用CRF从侧输出映射恢复深度信息,并将每个CRF模型的输出作为子序列模型的附加观测。展示了如何通过堆叠几个基本块来将它们作为序贯深网络来实现。我们称这些块为CMF块,因为它们实现了连续CRF的平均字段更新[11]。

2.1.2 多尺度CRF

给定一个LN维向量
,通过连接边输出分数映射
和一个实值输出变量的LN维向量d,定义一个CRF模型来模拟实际分布:

(2-1)
其中 是分区函数,
能量函数定义为:

(2-2)


表示缩放l与像素i相关的隐藏变量。第一项是二次一元项之和,定义为:

(2-3)
其中是
,得到的像素i和比例尺l的回归深度值,第二项是描述隐藏变量



之间的关系成对势之和,定义为:

(2-4)
其中 是一个权重,他分别指定像素i和j在比例尺l和k处的估计深度之间的相关性,为推理我们利用平均场近似,即
:,通过考虑并将表达式重新排列成指数形式得到均值字段更新[11]:

(2-5)

(2-6)
根据高斯核
来设置权重,其中



是表示从像素i和j的输入图像r导出的一些特征,是用户定义的参数,
以像素位置和颜色作为特征,平均字段更新可以重写为:

(2-7)

(2-8)
对于一幅新的图像,可以计算出最优的最大对数条件概率,即:
。其中是与相关的LN均值向量,以精度较高的的估计变量作为预测深度图的d。
(3)CRF级联模型[8]
CRF级联模型基于一组与特定尺度l相关联的CRF模型,将模型逐步增加,使得在先前尺度上的估计深度可用于下级定义的CRF模型的特征值,每个CRF计算输出向量为

,相关能量函数被定义为: (2-9) 一元与两元项用类似与统一模型定义,反应观测值与隐藏深度值之间相似性的一元项是: (2-10) 其中

是结合侧面输出
和CRF在预先尺寸上估计的

回归深度得到,在现实中只考虑
,相似相邻像素具有接近深度值的成对电位是[12]:

(2-11)
当m=2高斯核时,一个用于外观特征,一个用于像素位置,与多尺度模型相似,得出如下更新:

(2-12)

(2-13)
在测试时,使用与精细尺度L的CRF模型相对应的估计变量作为预测深度图d。

2.2 深度学习理论

2.2.1 深度学习特征

(1)人脑视觉
人脑的工作原理是非常抽象和复杂的。皮质神经元和视觉系统之间存在着迭代关系。当视觉系统接收到信息时,人脑对原始信号做出初步的反应,然后通过判断进行总结。在这个过程中,人脑处于分级处理和阶段处理的状态,处理顺序遵循局部再整体,重复信息处理过程。抽象与识别效率有着直接的关系,效率越高,则人类大脑可以更快地对这些信息进行分类[9]。
(2)物体特征
机器学习算法需要识别物体的特征。例如,在识别自行车或非自行车时,首先需要输入自行车的特征,通过深度学习算法可以正确识别目标。如果图像被识别,则需要识别更复杂的函数,因为只有像素函数无法达到识别的效果。例如,通过层次递进的识别方法,需要识别为小型图像来形成系统图像。
(3)训练过程
与传统的BP算法相比,深度学习算法具有明显的优势,能够有效地克服传统神经网络训练的级联稀疏、局部极小和数据标记等缺点。在应用深度学习理论时,不仅需要构造一个单层神经元网络,还需要将权值转换为双向运算模式,从而可以实现迭代进程处理的效果,并将卷积神经网络的生成阶段与识别阶段相匹配。

2.2.2 图像二值化

图像的处理最终需要将256灰度图像转换为黑白二值图像。经常使用局部阈值和全局阈值方法。两者区别在于操作范围的不同。阈值的上下颜色值被转换为黑白以完成图像转换,这是全局阈值方法工作流。局部阈值法首先确定检验点的阈值。它首先确定其邻域,然后通过比较灰度值确定阈值,这适用于灰度分布变化较大的图像处理。照明条件和实时性是二值化处理的重要因素。将OSTU全局阈值算法应用于灰度变化较小的图像处理,当直方图显示双峰时,该算法能充分利用其优良的功能。局部阈值法适用于灰度和亮度分布不均匀的图像处理。
(1)图像特征提取—LBP原理
颜色预测,其主要目的是完成识别功能,完成的是搜寻的功能。原始的LBP算子对于每幅图上每个像素点用其周围3× 3邻域像素值对此像素点进行纹理描述。LBP 算子公式为

(2-14)
原始的LBP运算符具有33阈值的窗口。将八个相邻像素的灰度值与中心像素的灰度值进行比较。如果外围像素值等于或大于中心像素值,则像素位置设置为1。
这样,八进制数(通常转换为十进制)通过比较3×3左右的8个点。也就是说,可以生成一个LBP码,一共有256种。可以获得窗口中心像素的LBP值,并且可以反映该区域的纹理特征。
在提出了原始的LPP之后,研究人员不断地进行了各种改进和优化,具体描述如下。
(2) 圆形LBP算子[14]
基本的 LBP算子,存在很大的一个缺陷是,它并不是覆盖所有图像部分,而是在某个小区域中,这个区域有一个确定的半径值,由于此缺陷,很明显的可以看出,这并不能很好地满足不同尺寸的需要,当然也无法满足频率纹理的需要。为了改进这一缺陷,相关研究人员对LBP算子做了很大的改进,不限于3*3个社区,而且扩展到了任何一个邻域。图2给出了几种不同类型的循环LBP算子

图2-1 几种圆形LBP算子

(3)旋转不变模式
结合LBP的定义可知,LBP算子的灰度并不是变化的,但并不意味着算子完全不变,在旋转方面它是持续变化的,也就是说,由于LBP值可以从旋转圆附近获得,因此有必要检查附近的LBP值。结论是选择最小LBP值。确定旋转不变量LBP的流程图如下所示。

图2-2 旋转不变的LBP示意
图中运算符下方的数字表示运算符的相应LBP值。对八种LBP模式进行旋转不变性处理,得到15个LBP值的旋转不变性。也就是说,LBP码(旋转不变量)都处于00001111状态,对应于图3的八个LBP模式。
(4)等价模式
LBP运算符可以自动生成不同的二进制文件。如果是圆,用作包含采样点的LBP运算符的半径。因此,两个数值模型不适合纹理提取、纹理识别,Ajara提出了一种“等效模式”(列表模式),以减少LBP算子的类型。当本地二进制模式对应于0到1或1到0之间的二进制数时,可以等效转化。例如,000000000(0次跳跃),00000111(包括0次跳跃到1次跳跃,1次跳跃到0次跳跃),10001111(从1到0,然后0到0,总共两跳),两个类型并非凭空出现,而是等效模型类。其他的则称为混合模式类,如10010111(总共4个跃点)。
这一改进大大减少了二进制模式的数量从到。表示邻域集的采样点。等效模式类包含一个模式,而混合模式类只有一个模式。对于3附近的8个采样点。二元模式由256降到59,减小了特征向量的维数。

3 研究内容

3.1单目图像估计

深度信息的获取是场景解析中是十分重要的环节,主要分成传感器获取与图像处理两种;传感器技术对环境的要求很高,因此图像处理是更加常用的方法,传统的方法通过双目立体标定,通过几何关系获取深度,但仍然因为环境因素限制,因此,作为最贴近实际情况的方法,单目图像深度估计具有极大研究价值。为此,针对单目图像的深度估计问题,提出了一种基于多尺度卷积神经网络的单目图像深度估计方法[14];加入了Dense Net结构,利用Dense Net强特征传递、特征重用等特点,优化特征采集过程;通过NYUDepthV2在数据集上验证模型的有效性。结果表明,颜色预测方法的平均相对误差为0.119,均方根误差为0.547,对数空间平均误差为0.052。
首先需要对图像进行获取,算法流程图如图3-1:

图3-1 图像获取流程图
(2)网络模型概述
为了进一步研究单目图像的深度估计方法,提出了一种基于Dense Net的多尺度CNN网络模型。首先,网络结构分为三个等级。每个尺度对数据集的评估程度不同。第一个比例具有最大输入图像,第三个比例具有最小的输入图像。第一个比例全局采样图像特征,输出结果与第二个比例(比例2)的输入图像大小相同。
scale2的输入图像结合了scale1基于原始数据集的输出。scale2通过收集图像中的局部信息来优化,从而可以获得具有更多局部特征。同样,scale3的输入是原始数据集和scale2输出的组合。此外,在优化输出深度图的同时,提高了深度图的分辨率,实现了高分辨率的输出结果。
(3)全局特征粗糙采样
scale1的主要目的是全局采样图像,并在全局级别提取图像特征。该网络由一个DenseNet模块、一个上采样模块和一个卷积层组成。首先,使用两个卷积层来收集丰富的信息函数。接下来,使用3×3卷积核和卷积核(3×3卷积层)的卷积层代替传统的池层对图像进行采样,这个结果可以作为DenseNet模块输入。图像通过DenseNet模块后,由上采样模块对输出结果进行采样。图像的最终输出大小为64*80,相当于scale2的比例大小。scale1具有最大的输入图像大小,因此scale1的视图很宽,采集的特征最丰富、最原始,图像的粗采样在全局级别完成[15]。
如图3-2所示,输入图像,进行第一池化层到第五池化层,最终输出预测深度图像。

图3-2 池化层输出预测图像
(4)上采样模块
上采样就是把

大小的特征映射扩大为

尺寸大小,n是一个上采样多路复用器。填充扩展特征图上所有n个位置的原始特征图的相应位置值。去卷积操作是用零填充剩余位置。然后这个大的特征映射再经过一个卷积运算。扩大+填0+卷积 = 去卷积操作。插值上采样类似,扩大+插值=插值上采样操作[23]。也就是说去卷积操作是提升采样的一种方式,采样也可以采用插值的方式。
放大后的图像基本上是内插的。在原有图像像素的基础上,采用插值算法在像素之间插入一个新的像素。

3.2 卷积层实现和全连接实现

3.2.1卷积神经网络(CNN)

卷积运算有三个主要特点:特征不变性、特征维数约简和过拟合预防。CNN是一种深度学习的一种。实际上,机器学习的核心思想是利用功能来学习必要的知识,所以有新的工程师类型,即专门从事功能工程的工程师类型。功能的质量影响着机器学习的最终效果。科学家们想知道人们是否可以在没有功能工程的情况下自动学习功能。结论:是可以的。这是利用深度学习。如图7所示,对输入的数据进行输出处理。
端到端的学习需要3步:(1)把数据给它(机器);(2)等深度学习处理完;(3)拿到结果。

图3-3 数据预处理

3.2.2 多孔卷积神经网络

本节将卷积神经网络与条件随机域相结合,重点介绍了该模型的组成和训练过程。在重点处理中,根据奇偶性将二维图像i分为两个子集,预测误差为

。通过选择预测系数,可以完全恢复预测误差i。更新子集数据,使其具有与原始图像数据相同的特征。
将更新后的
值放人变量
中。最后,可以重建转换的子集。
在本节中深度估计模型的CNN部分中,原始vcc 16网络的第一到第十二个卷积层是基于视觉形状croup16(vcc16)存储的。从第12卷积层输出512维特征图后,将原始网络的最终完整连接层移除并折叠到卷积层中,卷积核心尺寸为。因此,将生成最终的通道数。池操作采用最大池模式,非线性激活在线性激活函数隐藏的隐藏层中进行,防止模型过度拟合。
该模型将CNN输出1的输出与连接层的第二个池层的输出合并,使其输出深度图更加精确。此时,创建一个样本。输出图形输出为2。扩展比为2的多孔卷积操作的感知场扩展到7x7。比率3是9x9,其卷积核的大小先增大还是3x3,将输入特征映射输入到条件随机域中,经过优化后生成原始图像的深度映射[18]。
如果由上层传过来的特征图是201212,本层卷积层大小为5055,单样本传播计算量为:
calculations(MAC)=55882050=1600 000MAC
参数数量:
参数数组=50
5520=25000
那么CPR越大。
对于全连接层,如果上层传过来的特征图为:5044,本层500个神经元,那么计算量为:
calculations = 4450*500=400 000
参数数组=400 000
CPR=1
批量值变大,CPR也会变大。

3.3 激活函数层

饱和激活函数,sigmoid函数,thanh函数,在0值附近变化最快,而x越大,变化速度越慢甚至趋近于0,即接近饱和。非饱和激活函数,线性激活函数中,在x越大时,并不会饱和。
Caffe中所有与激活函数相关的Layer类都位于include/caffe/neural_layers.hpp。非线性层(激活函数)的共同特点是对前一层输出的二进制对象中的数值逐一进行非线性变换并放回原blob函数中。在include/caffe/neural_layers.hpp中类的声明中,非线性层的鼻祖-神经层,继承Layer,特点是输入blob(y)和输出blob(x)尺寸相同[26]。
Net通常可以表示Caffe中一个CNN模型,而多个Layout可以堆叠成为Net。如果将Net比喻成为万丈高楼,那么prototxt就是设计高楼的图纸,而建造楼层的砖块就是blob,筑成一层层的砖块,而大楼的简装修和精装修由求解器和微调实现。
在内存中,Blob可以表示为维度从低到高的4维数组,而数组的作用就是用来存储数据(data),以及实现权值增量(diff)[27]。
Blob中封装里SyncedMemory类。Bolob作为基本单元服务Layer、Net、Solver等。

3.4 数据结构

(1)blob 变维函数
将参数转换维,然后调用重载的变维函数
(2)Layer
Layer是Caffe的基本单位[28]。它至少有一个输入blob(底部blob)和一个输出blob(顶部blob)。有些图层具有权重和偏差。在前向传播和后向传播上,有一个过程,在这个过程中,输入blob(一个有权重的层和一个有偏差的层)向前推进输入blob。输出blob通过行处理得到,输出blob diff通过反向传播计算得到输入blob的diff(权重和偏差层计算权重之间的差异)。对于每个顶部blob,每个层的默认值为0,这意味着它不参与目标函数的计算。它相当于当前的网络状态来控制一个层在给定时间是否包含在网络中,指定包含或排除的非零值,但是在没有规则的约束下,则会出现包含或者排斥该层的情况。
(3)Solver简介
它解决了网络问题,其功能包括:
a.提供优化的日志支持,创建用于学习的培训网络,创建用于评估的测试网络
b.迭代更新权重
c.定期评估测试网络
d.通过优化了解模型和求解状态
Blob可以看成4维的结构体(包含数据和梯度),而实际上,它们只是一维的指针而已,Blob的4维结构,可以通过shape属性进行计算。Blob的四维需要动态申请动态内存存储数据和梯度。也就是说,测试网络不唯一,可以同时有许多测试网络。一般来说,训练网络的执行不同于测试网络,但大多数网络层是相同的。Caffe训练模型由不同的模型训练方法实现。Caffe.cpp的训练函数是一个核心函数,它通过重载函数来计算更新参数[13]。这将实例化一个Solver对象,并在初始化后调用。这个Solve()函数重复执行以下两个函数:
从共同的源代码文件可以看出,由于Caffe类是单例类,构造方法是私有的。将thread_specific_ptr指针设为全局static变量,进程和线程访问该指针时,将提供不同的结果,确保多线程环境中不同线程具有不同类型的Caffe singleton。将类静态函数Get封装之后,可以获得管理器对象Dragon,该对象的线程是独立的。实例对象的代码空间将由Boost::thread控制,不在主进程的控制范围,这样,Dragon管理器里的复杂代码,在执行时不会因为异步而被截断。当访问Caffe的构造方法时,创建句柄,同时额外线程也可创建[19]。

3.5 3D图像重建算法

3.5.1 迭代重建算法

三维图像f(x,y,z)有m个像素,投影数据进行n次测量。F写为m维的列向量,写为n向量的列向量,写为图像向量x,标记为投影向量p。

(3-1)
在方程中,a是一个n*m维投影系数矩阵。元素aij表示第j个像素的第i个投影值的权重。通过解决这个问题,可以解决重建图像的问题[20]。
对于实际图像问题,矩阵A不一定是方形矩阵。一般来说,投影数(n)不等于像素数(未知),因此x不能用矩阵反演法求解。与ART算法相比,SART算法更接近于实际的图像生成处理。每一个射线都不是一个独立的单元,而是一个相关系统的投影角。
SART算法公式[30]

(3-2)
式中:k为迭代次数;
。 λ为松弛因子(0<λ<2)[21];同一投影角度下投影数据的集合则记为 .
式(3-2)的迭代过程,实际上就是求解
的过程。
下所有射线通过方格网记为一次迭代,完成一轮迭代的标志是完成所有的投影角度。达到收敛要求之前,将上一轮迭代的结果为初值继续进行迭代操作。

3.5.2 图像缩放

图像重建的颜色预测处理一般包括颜色检测、读取信息的图像预处理和,然后根据数据库信息提取颜色特征。
颜色预测是指任何图像或视频输入,以确定是否有颜色。如果对应的颜色可以匹配,则将改变颜色的颜色区域和背景分开,并给出颜色坐标和位置。图像数据库中可以实时监测。它可以在实时图像数据库中进行监控。影响颜色检测的因素主要有光照、噪声、姿态和遮挡。颜色检测作为图像重建和识别系统的第一步,直接关系到最终识别结果的准确性和可行性,并影响系统的整体性能。色彩预测与跟踪是图像重建的关键技术,具有很高的学术价值。该模型的特点比较复杂,很难找到一种通用的检测算法,在实际应用中往往会集成多种模式进行检测[2]。本文对图像的预处理进行了详细的分析。
x是输入数据(图片数x维度)。确保每个维度的最大值和最小值为1和-1是标准化的方法。但是这种预处理方法只有当特征尺度或单位不同时,才有一定的实际意义。作为一个图像像素的例子,所有的像素值比例都在0到255之间,因此不需要严格执行这种预处理。训练自然图像时,图像任何部分的统计性质应与其他部分的统计性质相同。
由于图像大小不同,不能直接使用,必须对图像进行预处理以匹配图像大小。
假如图像的像素列出矩阵,如下图所示:

在这个矩阵中,元素坐标(x,y)并不像在数学坐标系中那样确定。视觉效果是:X从左到右,Y从上到下,公共点为零。图像处理可以使用以下图3-4的坐标系。

                 图3-4 坐标系方向

如果想把这副图放大为 5X5大小的图像,首先需要采取措施画出一个5 X 5的无名矩阵,像素是未知的,需要对其进行目标填写。
相邻插值和双线性插值是最常用的插值方法。在数字图像处理中,经常遇到十进制像素坐标的问题,需要根据相邻像素的值对坐标进行插值。比如,地图投影转换将目标图像的像素坐标转换为相应点的源图像。转换坐标在十进制系统中也会遇到同样的问题,例如几何校正图像[23]。

3.5.3 最邻近元法

这是最简洁的插值方法之一。与其他插值方法不同,它仍然需要计算。图像的每个像素都有四个相邻的像素,如下图中的A、B、C和D。像素的最近像素级提供给所述最近像素的像素。i+u,j+v(i,j是正整数,u,v大于0,十进制数小于1),以及要确定的像素坐标,见图3-5。

图3-5像素坐标最邻近元法
当(i+u,j+v)落在区域A(u<0.5,v<0.5)时,要确定的像素的灰度值位于左上角。在区域B中,给出右上角的Gree值,在区域C中,给出左下角的Gree值,在区域D中,给出右下角的Gree值。
由于最近邻单元法的计算复杂度较小,也会导致一些误差,例如,在灰色层次上,最近邻单元法不能形成平滑的直线,在某些位置上存在一些锯齿形的直线。

3.5.4 双线性内插法

双线性插值是指使用四个相邻像素的灰度级,对不同方向进行插值。双线性插值方法不同于最近邻法。它有很多计算量,与最近邻元法相反,插值没有灰色不连续性。它具有低面积滤波的特点,会直接导致高频分量的损坏,图像轮廓模糊不清。

第4章 模拟实现

4.1 仿真模拟步骤

4.1.1问题描述

同一个平面上不同像素由于颜色不同,传入神经网络,会计算出不同深度值,引入误差,通过单目的监控摄像头,并具体标识出,再与数据库中的信息进行比较。难度在于颜色是由光源作用在物体之上,通过物体的吸收、透射,最终由物体将颜色反射出来。

4.1.2 方案框架

准备阶段:采集单目摄像头中图像数据以便于进行模型。
(1)卷积滤波器和池化层大小[23]
两个整数幂是最好的输入数据,例如两个整数分别取值为图像大小32、Image Net常见大小64224。此外,使用较小尺寸的过滤器(例如3x3)、较小的步长和零值填充可减少参数数量,并提高整体网络精度。当3x3滤波器用于一步大小和一个填充时,图像或要素地图的空间大小不会改变。池层中使用的池大小是2x2。
(2)学习率
获得一个合适的LR(Learning Rate)的有效方法是有效集的使用。LR当训练开始时常常设置为0.1。实际上,如果验证集有损失或精度没有改变,那么LR将除以2或5,然后继续进行训练。
(3)在预训练的模型上微调
许多先进的深层网络模型都是开放源码的,这些通过预先训练的模型具有很强的泛化能力。在模型微调上有两个重要因素:两个数据集的相似性以及新数据集的大小。Datasetspecific的特征功能包含在网络的顶层功能上。
实施阶段:
1)按照相应的分类规则对照片进行分类并保存。
2)基于卷积神经网络的识别模型的建立。
3)读取并进行模型的训练。
4)对训练好的模型进行评估,以确定识别精度是否满足预期标准。
5)如果模型满足预期标准,则模型将被保留。如果模型不符合预期标准或有错误,程序将被修改。
最后进行后期调试:即整理程序、测试程序、修正错误。

4.1.3方案实现

首先需要完成一个简单的自己的网络模型训练预测,主要包含几个步骤:
1、数据格式处理,即打包图片,方便地一起创建文件。
2、原型机它是要写网络的层数,有多少功能图在每一层,输入和输出。这个预测是基于caffe。这是一个需要预测的网络结构文件。
(1)首先是第一个阶段-训练阶段:
训练阶段,图像归一化,即将图像规为0 - 1之间。也就是说,将所有输入数据按比例,0.0039=1 / 255相乘,并将data_param分配给数据路径。在本课题中,每次训练采用的图片是200张。
(2)进入卷积神经网络的三层(可参考本文3.1节)
在这部分,进入卷积神经网络的第一层是第一步,也称之为卷积,该层之前是data层。
(3)输出特征图个数,定义特征图个数以及卷积核大小。
3、定义网络结构文件。再每隔200次用测试数据,做一次验证。并定义学习率、动量参数、权重衰减系数、梯度下降的相关优化策略、最大迭代次数等。每迭代2000次,保存一次结果。
4、编译网络解决方案文件后,CNN网络编写完成。接下来,文件作为caffe参数,训练可执行文件。Caffe是编译期间所产生的可执行文件。然后,solver文件。需要在Ubuntu终端输入。
接下来就是lmdb数据格式生成,快速生成lmdb数据格式文件在该文件create_imagenet.sh中完成,复制修改脚本文件,可以将训练文件和注释文件打包成lmdb格式文件。
最后就是训练,训练的方式主要分为两种:
a.直接训练法
b.采用funing-tuning 训练法
在缺少标注好的训练数据的情况下使用fine-tuning的方法,尽可能的提高精度。
预测调用方式如下:
由于需要交换RGB和BGR才能显示,因此需要在图形中显示某一层的特征图,以便计算出图形所占的每个图像的比例和绘图位置[25]。
a.设置Caffe源码所在的路径
b.加载均值文件
c.创建网络,并加载已经训练好的模型文件
d.预测分类及其可特征视化,读取图片并预测图片信息,包含每个层的参数。在每层的参数blob中,Caffe用向量存储两个blob变量,并用v[0]表示权重。然后显示原始图像,以及分类预测结果。
Caffe在执行过程中为可执行文件。使用网络结构文件进行测试则是调用solver.prototxt文件。然后调用测试输入的训练图像数据。训练模型三个文件必不可少:数据文件lmdb、网络结构、求解文件。开始训练的方式是同一个目录中存放将这三个文件,键入命令,并调用Caffe。

4.2 颜色误差测试

在数据集上对模型进行训练和测试,以验证模型的颜色预测误差。nyudepthv2是一个视频帧序列。相应的图像合成是1449对深度信息和RGB像素。有26种场景类型和1000多个对象,其中一个城市有464种场景。训练集与测试集的比率为249:215[26]。原始的480 x 640 RGB和深度贴图作为240 x 320的模型输入进行采样,并且深度信息的默认像素被预处理忽略。根据官方标准可知,49个场景用作验证集,培训集用作200个场景。培训结束后,用654张官方标准验证图像对模型进行了测试。本文将训练图像随机缩放,在目标平面上旋转,水平反转,通过改变颜色和对比度来扩展数据集,并通过避免模型拟合,提高了泛化能力。
采用随机训练梯度下降法对模型参数进行优化。特殊超参数为:批处理大小为8,maxepoch为1000,学习率0.001,学习率每10次下降90%,直到网络融合。整个模型的训练时间约为72小时,CNN的正向过程约为0.05秒。CNN的正向过程每图约0.05s,各模型的预测时间每图约0.23s。
本文将该模型的实验结果与NYUDEPTH V2数据集的训练结果进行了比较,并用常用的测量指标对结果进行了评价。

4.2.1 预测单目图像深度的指标

在前一步的工作下,本文采用平均相对误差、均方根误差和平均误差来对单目图像深度预测模型进行性能评估,本文认为:
平均相对误差(rel)=
(4-1)
均方根误差(rms)=
(4-2)
平均 误差(log_rms)=
(4-3)
精度与阈值a的比例为:

(4-4)

4.3 结果分析

使用命令行参数解析器来调用给定参数、执行给定参数的程序。并添加、给定参数。参数nargs的数量默认为一个,也可以自定义为多个,给出地址,又因为有很多图片,需要进行批量操作,为了方便读取和学习,命名以数字的形式累加,在本测试用例中,使用000001_10.png,000002_10.png …
测试结果如下:

图4-1 原图:000001_10.png

图4-2 结果图:000001_10.png

图4-3 原图:000002_10.png

图4-4 结果图:000002_10.png
RGB输入:

图4-5

图4-6
预测图分析:在图中的坐标值处的值代表此处的像素值,例如:
图4-5中的两处位置, x=455.234 y=221.055 像素值为88,x=840.855 y=343.752 像素值为64
图4-6中的两处位置,x=605.476 y=268.631 像素值为255,x=633.02 y=108.373 像素值为17
表4-1

在测试中,主要使用的是命令行解析模块,之所以选用这个是因为该模块在编写命令行上很有优势,在程序中定义参数,该模块可自动解析 [27]。首先第一步是创建解析器,作用是创建的对象可以把命令行参数转换成Python所需要的一些数据信息[27]。使用命令行参数解析器来调用给定参数、执行给定参数的程序,并添加、给定参数。参数nargs的数量默认为一个,也可以自定义为多个,给出地址,又因为有很多图片,需要进行批量操作,为了方便读取和学习,命名以数字的形式累加,在本测试用例中,使用000001_10.png,000002_10.png , …, 接着可以使用pars_args()解析参数。
在此将模型的实验结果与同样在数据集上进行训练的相关工作进行对比,采用了常用的衡量指标评估结果(Mean Squared Error),平均绝对误差,指的是原始值和预测值之间的平均值。
由于测试的数据集不多,在分析上,只有同一份训练数据,同时进行训练和评测。这虽然是模型评价的一种通用方式,然而, 在训练集数据上的误差,不能准确地表现出此课题研究的误差情况。首先,为了量化预测结果的好坏。我们使用损失函数这样一个评价指标,来衡量预测结果与真实标签值之间的误差情况。

本文结合梯度下降对深度学习进行优化。神经网络不是一个简单的概念,而是一个多参数的复杂函数,它代表了问题的求解策略。它以表示图像的RGB值的数组作为输入,并生成一系列输出值。
神经网络的训练过程是将损失函数最小化。这个损失函数的值衡量我们的网络性能在给定的数据集中有多完美。
当权重初始化时,会找到损失函数的最陡下降点。定义一个简单的面试。这架平面有无数个方向。在这种情况下,只有一个方向的斜率是上升最快的,相反的方向是最快方向的下降方向。

其次,利用范数损失函数绘制学习率图像。损失函数有多种形式,如交叉熵。然而,在任何形式下,损失函数的自变量只与网络结构的参数有关。

(I)

如公式1可知,w表示深层神经网络中所有权重参数的集合,b是每一层神经网络中的偏差,n是样本数量,x是神经网络的输入量,y是预测值,a是标签。前向传播过程:激活函数。对于卷积神经网络的反向传播过程来说,首先是CNN卷积进行卷积的一个过程,接着是池化运算过程,最后是全连接层网络的计算。
搭建好的深度模型中使用不同的学习率进行训练,可得到下图的收敛曲线,横轴代表训练次数,纵轴代表的是损失函数,三条线分别代表的不同学习率下的测试情况,随着次数的逐渐增加,损失函数成下降趋势,预测正确率越来越高。

图4-7损失函数趋势图
最后在程序中,由性能仿真结果可以看出,训练的数据集采用的是200张,在此次评估中,输出的是部分图片的评估结果,最后取得平均值,得出所有图形的预测值。使用python中的numpy.mean均值函数来求相应预测数据的算术平均值,用多次预测求平均值的方法来减小预测误差。 采用条件随机场和多尺度卷积神经网络相结合的方法对单目图像进行深度预测,减弱颜色预测误差的影响,进而得出更正确的深度图像[27]。

第5章 总结

本文简述了CNN模型可视化的重要性、详细介绍了 CNN网络模型的可视化方法。从这些模型中,我学到了很多,并帮助我在以后的学习中构建了一个好的模型。
深度学习是大多数研究者关注解释和理解培训过程的热点之一。这个问题很重要。因为如果无法解释模型的处理过程,则模型的输出结果就是不可靠的。
本文以对单目图像进行深度预测为例,从而减弱颜色误差的影响。本课题,我使用python编写如何使用卷积神经网络(CNN)进行图像预测。简述了CNN模型可视化的重要性、详细介绍了 CNN网络模型的可视化方法。从这些模型中,我学到了很多,并帮助我在以后的学习中构建了一个好的模型。
深度学习是大多数研究者关注解释和理解培训过程的热点之一。这个问题很重要。因为如果无法解释模型的处理过程,则模型的输出结果就是不可靠的。
本文以深度学习模型预测颜色误差为例,以得到更准确的深度图像为目的进行了探讨。本课题中,我使用python编写如何使用卷积神经网络(CNN)进行图像预测。在第二章,提出相关内容,包括概念图模型、深度学习理论概述、以及深度学习的特征和步骤、图像二值化等。为下文的3D重建和颜色预测做好理论上的准备。
第三章,提出研究内容,其中包括单目图像深度估计、卷积层实现和全连接实现、卷积神经网络、以及激活函数层,和涉及到的一些数据结构,例如blob、Layer、Solver等。
第四章,本文中心,将重点描述其步骤。将尝试对图片颜色进行预测。本课题使用的训练数据数量是200个,用于测试/验证的数据是2个。在预测图像处理函数,设置了2个标签,第一个标签是mobil预测值为0的结果,第二个标签是预测值为1的motor预测结果[31]。将预测结果保存为cyclegan_evalution.py,只需运行来查看预测结果,从结果可以发现,颜色误差影响的确已经减小,说明深度学习模型对单目图像进行深度预测是有效的。[7]。
本文借助于深度神经网络模型为照片等图像的颜色进行标注,最后通过深度学习之后,进行单目图像的深度预测。课题研究时,给定特定的图像,也需要将其中的颜色用像素点表达出来,由预测出的图像可以直观地看出深度神经网络对该模型的学习和预测情况。即计算机视觉和自然语言处理的一个结合,这也是本课题的一个难点。从两百个已知图像进行学习。基于特征提取对图像进行标注,将提取的模型交给深度卷积神经网络(CNN)对数据集进行训练。将训练图像随机缩放,在目标平面上旋转,水平反转,通过改变颜色和对比度来扩展数据集,并通过避免模型拟合,提高了泛化能力。由第四章的预测结果可以看出,并没有完全减弱颜色误差对深度图像预测的误差,这是因为深度学习模型有限(200张),只有同一份训练数据,同时进行训练和评测, 在训练集数据上的误差,不能准确地表现出此课题研究的误差情况,通过深度学习的方法预测单目图像的深度,进而构造出3D图像。预测出深度图像的准确性直接决定了3D图像的精确度。由本课题来看 深度学习预测深度图像有些缺陷。在同一个平面上不同像素,由于颜色不同,传入神经网络,会计算出不同深度值,引入误差。本课题基于卷积神经网络研究颜色预测错误问题。通过结合条件随机场和多尺度卷积神经网络,进行单目图像深度预测的方法,减弱颜色预测误差的影响,进而得出更正确的深度图像。

参考文献
陈思哲.卷积神经网络基础下的深度学习算法与应用 [J]. 科技传播,2017,9(18):59-60.
张效荣.基于卷积神经网络的深度学习算法与应用研究 [D]. 西安 : 西安电子科技大学, 2015.
高强,靳其兵,程勇.基于卷积神经网络探讨深度学习算法与应用 [J]. 电脑知识与技术,2015,11(13):169-170.
李耀宇王宏民,张一帆.等.基于结构化深度学习的单目图像深度估计 [J] 机器人J. 2017 39 6 812 819.
Hoiem D.,Efros A. A., and Hebert M. Automatic photo pop-up. ACM Transactions on Graphics (TOG), 2005, 24(3):577-584.
Karsch K.,Liu C., and Kang S. B. Depth transfer: Depth extraction from video using non-parametric sampling. [C]TPAMI, 36(11):2144-2158, 201.
Ladicky L.,Shi J., Pollefeys M.Pulling things out of perspective. [C]In CVPR, 2014.
Jia Y.,Shelhamer E.,Donahue J.,Karayev S.,Long J.,Gir- shick R.,Guadarrama S., and Darrel T.l.Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
Delage E.,Lee H., Ng A.Y.A dynamic bayesian network model for autonomous 3d reconstruction from a single indoor image.[C] In CVPR, 2006.
Liu F., Shen C., and Lin G. Deep convolutional neural fields for depth estimation from a single image.[C]In CVPR, 2015.
Saxena A.,Chung S. H.,Ng A.Y.3d depth reconstruction from a single still image. [J]IJCV, 76(1):53-69, 2008.
Fergus D R. Depth map prediction from a single image using a multiscale deep network. [C]In NIPS, 2014.
Wang P.,Shen X.,Lin Z.,Cohen S.,Price B.,and Yuille A.Towards unified depth and semantic prediction from a single image.[C] In CVPR, 2015.
Liu F., Shen C., and Lin G. Deep convolutional neural fields for depth estimation from a single image.[C] In CVPR, 2015.
刘广海,吴瑕莉,基于颜色体积直方图的图像检索 [J].计算机科学,2012,39(1):273-275,280 .
Shen J.J.,Zhou X.Spectrophotometric Colour Matching Algorithm for Top-dyed Melange Yarn,Based on An Artificial Neural Network[J].Coloration Technology,2017,133(4):341-346.
Pan R.,Gao W.D.,Liu J.H.,etal.Automatic Recognition of Woven Fabric Pattern Based on Image Processing and BP Neural Network[J].Journal of the Textile Institute Proceeding &Abstracts,2011,102(1):19-30.
Berens J.,Finlayson G.D.Image Indexing Using Compressed Color Histogram[J].IEEE Trans on Vision,Image and Signal Processing,2000,147(4):349-355.
Keysers D.,Deselaers T.,Gollan C.,etal.Deformation Models for Image Recognition [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(8): 1422-1435.
吕明磊,刘冬梅,曾智勇.一种改进的K-means聚类算法的图像检索算法 [J].计算机科学,2013,40(8):285-288.
谭攀,姜超.几种图像去噪算法的对比分析[J] 绘测与空间理信息 ,2014(7):39-42.
王鑫.迭代重建算法的对比研究 [J].信息技术与信息化,2015(10):207-208.
李政,刘文江,戎蒙恬.BM3D 视频去噪算法实现与评估 [J].信息技术,2012(4):30-32.
黄牧,黄文清,李俊柏.基于BM3D 图像去噪算法的参数研究 [J].工业控制计算机 ,2014(10):9-101.
Stallkamp J.,Schlipsing M.,Salmen J.,etal. Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition[J]. Neural Networks, 2012, 32: 323-332
Kavukcuoglu K., Ranzato M. A., Fergus R., etal. Learning In- variant features through topographic filter maps[C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos: IEEE Computer Society Press, 2009:1605-1612.
Ngiam J., Koh P.W., Chen Z.H., etal. Sparse filtering[C] // Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2011: 1125-1133
Kus M.C., Gokmen M.Etaner-Uyar S. Traffic sign recognition using scale invariant feature transform and color classification [C] //Proceedings of the 23rd International Symposium on Computer and Information Sciences. Los Alamitos: IEEE Computer Society Press, 2008: Article No.4717875.
Coates A., Ng A.Y. Selecting receptive fields in deep net- works[C] //Proceedings of Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2012: 2528-2536.
Gu Mingqin. Research on traffic sign recognition & state tracking and estimation algorithms in complex environments [D]. Changsha: Central South University. School of Informa- tion Science and Engineering, 2013(in Chinese) (谷明琴. 复杂环境中交通标识识别与状态跟踪估计算法研究[D]. 长沙: 中南大学. 信息科学与工程学院 , ( 2013).
Hoiem D., Efros A. A., and Hebert M. Automatic photo pop-up. ACM transactions on graphics (TOG), 24(3):577-584, 2005.
Karsch K., Liu C., and Kang S.B. Depth transfer: Depth extraction from video using non-parametric sampling. [C]TPAMI, 36(11):2144-2158, 2014.
Ladicky L.,Shi J., and Pollefeys M… Pulling things out of perspective. [C]In CVPR, 2014.
E. Delage, H. Lee, and A. Y. Ng. A dynamic bayesian network model for autonomous 3d reconstruction from a single indoor image. [C]In CVPR, 2006.
Eigen D.,Puhrsch C.,and Fergus R.Depth map prediction from a single image using a multiscale deep network.[C] In NIPS, 2014.

3D图像重建中的颜色预测误差研究相关推荐

  1. 计算机视觉中头部姿态估计的研究综述--Head Pose Estimation in Computer Vision - A Survey

    计算机视觉中头部姿态估计的研究综述 埃里克.莫非,IEEE的初级会员 默罕 马努拜特里维迪,IEEE高级会员 摘要---让计算机视觉系统作为一个普通人拥有识别另一个人的头部姿势的能力这一想法的提出,对 ...

  2. 计算机视觉中头部姿态估计的研究综述

    Head Pose Estimation in Computer Vision: A Survey Erik Murphy-Chutorian, Student Member, IEEE and Mo ...

  3. 多目立体匹配的前世今生 | 聊一聊MVS及其在3D检测中的应用

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[数据集下载]获取计算机视觉近30种数据集! 学习资料: GitHu ...

  4. 文献翻译__人工智能时代医学图像重建中的凸优化算法(第4、5、6章)

    文章下载–我的Gitee Convex optimization algorithms in medical image reconstruction-in the age of AI 人工智能时代医 ...

  5. 使用脑电图慢皮层电位重建3D空间中的手,肘和肩的实际和想象的轨迹

    导读 从神经活动中解码想象运动的运动学的能力对于开发可以帮助行动不便的人的假肢设备至关重要.当前采用脑电图(EEG)等无创记录方法解码实际和想象的手运动轨迹来控制神经运动假体,通常通过应用多维线性回归 ...

  6. ECCV 2022 | 稀有类别提升31%!如何解决3D检测中长尾问题?(Waymo最新)

    题目:Improving the Intra-class Long-tail in 3D Detection via Rare Example Mining 作者:waymo 摘要 深度学习体系结构的 ...

  7. 基于2.5/3D的自主主体室内场景理解研究

    作者:Tom Hardy Date:2020-3-13 来源:基于2.5/3D的自主主体室内场景理解研究 参考链接:https://arxiv.org/abs/1803.03352 主要内容 摘要随着 ...

  8. 【ECCV2022】如何解决3D检测中长尾问题?

    作者|汽车人 编辑|3D视觉开发者社区 题目:Improving the Intra-class Long-tail in 3D Detection via Rare Example Mining 作 ...

  9. 物体可见性信息在3D检测中的探索CVPR2020(oral)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 前言 本文是一篇来自Carnegie Mellon大学和Argo AI的合作工作,目前已经被CVPR2 ...

最新文章

  1. 运维中心建设--数据管理
  2. jsp图片上传(commons-fileupload组件)
  3. 为什么我们需要volatile关键字?
  4. JavaScript:从此不再怕闭包
  5. 使用JDK Logging - Java异常处理
  6. 【Unity】12.4 通过网格分层选择行进路线
  7. dataframe列互换 python_统计学原理之python数据分析基础
  8. markdown写小于等于号(等于贴着角)\leqslant
  9. python元类_Python中元类
  10. 201521123014 《Java程序设计》第7周学习总结
  11. 4.14 在数字的左侧进行补零 [原创Excel教程]
  12. 《东周列国志》第二十五回 智荀息假途灭虢 穷百里饲牛拜相
  13. python 强类型 弱类型_Python 到底是强类型语言,还是弱类型语言?
  14. 和求余运算巧妙结合的jns指令
  15. C语言输入三边求三角形面积
  16. STM32F103C8T6基于Arduino框架下利用定时器跑RBG灯闪烁
  17. 华为6年经验测试工程师,做软件测试的一些感悟
  18. 数电技术基础大恶补09:脉冲产生及其整形
  19. 转发抽奖!蚂蚁区块链创新大赛深圳站报名进行中
  20. sga的组成 简述oracle_Oracle SGA多个部分的组成

热门文章

  1. EOS的经济模型是什么?
  2. 大力哥谈 DALI - DALI 调光电源怎么用
  3. gitlab cicd配置
  4. AndroidGradle权威指南__读书笔记
  5. 佳能相机快门测试软件不收费,【有图】佳能单反查快门的免费软件 EOSMSG4.0 新测好用-蜂鸟网...
  6. jsp+spring+hibernate
  7. YOLOv5训练自己的数据集之详细过程篇
  8. iOS之身份证的正则校验
  9. 一个承载无数悲痛的网站
  10. 4. “随机漫步的傻瓜--纳西姆.尼古拉斯.塔勒布”读后感