赵仲秋《基于稀疏编码多尺度空间潜在语义分析的图像分类》论文阅读笔记

论文：赵仲秋,季海峰,高隽,胡东辉,吴信东.基于稀疏编码多尺度空间潜在语义分析的图像分类[J].计算机学报,2014,37(06):1251-1260.

文章摘要：
传统潜在语义分析方法无法利用图像中区域语义构成的上下文信息来获得图像目标空间分布信息，因此它丢掉了局部特征之间的空间关系信息。而基于最近邻矢量量化来构造共生矩阵具有较大的量化误差，使得特征描述缺乏鲁棒性，影响后续潜在语义分析获得特征的精确性。为了弥补这些不足，文中提出了一种基于稀疏编码的多尺度空间潜在语义分析的图像分类方法。首先通过空间金字塔方法对图像进行空间多尺度划分，然后利用稀疏编码对每个局部块特征进行软量化以形成共生矩阵，之后结合概率潜在语义分析(PLSA)获得每个局部块的潜在语义信息，再利用权值串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息，最后用支持向量机(SVM)分类器完成图像的场景分类。在常见图像库上的实验表明，本文提出的基于稀疏编码的多尺度空间潜在语义分析方法平均分类精度比现有诸多方法均有明显提高，验证了其有效性和鲁棒性。实验还表明，空间金字塔匹配、稀疏编码共生矩阵以及PLSA降维这３个模块在该文方法中缺一不可，共同提升图像表征和分类性能。

从摘要中可知该文章所提出的稀疏编码多尺度空间潜在语义分析算法主要用到的模块主要有：空间金字塔，稀疏编码、概率潜在语义分析(PLSA)、支持向量机(SVM)。

图像分类方法主要可分为两类：基于全局特征、基于中层语义信息。本文中指出基于图像的底层特征无法解决图像分类中的“语义鸿沟”问题，，即底层视觉特征和高层语义特征之间的不统一性。该问题即是底层特征难以捕捉重要特征，影响结果的正确率；并且全局特征存在的最显著的问题是特征无重点，数据量相对较大，占用资源严重；难以抓住有用信息。本文通过空间金字塔思想对图像进行空间分层和局部区域分块划分获得图像的局部块之间的空间关系，接着利用SC每个局部块进行软量化形成共生矩阵，再结合PLSA模型对每个局部块进行潜在语义挖掘以获得其潜在语义信息分布。最后通过权值将不同尺度上汇总的潜在语义信息进行串接得到图像最终的特征描述。画做图像可表示为：

本文的几个创新点（亮点）：

1、NN-VQ → SC
SC利用了更多视觉字典中的基来表示特征描述子，而NN-VQ方法只选择１个基来表示局部特征描述子。本文采用SC方法取代原先的NN-VQ方法来进行量化形成共生矩阵，使得生成的共生矩阵具有较小的重构误差。

2、本文借鉴PLSA主题模型在文本分析中的一些优良特性来对图像进行分析，将该模型用于图像局部区域潜在语义挖掘，使其获得的潜在语义特征具有较小的冗余性和歧义性。

3、图像多尺度空间潜在语义学习模型
以一个3层空间金字塔分块模型为例，第０层表示是原图像，第１层对图像进行２×２分块划分，第2层对图像进行４×４分块划分，则一共可以得到21个图像区域，如图：

4、训练和测试阶段
下图为基于稀疏编码多尺度空间潜在语义分析的图像分类的总体框架示意图．系统主要分为两个阶段：训练阶段和测试阶段。在训练阶段，通过本文提出的图像多尺度空间潜在语义模型学习得到最优的 PLSA模型，再结合该模型生成的图像多尺度空间潜在语义特征来训练SVM分类器模型，从而得到最优的SVM分类器模型．在测试阶段，首先结合训练阶段得到的最优PLSA模型参数P(w|z)及测试图像的每个局部区域软量化形成的共生矩阵，使用folding-in方法来计算测试图像的空间潜在语义信息分布，再联合训练阶段生成的最优SVM对该潜在语义信息分布向量进行分类，并将所得的置信度最高的语义类别作为该测试图像的类别标签从而实现测试图像分类。

本文结论

本文提出基于稀疏编码多尺度空间潜在语义分析的图像分类方法。通过图像分割的空间金字塔匹配提取目标空间位置信息；基于稀疏编码对局部区域进行特征软量化，形成共生矩阵，提高了共生矩阵对原始特征表述的准确性；最后，结合PLSA模型挖掘局部潜在语义信息，并串接每个局部的语义信息得到图像多尺度空间潜在语义信息．通过实验验证，本文方法同现有较好图像分类方法相比分类精度更高；而空间金字塔匹配、稀疏编码构建共生矩阵以及PLSA降维这３个模块在本文方法中缺一不可，使图像得到更精确的表征，共同提升图像分类性能。