HOG概述

HOG (Histogram of Oriented Gradients),即方向梯度的直方图.它统计某个方向区间内的梯度大小(即 voting vector,投票矢量).核心思想是把每个图像模块划分为固定大小的8X8单元格, 描述梯度的幅度和方向.将每个模块对应的HOG特征描述为重要的跟踪信息，再通过Gamma去高光等处理准确提取的图像的特征信息。
即在所有的64个单元格上单独计算直方图,指定x轴设置的区间数, x轴表示梯度方向,它的范围指定为0~180°.

图1 梯度方向分割
计算直方图的函数代码实现

'''
函数名称：calc_hist
功能：计算直方图
输入：
mag    幅值矩阵
angle  角度矩阵，范围在 0-180
bin_size    直方图区间大小
输出：
hist    直方图
'''
def calc_hist(mag, angle, bin_size=9):hist = np.zeros((bin_size,), dtype=np.int32)bin_step = 180 // bin_sizebins = (angle // bin_step).flatten()flat_mag = mag.flatten()for i,m in zip(bins, flat_mag):hist[i] += mreturn hist

之后计算单元格的部分:

# 将图像切成多个cellcell_size = 8bin_size = 9img_h, img_w = gray.shape[:2]cell_h, cell_w = (img_h // cell_size, img_w // cell_size)cells = np.zeros((cell_h, cell_w, bin_size), dtype=np.int32)for i in range(cell_h):cell_row = cell_size * ifor j in range(cell_w):cell_col = cell_size * jcells[i,j] = calc_hist(mag[cell_row:cell_row+cell_size, cell_col:cell_col+cell_size], angle[cell_row:cell_row+cell_size, cell_col:cell_col+cell_size], bin_size)

多个单元格组合成一个块.即图中黄色格子.每个单元格上面有一个9维的表示直方图大小的向量,那么一个块就有2X2X9=36维向量, 块就是要把每次选中的这36维向量做规范化,得到新的36维向量.

规范化的方法有:

通常使用L2-Norm,先对整个整个向量的各个元素都求平方然后求和、开根号作为规范化因子，然后对原向量中每一个元素都除以这个规范化因子。
L2 规范化的函数实现代码:

# 归一化cells
def l2_norm(cells):block = cells.flatten().astype(np.float32)norm_factor = np.sqrt(np.sum(block**2) + 1e-6)block /= norm_factorreturn block

再利用之前得到的单元格和规范化函数就可以写块实现的操作了.

# 多个cell融合成blockblock_size = 2block_h, block_w = (cell_h-block_size+1, cell_w-block_size+1)blocks = np.zeros((block_h, block_w, block_size*block_size*bin_size), dtype=np.float32)for i in range(block_h):for j in range(block_w):blocks[i,j] = l2_norm(cells[i:i+block_size, j:j+block_size])

把这么多个 block 的 36维向量拼起来就是 HOG 特征描述子（descriptor）了，在这里来说就是把 blocks 这个 3 维的矩阵摊平，也只要一行代码：

blocks = blocks.flatten()

我把整个 HOG 的计算过程封成了一个函数，是这样的：

# 计算HOG特征
def calc_hog(gray):''' 计算梯度 '''dx = cv2.Sobel(gray, cv2.CV_16S, 1, 0)dy = cv2.Sobel(gray, cv2.CV_16S, 0, 1)sigma = 1e-3# 计算角度angle = np.int32(np.arctan(dy / (dx + sigma)) * 180 / np.pi) + 90dx = cv2.convertScaleAbs(dx)dy = cv2.convertScaleAbs(dy)# 计算梯度大小mag = cv2.addWeighted(dx, 0.5, dy, 0.5, 0)print('angle\n', angle[:8,:8])print('mag\n', mag[:8,:8])''' end of 计算梯度 '''# 将图像切成多个cellcell_size = 8bin_size = 9img_h, img_w = gray.shape[:2]cell_h, cell_w = (img_h // cell_size, img_w // cell_size)cells = np.zeros((cell_h, cell_w, bin_size), dtype=np.int32)for i in range(cell_h):cell_row = cell_size * ifor j in range(cell_w):cell_col = cell_size * jcells[i,j] = calc_hist(mag[cell_row:cell_row+cell_size, cell_col:cell_col+cell_size], angle[cell_row:cell_row+cell_size, cell_col:cell_col+cell_size], bin_size)# 多个cell融合成blockblock_size = 2block_h, block_w = (cell_h-block_size+1, cell_w-block_size+1)blocks = np.zeros((block_h, block_w, block_size*block_size*bin_size), dtype=np.float32)for i in range(block_h):for j in range(block_w):blocks[i,j] = l2_norm(cells[i:i+block_size, j:j+block_size])return blocks.flatten()

假设输入的图片是 64 x 128 的，cell 就会有 8 x 16 = 128个，block 就有 (8-2+1) x (16 - 2 + 1) = 105 个，每个 block 有 36 维向量，总共就是 105 x 36 = 3780维向量，这个向量就是对应这张图片的 HOG 特征。用其他特征得到的东西也是大同小异，都是不同大小表示不同信息的特征。

特征相当于该物体的 ID，如果同类的物体的特征很相似，我们就说这个特征至少对于该类物体的区分度很好。拿深度神经网络来说，用它做人脸识别的时候，也是输入图片，输出这么一个长长的向量，如果对于同一个人，这些产生的向量的距离很近，而对于不同人的距离则很远，就说这个神经网络精度很高，但本质的流程和这些人工设计的特征没有任何区别。
HOG检测器默认属性，RGB颜色空间，无伽马校正； [−1,0,1]梯度滤波器，无平滑；线性梯度投票在0◦–180◦中的9个方向仓中；四个8×8像素单元的16×16像素块; σ= 8像素的高斯空间窗； L2-Hys（Lowe样式修剪的L2范数）块归一化；块间距为8个像素（因此每个单元的覆盖率为4倍）； 64×128检测窗口；线性SVM分类器。
图1总结了各种HOG参数对整体检测性能的影响。这些将在下面详细讨论。主要结论是，为了获得良好的性能，应使用精细比例的导数（基本上不进行平滑处理），多个方向框以及中等大小的，高度归一化的重叠描述符块。

图1 .中（a）使用精细的导数比例可以显着提高性能。（“ c-cor”是一维三次校正点导数）。（b）增加定向箱的数量可显着提高性能，直到在0°至180°范围内间隔约9个箱。（c）不同块归一化方案的影响。（d）使用重叠的描述符块可将丢失率降低约5％。（e）减少64×128检测窗口周围的16个像素边距会使性能降低约4％。（f）使用高斯内核SVM exp（-γ？x1-x2？2）将性能提高约3％。

应用示例

特征区分度:
首先要介绍一下我使用的公开数据集 INRIA Person，这是一个公开的行人数据集，里面分为正样本和负样本，正样本几乎都是直立的老外行人，负样本是一些风景图片，可以给大家看一眼，这个数据集也能从网上直接下载。

正样本.png

负样本.png
我会把所有图片缩放到高度 128 和宽度 64，因此每张图片的 HOG 特征长度是 3780，如果我把所有这些 3780 维的向量都放在 3780 维空间上去看它们的分布，可能正样本会聚集在一堆，负样本聚在另一堆，这样是最好的，但是我们没办法可视化 3780 维的空间，所以我的做法是用 PCA（主成分分析）把它们压到二维，在二维平面上去看。
核心代码是这样的，需要 sklearn 和 scipy，可以通过 pip 安装：

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt# PCA 降维
pca = PCA(n_components=2, copy=True)
data_size = 500
pos_features = pca.fit_transform(pos_features[:data_size])
neg_features = pca.fit_transform(neg_features[:data_size])
# 显示
plt.plot(pos_features[:,0], pos_features[:,1], 'ro')
plt.plot(neg_features[:,0], neg_features[:,1], 'bo')
plt.show()

得到的图形是这样的:

蓝色点是行人，红色点是背景。
emmmm, 好像打脸了，（逃
打脸的原因可能有两个，一个是降维降太多了，二维信息不足以表达原来的 3000 多维的结构；二是我们看这个图形的角度不对，正所谓横看成岭侧成峰。假设这是两坨饼，红色一坨蓝色一坨，现在看起来是红色的饼叠在了蓝色的饼上面，所以正确的看法应该是，我们把红色的饼拿起来，然后从侧面去看，就会变成这样：

即完成了分类,线性可分.
SVM模型

from sklearn import svm# 合并特征
features = np.concatenate((pos_features[:data_size], neg_features[:data_size]))
labels = np.zeros((data_size*2,), dtype=np.int32)
labels[:data_size] = 1# SVM分类器
lin_clf = svm.LinearSVC()
lin_clf.fit(features, labels)

features 是正样本和负样本的特征合并起来的一个大矩阵，labels 表示的是每个特征对应的是什么类别，这里我设置了 1 对应行人，0 对应背景。为什么需要 labels，因为训练模型要用，训练模型跟老师教学生学习很像，我们要先给学生一吨的题，并且告诉他们背后有答案，自己对，这些题就是 features，答案就是 labels，于是他们做完对完这些题以后我们就希望他们能够举一反三，看到新的题的时候不方。lin_clf 就是 SVM模型，使用 fit 方法训练，稍等几秒就训练完了。
测试代码:

miao = cv2.imread('miao2.jpg')
miao = cv2.resize(miao, (64,128))
miao = cv2.cvtColor(miao, cv2.COLOR_BGR2GRAY)
miao_feature = calc_hog(miao)
pred_result = lin_clf.predict(np.array([miao_feature]))

结果 pred_result 当然是 1 了，如果不是我就不会放上来了。

参考链接::
https://www.jianshu.com/p/ed21c357ec12

HOG特征提取及应用详解相关推荐

图像特征提取（VGG和Resnet特征提取卷积过程详解）
图像特征提取(VGG和Resnet算法卷积过程详解) 第一章图像特征提取认知 1.1常见算法原理和性能众所周知,计算机不认识图像,只认识数字.为了使计算机能够"理解"图像,从而 ...
（一）ORB-SLAM3 中 orb 特征提取匹配部分详解
ORBextractor.cc 代码详解(按代码执行顺序分析) 本次我们对ORBextractor.cc的代码入口.构造函数.仿函数实现进行逻辑分析,下一篇再对里面的具体函数进行逐行分析首先一些参数 ...
HOG人体检测原理详解
http://blog.csdn.net/masibuaa/article/details/12917961 1.HOG特征: 方向梯度直方图(Histogram of Oriented Gradie ...
深度学习----CNN的图像学习之HOG(方向梯度直方图)详解
一.原理二.参数的理解 2.1.灰度值 2.2.归一化 2.3.细胞 2.4.窗口 2.5.类型 2.6.Gamma标准化 2.7.图像梯度及梯度算子 2.8.直方图 2.9.高斯空域加窗三.步骤 ...
『ML笔记』HOG特征提取原理详解+代码
HOG特征提取原理详解+代码! 文章目录一. HOG特征介绍二. HOG算法具体流程+代码 2.1. 图像灰度化和gamma矫正 2.2. 计算图像像素梯度图 2.3. 在8×8的网格中计算梯度直 ...
Python文本特征提取 DictVectorizer CountVectorizer TfidfVectorizer 附代码详解
文章目录 DictVectorizer 对使用字典储存的数据进行特征提取与向量化 CountVectorizer / TfidfVectorizer 处理无特殊数据结构存储的数据词袋模型(Bag o ...
灰度图像特征提取之统计方式详解
灰度图像特征提取之统计方式详解统计方法的优势: 具有较强的适应能力和鲁棒性. 统计方法的不足 : 与人类视觉模型脱节,缺少全局信息的利用,难以研究纹理尺度间像素的遗传或依赖关系:缺乏理论支撑:计算复 ...
python图像特征提取进行分割_python实现图片处理和特征提取详解
这是一张灵异事件图...开个玩笑,这就是一张普通的图片. 毫无疑问,上面的那副图画看起来像一幅电脑背景图片.这些都归功于我的妹妹,她能够将一些看上去奇怪的东西变得十分吸引眼球.然而,我们生活在数字图片 ...
ORB特征提取详解 BRUEF rBRIEF steered BRIEF
ORB特征提取详解 1.算法介绍 ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点提取和描述的算法.这个算法是由Ethan Rublee, Vincent Ra ...

HOG特征提取及应用详解

HOG特征提取及应用详解

HOG概述

应用示例

HOG特征提取及应用详解相关推荐

最新文章

热门文章