使用OpenCV，Python进行图像哈希（差分哈希 dHash）处理

使用OpenCV，Phthon进行图像哈希处理的一个重要应用是去除重复的图像；

当你有多个相册的图片，进行合并时，so boring，有一些图片是重复的，肉眼来看太难删除了。

图像哈希可以帮助你完美的解决这个问题，找到完全相同的图片，只保留一张，删除其他的。

图像哈希（也称为感知哈希）是基于图像的视觉内容构造哈希值的过程。我们将图像哈希用于CBIR，近重复检测和反向图像搜索引擎。

1. 图像哈希的原理

（1）检查图像内容
（2）构造一个哈希值，该哈希值根据图像的内容唯一地标识输入图像

图像哈希的最重要的一个应用是：反向图像搜索引擎。

2. 为什么md5，sha-1不起作用？

将一张图片有250250缩放到500500，图像没有变化，但计算出来的md5值变了。原因在于：密码哈希算法的本质：更改文件中的单个位将导致不同的哈希。

在图像哈希/感知哈希情况下，我们实际上希望相似的图像也具有相似的哈希值。 这也是根本原因。

解决办法： 使用差分哈希（Difference Hash 简称dHash）；

3. 差异哈希

（1）转为灰度图（可以更快运算，匹配相同但色彩空间稍有改变的图像）；
（2）忽略宽高比的缩放图像至9 * 8；
（3）9 * 8计算相邻行之间相邻像素的差值，得到8 * 8；
（4）计算哈希值（x>p(x+1) =1 : 0）；

4. 差异哈希的好处

（1）如果输入图像只是宽高比发生变化，图像哈希不会改变；
（2）只是调整亮度或对比度将不会更改哈希值，或者只会对其稍有更改，以确保哈希值紧密地靠在一起；
（3）差异哈希速度非常快；

5. 对比差异哈希的值

使用汉明距离对比俩个哈希的值；
汉明距离为零的两个哈希值意味着两个哈希值是相同的（因为没有不同的位），并且两个图像是相同的/在感知上也相似。

6. 应用差异哈希解决实际问题

问题：整理照片常遇到的问题，文件夹haystack，文件夹needle中有许多子目录，包含很多照片。
目标：判断needle中有哪些目录的哪些照片没有在haystack；

# python hash_and_search.py --haystack haystack --needles needles# 导入必要的包
from imutils import paths
import argparse
import time
import sys
import cv2
import os# 差分Hash算法（相邻列的相邻像素相减  由9*8 相减得到 8*8 64位哈希值）
def dhash(image, hashSize=8):# 缩放图像，多增加一列，以后续进行水平梯度计算resized = cv2.resize(image, (hashSize + 1, hashSize))# 水平方向，计算相邻的行之间的差值diff = resized[:, 1:] > resized[:, :-1]# 转换不同图像为hashreturn sum([2 ** i for (i, v) in enumerate(diff.flatten()) if v])# 构建命令行参数
# --haystack 大文件夹
# --needle 小文件夹
# 目标： 检查needle中的每个图像是否在haystack中，已存在的删除，不存在的保留
ap = argparse.ArgumentParser()
ap.add_argument("-a", "--haystack", required=True,help="dataset of images to search through (i.e., the haytack)")
ap.add_argument("-n", "--needles", required=True,help="set of images we are searching for (i.e., needles)")
args = vars(ap.parse_args())# 获取needle、haystack文件夹总的所有图片文件
print("[INFO] computing hashes for haystack...")
haystackPaths = list(paths.list_images(args["haystack"]))
needlePaths = list(paths.list_images(args["needles"]))# 移除文件中的\\ 或者空格
# Windows操作系统使用\分隔路径
# 在Unix系统使用/时分隔路径
if sys.platform != "win32":haystackPaths = [p.replace("\\", "") for p in haystackPaths]needlePaths = [p.replace("\\", "") for p in needlePaths]# 获取needle的子目录 初始化字典（映射文件名和hash值）
BASE_PATHS = set([p.split(os.path.sep)[-2] for p in needlePaths])
haystack = {}  # 文件名与hash值的映射字典
start = time.time()# 循环遍历haystack路径
for p in haystackPaths:# 从磁盘加载图片image = cv2.imread(p)# 如果image为None，跳过...if image is None:continue# 转换图像为灰度图，并计算hash值image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)imageHash = dhash(image)# 更新haystack字典l = haystack.get(imageHash, [])l.append(p)haystack[imageHash] = l# 显示haystack字典更新的耗时，开始甲酸needle图像的hash值
print("[INFO] processed {} images in {:.2f} seconds".format(len(haystack), time.time() - start))
print("[INFO] computing hashes for needles...")# 遍历needle路径的图像
for p in needlePaths:# 加载图片image = cv2.imread(p)# 图像为None，跳过...if image is None:continue# 转换为灰度图，计算hash值image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)imageHash = dhash(image)# 获取所有匹配该hash值的图像matchedPaths = haystack.get(imageHash, [])# 遍历所有匹配的图像路径for matchedPath in matchedPaths:# 提取图片的子文件夹路径b = p.split(os.path.sep)[-2]# 如果needle路径的基本路径包含子目录，if b in BASE_PATHS:BASE_PATHS.remove(b)# 显示路径以检查
print("[INFO] check the following directories...")
# 循环遍历子目录并打印照片
for b in BASE_PATHS:print("[INFO] {}".format(b))