http://www.ruanyifeng.com/blog/2013/03/similar_image_search_part_ii.html

作者: 阮一峰

日期: 2013年3月31日

二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。

昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。

一、颜色分布法

每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。

任何一种颜色都是由红绿蓝三原色(RGB)构成的,所以上图共有4张直方图(三原色直方图 + 最后合成的直方图)。

如果每种原色都可以取256个值,那么整个颜色空间共有1600万种颜色(256的三次方)。针对这1600万种颜色比较直方图,计算量实在太大了,因此需要采用简化方法。可以将0~255分成四个区:0~63为第0区,64~127为第1区,128~191为第2区,192~255为第3区。这意味着红绿蓝分别有4个区,总共可以构成64种组合(4的3次方)。

任何一种颜色必然属于这64种组合中的一种,这样就可以统计每一种组合包含的像素数量。

上图是某张图片的颜色分布表,将表中最后一栏提取出来,组成一个64维向量(7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。这个向量就是这张图片的特征值或者叫"指纹"。

于是,寻找相似图片就变成了找出与其最相似的向量。这可以用皮尔逊相关系数或者余弦相似度算出。

二、内容特征法

除了颜色构成,还可以从比较图片内容的相似性入手。

首先,将原图转成一张较小的灰度图片,假定为50x50像素。然后,确定一个阈值,将灰度图片转成黑白图片。

  

如果两张图片很相似,它们的黑白轮廓应该是相近的。于是,问题就变成了,第一步如何确定一个合理的阈值,正确呈现照片中的轮廓?

显然,前景色与背景色反差越大,轮廓就越明显。这意味着,如果我们找到一个值,可以使得前景色和背景色各自的"类内差异最小"(minimizing the intra-class variance),或者"类间差异最大"(maximizing the inter-class variance),那么这个值就是理想的阈值。

1979年,日本学者大津展之证明了,"类内差异最小"与"类间差异最大"是同一件事,即对应同一个阈值。他提出一种简单的算法,可以求出这个阈值,这被称为"大津法"(Otsu's method)。下面就是他的计算方法。

假定一张图片共有n个像素,其中灰度值小于阈值的像素为 n1 个,大于等于阈值的像素为 n2 个( n1 + n2 = n )。w1 和 w2 表示这两种像素各自的比重。

  w1 = n1 / n

  w2 = n2 / n

再假定,所有灰度值小于阈值的像素的平均值和方差分别为 μ1 和 σ1,所有灰度值大于等于阈值的像素的平均值和方差分别为 μ2 和 σ2。于是,可以得到

  类内差异 = w1(σ1的平方) + w2(σ2的平方)

  类间差异 = w1w2(μ1-μ2)^2

可以证明,这两个式子是等价的:得到"类内差异"的最小值,等同于得到"类间差异"的最大值。不过,从计算难度看,后者的计算要容易一些。

下一步用"穷举法",将阈值从灰度的最低值到最高值,依次取一遍,分别代入上面的算式。使得"类内差异最小"或"类间差异最大"的那个值,就是最终的阈值。具体的实例和Java算法,请看这里。

有了50x50像素的黑白缩略图,就等于有了一个50x50的0-1矩阵。矩阵的每个值对应原图的一个像素,0表示黑色,1表示白色。这个矩阵就是一张图片的特征矩阵。

两个特征矩阵的不同之处越少,就代表两张图片越相似。这可以用"异或运算"实现(即两个值之中只有一个为1,则运算结果为1,否则运算结果为0)。对不同图片的特征矩阵进行"异或运算",结果中的1越少,就是越相似的图片。

(完)

转载于:https://www.cnblogs.com/bnuvincent/p/4857866.html

相似图片搜索的原理(二)(转)相关推荐

  1. 以图搜图 相似图片搜索的原理(二)

    转自:http://www.ruanyifeng.com/blog/2013/03/similar_image_search_part_ii.html 二年前,我写了<相似图片搜索的原理> ...

  2. 相似图片搜索的原理(二)

    转自:http://www.ruanyifeng.com/blog/2013/03/similar_image_search_part_ii.html 二年前,我写了<相似图片搜索的原理> ...

  3. Google 图片搜索的原理是什么?

    Google 图片搜索的原理是什么? 1 条评论 分享 按投票排序按时间排序 18 个回答 389赞同 反对,不会显示你的姓名 知乎用户,安全行业 XsXs.知乎用户.知乎用户 等人赞同 针对这个问题 ...

  4. 简单的相似图片搜索的原理

    FROM:1) http://www.ruanyifeng.com/blog/2011/07/principle_of_similar_image_search.html 2) http://www. ...

  5. 相似图片搜索的原理(转)

    http://www.ruanyifeng.com/blog/2011/07/principle_of_similar_image_search.html 作者: 阮一峰 日期: 2011年7月21日 ...

  6. 相似图片搜索的原理(1)

    [原文链接] 上个月,Google把"相似图片搜索"正式放上了首页. 你可以用一张图片,搜索互联网上所有与它相似的图片.点击搜索框中照相机的图标. 一个对话框会出现. 你输入网片的 ...

  7. 以图搜图 相似图片搜索的原理(一)

    转自:http://www.ruanyifeng.com/blog/2011/07/principle_of_similar_image_search.html 上个月,Google把"相似 ...

  8. 相似图片搜索的原理(一)

    之前毕业论文做的是图片检索相关研究,当时看到了阮哥的博文,对入门很有指导意义,现在把他的文收藏到自己博客,呵呵..... 上个月,Google把"相似图片搜索"正式放上了首页. 你 ...

  9. [图像识别]相似图片搜索的原理

    你可以用一张图片,搜索互联网上所有与它相似的图片.点击搜索框中照相机的图标. 一个对话框会出现. 你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片.下面这张图片是美国女演员Aly ...

  10. 以图找图:相似图片搜索的原理

    来源: 阮一峰 你可以用一张图片,搜索互联网上所有与它相似的图片.点击搜索框中照相机的图标. 一个对话框会出现. 你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片.下面这张图片是 ...

最新文章

  1. python测试程序的qps和响应时间代码_Python并发请求下限制QPS(每秒查询率)的实现代码...
  2. python使用matplotlib可视化、移除可视化图像坐标轴的刻度线和标签( remove the default axis ticks and labels)
  3. 汇编 debug调试
  4. P1875 佳佳的魔法药水 (最短路,DP)
  5. 高度平衡二叉树的构建_平衡二叉树建立及其增删改查(JAVA)
  6. 指数型组织形成的 9 大驱动因素
  7. block介绍(四)揭开神秘面纱(下)
  8. Chainlink预言机正式集成至币安智能链
  9. Powershell - 获取OS版本信息和catpion信息
  10. web1:http协议简介和用netassist和py程序当http服务器
  11. 《算法导论》第四版 电子版 全网第一时间发布eBookhub
  12. Mac安装jdk并配置环境变量
  13. 企业认证CMMI都需要那些流程?
  14. 免费的自媒体原创度检测工具有哪些?快速帮你提高系统推荐
  15. VB6.0视频教程78集,入门视频教程,基础够了(基础篇)
  16. 锐捷客户端的默认网关跟ipv4的网关不一样
  17. html将图片裁剪成圆形,zrender将一张图片裁剪为圆形
  18. RecyclerView点击某个条目保持选中
  19. QLabel实现超链接,设置超链接颜色,去掉超链接下划线方法
  20. 资源小屋(更新ing.......)

热门文章

  1. 同学,那些个证书没屌用!
  2. 【LeetCode】整数反转【不能借助辅助空间,需要处理溢出】
  3. 使用CoreTelephony获得SIM卡网络运营商名称
  4. mybaits 返回ListString
  5. memcached系列之二
  6. 老李分享:持续集成学好jenkins之解答疑问
  7. 设置文本输入框光标位置,兼容ie,w3c
  8. C# Web Service 不使用服务引用直接调用方法(转)
  9. 面试题(4)--基础篇
  10. HDU 3480 Division(斜率DP裸题)