首先说一下距离三要素:

1)非负性;2)对称性;3)三角不等式。(PS:有些距离并不能同时满足)

集中一下都有啥距离:

L1距离,L2距离(欧式距离),L∞距离,欧氏距离平方(squared Euclidean distance),intersection distance, Kullback-Leibler(K-L)距离,Jeffrey距离,χ2距离,巴氏距离,Consine距离,quadratic-form(QF)距离,match距离,Kolmogorov-Smirnov(K-S)距离,earth mover distance(EMD), fast earth mover distance (Fast EMD),quadratic-chi 距离, diffusion距离(以上摘录自小木虫论坛的作者zhouweiji的提问,计算直方图距离) ,另外还有街区距离,棋盘距离

已知  n维向量X,Y(有些语言上好表达的,就不上公式了)

对 范数L1 :各个元素的绝对值和;L2:各元素平方和;L0:非零元素个数;

Lp范数定义如下:

欧氏距离

度量两个向量之间的距离

Hellinger距离

度量两个分布之间的相似度

the Hellinger distance (also called Bhattacharyya distance as this was originally introduced by Anil Kumar Bhattacharya) is used to quantify the similarity between two probability distributions. 【个人觉得这里说的不是很对,Hellinger distance 和Bhattacharyya coefficient是一回事,但Bhattacharyya distance则是在该距离的基础上做了对数变换】

Hellinger距离其实就是向量值开根号,然后,在求欧式距离

巴氏距离

度量两个分布之间的相似度

the Bhattacharyya distance measures the similarity of two discrete or continuous probability distributions.

It is closely related to the Bhattacharyya coefficient which is a measure of the amount of overlap between two statistical samples or populations

巴氏距离即Hellinger距离求-ln

马氏距离

度量点到分布的距离

The Mahalanobis distance is a measure of the distance between a point P and a distribution D, introduced by P. C. Mahalanobis in 1936.

KL 距离(Kullback–Leibler divergence)

度量两个分布之间的距离

KL距离不具有对称性,即P到Q的距离,不一定等于Q到P的距离

卡方距离(chi square distance)

多用于直方图比较

其中的期望频数是这样计算的:

KL散度(Kullback-Leibler_divergence)

一. 概念

KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。

根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:

H(X)=∑x∈XP(x)log[1/P(x)]

在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)]),来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:

DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))] - ∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]

由于-log(u)是凸函数,因此有下面的不等式

DKL(Q||P) = -∑x∈XQ(x)log[P(x)/Q(x)] = E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑x∈XQ(x)P(x)/Q(x) = 0

即KL-divergence始终是大于等于0的。当且仅当两分布相同时,KL-divergence等于0。

二. 例子

下面举一个实际的例子吧:比如有四个类别,一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B(或者说是事实情况)是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)

这个里面有正的,有负的,可以证明KL-Distance()>=0.

从上面可以看出, KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)

KL散度是不对称的,当然,如果希望把它变对称,

Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2

三. 应用于推荐系统的一个例子

在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。比如,如果两个物品的话题分布相似,则认为两个物品具有较高的相似度,反之则认为两个物品的相似度较低。计算分布的相似度可以利用KL散度来计算:

D

KL(p||q)=∑

i∈Xp(i)ln(p(i)/q(i),其中p和q是两个分布,KL散度越大说明分布的相似度越低。

计算机及统计学,统计学中及计算机视觉中的各种 距离 汇总。。。相关推荐

  1. asp.net 获取计算机配置_智能制造中的计算机视觉应用瓶颈问题

    点击上方"新机器视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文摘自于:雷林建, 孙胜利, 向玉开, 张悦, 刘会凯. 202 ...

  2. 统计学相关概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  3. 计算机在随机抽样上的应用,数理统计学中随机抽样的应用研究

    摘要:为了研究随机抽样在实际生产生活中的应用,本文分析了随机抽样在各个领域的重要性,对随机抽样的概念及操作步骤.方法进行了详细阐述,最后研究了随机抽样的步骤,举例说明了随机抽样应用的广泛性. 关键字: ...

  4. 浅谈计算机教学的现状分析,浅谈中职计算机专业教学的现状与对策

    好文网为大家准备了关于浅谈中职计算机专业教学的现状与对策的文章,好文网里面收集了五十多篇关于好浅谈中职计算机专业教学的现状与对策好文,希望可以帮助大家.更多关于浅谈中职计算机专业教学的现状与对策内容请 ...

  5. LIVE 预告 | 南洋理工张含望:因果推理在计算机视觉中的进展

    自从贝叶斯网络之父Judea Peal吹响"因果革命"的号角以来,因果科学在人工智能领域越来越深入人心,我们因果科学社区也已汇聚了数百名来自中国AI学术界.产业界的各路专家和青年才 ...

  6. 深度学习在计算机视觉中的应用长篇综述

    深度学习在计算机视觉中的应用长篇综述 前言 2012年ImageNet比赛,使深度学习在计算机视觉领域在全世界名声大震,由此人工智能的全球大爆发.第一个研究CNN的专家使Yann LeCun,现就职于 ...

  7. 中职学校计算机教学背景,创新网络背景下中职院校计算机教学模式探析

    互联网时代的发展不仅加速了信息的流通,同时也为信息获取提供了强大的支撑和动力.在传统教学模式的引导下,教学只是局限于课堂,而忽视了开放性教学的体验,这已无法适应时代背景的发展,创新改革势在必行. 1 ...

  8. 自监督学习在计算机视觉中的应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者&编辑:李中梁 自监督学习介绍 对于预训练技术大家一定 ...

  9. 计算机视觉在生物公司的应用,生物视觉仿生在计算机视觉中的应用研究.pdf

    Vol. 26 No. 3 第 26 患第3 A11 计 算 机应用研究 双脚年3 月 Applicalìon R回earch of Com萨Jlera Mar. 2009 生物视觉仿生在计算机视觉中 ...

最新文章

  1. 神竜出击 合三为一!
  2. nginx 获取真实ip
  3. imageView阴影和圆角效果的处理
  4. 自学python(一)
  5. Python3.6学习笔记(二)
  6. Ubuntu 16.04通过Snap安装应用程序
  7. IO中的阻塞、非阻塞、同步、异步概念分析详解(通俗易懂)
  8. ascll码和常用5000汉字(做字库可能会用到)
  9. 启用IIS7配置ASP运行环境的详细方法
  10. android模拟器开启vt,雷电模拟器怎么开启VT 雷电安卓模拟器VT虚拟化打开教程
  11. 关于兔子吃萝卜问题,走一步吃个萝卜。
  12. 手机电商营销模式探讨
  13. jQuery(一)jQuery的认识和使用
  14. configure: error: C preprocessor “/lib/cpp“ fails sanity check错误解决办法
  15. 未来五年 LED智慧透明屏未来3大发展趋势
  16. c c java可归类为,C、C 、Java可归类为( )语
  17. 去掉 unigui 服务器端的 UniGUI Server 字样
  18. 滁州市南谯区东方花园滨水青年旅馆A方案
  19. js中常用的数学方法(全)
  20. 写乐100道练习题_初一数学计算题100道

热门文章

  1. form表单中的onSubmit
  2. 主板aspm关闭_华硕主板BIOS关闭secure boot和fastboot图解
  3. vector BLF 文件读写
  4. linux重定向的 符号,linux基础学习-4.3-特殊符号与重定向符号详解
  5. 机器学习数据集(Dataset)汇总
  6. iOS https证书双向认证的实现机制
  7. 2018清华计算机考研总结
  8. 【PostgreSQL】PostgreSQL的upsert功能(insert on conflict do)的用法
  9. PCB模拟信号线与数字信号线布线技巧
  10. fi选项 电脑没有连接wi,没有电脑怎么设置无线路由器?