相似性度量,即综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。相似性度量的给法种类繁多,一般根据实际问题进行选用。

1. 余弦相似度

2. 曼哈顿距离

3. 切比雪夫距离

4. 简单匹配系数

5. jaccard 相似度

5.1 Jaccard系数

5.2 jaccard 距离

5.3 举例

6. 皮尔逊相关系数


1. 余弦相似度

自然语言处理中,常采用余弦相似度进行文档相似性度量手段,假定A和B是两个n维文档向量,A为 [A1, A2, ..., An] ,B为[B1, B2, ..., Bn] ,则A与B的余弦相似度等于:

2. 曼哈顿距离

设平面空间内存在两点,它们的坐标为(x1,y1),(x2,y2),则dis=|x1−x2|+|y1−y2|,即两点横纵坐标差之和。

3. 切比雪夫距离

设平面空间内存在两点,它们的坐标为(x1,y1),(x2,y2),则dis=max(|x1−x2|,|y1−y2|),即两点横纵坐标差的最大值。

曼哈顿距离和切比雪夫距离之间的相互转换关系,请移步至:曼哈顿距离与切比雪夫距离及其相互转化。

4. 简单匹配系数

简单匹配系数(simple matching coefficient)的定义如下:

设x和y是两个对象,都有n个二元属性组成。这两个对象(二元向量)进行比较,可以生成4个量:

  • f00=x取0且y取0的属性个数;
  • f10=x取1且y取0的属性个数;
  • f01=x取0且y取1的属性个数;
  • f11=x取1且y取1的属性个数;
SMC=值匹配的属性个数/属性个数=(f11+f00)/(f01+f10+f00+f11)

5. jaccard 相似度

5.1 Jaccard系数

Jaccard系数(jaccard index)又称为Jaccard 相似度(jaccard similarity coefficient),用于比较有限样本集之间的相似性和差异性。给定两个集合A,B jaccard 系数定义为A与B交集的大小并集大小比值,jaccard值越大说明相似度越高。

当A和B都为空时,jaccard(A,B)=1;

jaccard相似度的缺点是只适用于二元数据的集合。

5.2 jaccard 距离

与jaccard 系数相关的指标是jaccard距离用于描述不相似度,公式为

5.3 举例

举一个非对称(注意这里强调非对称)二元属性的相似度的例子。

二元属性:取值为0或者1的属性,所以也成为布尔属性

对称二元属性:属性的两个状态的权重相同,例如:“性别”这一属性的取值“男性”,“女性”。

非对称二元属性:即状态的权重不相同,例如:“HIV”有“阴性”和“阳性”,阳性比较稀少,更重要。

已知有序集合A,B,每个集合都含有n个二元的属性,即每个属性都是0或1,其中:

  • M11表示A和B对应位都是1的属性的数量
  • M10表示A中为1,B中对应位为0的总数量
  • M01表示A中为0,B中对应位为1的总数量
  • M00表示对应位都为0的总数量

则满足:M11+M10+M01+M00=n。

Jaccard 相似度

jaccard距离

这里有人会有疑问,jaccard相似度是指交集和并集的比值,但是,这里J的分子为什么只有M11没有M00?

这是因为我们求的是非对称二元属性的相似度,这里只有非0值才受关注,比如考虑普通人的健康状况,属性集合(糖尿病,心脏病,精神病等),糖尿病指标0表示没有糖尿病,1表示糖尿病,心脏病指标0表示没有心脏病,1表示心脏病,比较两个人的患病情况,我们只关注有病的情况。所以分子和分母中没有M00。

更多详情,请移步至:jaccard相似度

6. 皮尔逊相关系数

Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,定义如下:

其中:D(X)为X的方差,D(Y)为Y的方差。

根据施瓦茨不等式可以得到-1<=Corr(X,Y)<=1,这样就可以定量的分析两个随机变量的相关性了。

  • Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足Y=aX+b,a>0。考虑Corr(X,X),两个随机变量相同,肯定满足线性关系,此时,Cov(X,X)=Var(X),容易得到Corr(X,Y)=1;
  • Corr(X,Y)=-1的时候,说明两个随机变量完全负相关,即满足Y=-aX+b,a>0;
  • 0<| Corr(X,Y)|<1的时候,说明两个随机变量具有一定程度的线性关系。

相关距离

举例:

身高X(cm)

体重Y(500g)

1

152

92

2

185

162

3

169

125

4

172

118

5

174

122

6

168

135

7

180

168

E(X)=(152+185+169+172+174+168+180)/7=171.43E(Y)=(92+162+125+118+122+135+168)/7=131.71D(X)=((152-171.43)^2+(185-171.43)^2+(169-171.43)^2+(172-171.43)^2+(174-171.43)^2+(168-171.43)^2+(180-171.43)^2)/7=94.24D(Y)=((92-131.71)^2+(162-131.71)^2+(125-131.71)^2+(118-131.71)^2+(122-131.71)^2+(135-131.71)^2+(168-131.71)^2)/7=592.78E{[X-E(X)][Y-E(Y)]}=((152-171.43)*(92-131.71)+(185-171.43)*(162-131.71)+(169-171.43)*(125-131.71)+(172-171.43)*(118-131.71)+(174-171.43)*(122-131.71)+(168-171.43)*(135-131.71)+(180-171.43)*(168-131.71))/7=209.41Corr(X,Y)= 209.41/((94.24)^(1/2)*(592.78)^(1/2))=0.89

补充说明:Corr(X,Y)为0,表示X与Y不相关,这里的不相关指的是X与Y没有线性关系,但不是没有关系。因此将“相关”理解为“线性相关”也许更恰当一些。

常用的相似性度量指标相关推荐

  1. 常用的相似性度量(距离总结)

    在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算距 ...

  2. 退出页面 数据保留_设计师常用的数据分析指标

    原文地址:Viksea的设计思考(公众号) 作者:Viksea 随着互联网由人口红利的1.0时代转向精益发展的2.0时代,各个互联网公司除了正常的拉新之外,会将更多的精力投入到针对已有用户的精细化深度 ...

  3. ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略

    ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介.使用方法.案例应用之详细攻略 目录 PSI(稳定度指标)的简介 1.如何计算PSI? (1).PSI计算过程

  4. inodesusedpercent_Linux系统中常用的监控指标整理

    今天小编要跟大家分享的文章是关于Linux系统中常用的监控指标整理.正在从事Linux相关工作的小伙伴们来和小编一起看一看吧,希望能够对大家有所帮助! 1. Linux运维基础采集项 做运维,不怕出问 ...

  5. 数据分析之 —— 常用的统计学指标

    文章目录 集中趋势 算术平均数 中位数 众数 差异量数 样本方差 样本标准差 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数 ...

  6. 常用的统计学指标及其含义

    统计学与数据挖掘 统计学是关于认识客观现象总体数量特征和数量关系的科学.它是通过搜集.整理和分析统计资料认识客观现象数量规律性的方法论科学.由于统计学的定量研究具有客观.准确和可检验的特点,所以统计方 ...

  7. 二分类最优阈值确定_一文搞懂分类算法中常用的评估指标

    导读 通常我们在解决某个问题的时候,会设计多种分类算法在训练的时候我们还会调节各种超参以及使用各种trick以获取最优的分类模型,那这时候我们应该如何来衡量这个最优呢? 分类算法的评估指标有很多种,选 ...

  8. 数据分析 常用的数据指标

    数据分析 常用的数据指标 数据指标的作用是用来衡量.追踪和监控业务的,对于一项具体的业务来说,它所包含的数据通常有三大类:用户数据(谁).行为数据(做了什么).产品数据(对应的产品是什么).那么,相应 ...

  9. 医学图像处理(一)——分割中常用的度量指标

    下列参数主要参考自MICCAI2007  - 首先定义以下标识符:Vgt代表的是ground truth的分割结果,Vpred代表的是预测的分割结果.  - DICE: 这个相信大家最熟悉,因为使用的 ...

最新文章

  1. 2020北京智源大会人工智能前沿技术成果征集
  2. Python爬虫解析html:lxml的HtmlElement对象获取和设置inner html
  3. Pylearn2之YAML
  4. android 之Fragment的详解
  5. Delphi数据类型
  6. LG下月将用新品牌发布5G手机:比三星Galaxy S20更便宜
  7. flash与CPU连接及flash属性描述文件
  8. java newtonsoft.json_Newtonsoft.Json(Json.Net)学习笔记
  9. 可以查杀计算机病毒的软件,怎样彻底查杀计算机病毒
  10. 思考题4:掷骰子游戏
  11. 矢量网络分析仪(Vector Network Analyzer)
  12. CVPR 2018值得一看的25篇论文,都在这里了 | 源码 解读
  13. 信用评分卡建模:决策树模型
  14. 11月更新!一口气上线20+新功能,3D架构拓扑图更具趣味性~
  15. 【产业互联网】阿里曾鸣:下一个风口是产业互联网
  16. pika详解 (一)
  17. 笔记本桌面上计算机图标没有了6,笔记本电脑桌面显示没了怎么办呢
  18. 《Python语言程序设计》王恺 王志 机械工业出版社 第八章 多线程与多进程 课后习题答案
  19. [附源码]java毕业设计高校学生勤工助学管理系统
  20. 【VBA自用常用模板2】WORD/WPS办公宏实现切换页面背景/切换页面视图

热门文章

  1. yolov7-tiny网络结构图
  2. linux 内核中Netlink
  3. matlab可以对多张表同时操作吗,update操作多张表
  4. 影视剪辑,视频剪辑流程,如何进行混剪
  5. 当当将上线低价电子书 盛大Bambook面临冲击
  6. 英语学习、五个常用基本句型
  7. 重新认识 Kubernetes 的核心组件
  8. 域名解析的详细内部过程
  9. App系列之Android Apk分析---付宝android客户端的动态加载
  10. 什么是 robotc?