本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:

(1)Euclidean Distance(欧几里德距离、欧氏距离)

设有两个向量

它们之间的Euclidean Distance为:

,值越小越相似。

(2)Manhattan Distance(曼哈顿距离)

设有两个向量

它们之间的Manhattan Distance为:

,值越小越相似。

(3)Minkowsk Distance(闵可夫斯基距离)

设有两个向量

它们之间的Minkowsk Distance为:

,值越小越相似。

(4)Hamming Distance(海明距离)

          Hamming Distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。

(5)Jaccard Coefficient(Jaccard 系数

         Jaccard Coefficient用来度量两个集合的相似度,设有两个集合,它们之间的Jaccard Coefficient定义为:

,值越大越相似。

例如,则

(6)Pearson Correlation Coefficient(皮尔森相关系数

         设有两个向量

它们之间的Pearson Correlation Coefficient为:

,值越大越相关。

(7)Cosine Similarity余弦相似度

         设有两个向量

它们之间的Cosine Similarity为:

,值越大越相似。

(8)Mahalanobis Distance(马氏距离)

         设有两个向量

它们之间的Mahalanobis Distance为:

,值越小越相似。

其中为x和y的协方差矩阵。

(9)Kullback-Leibler Divergence(KL散度)

           KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:

,值越小,两个分布就越相似。

(10)PMI (Pointwise Mutual Information,点对互信息)

          PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:

,值越大越相关。

其中为x,y一起出现的概率,为x出现的概率,为y出现的概率。

(11)NGD(Normalized Google Distance)

           NGD可以用来度量两个东西x和y之间的相关性,作用和PMI有点类似,定义为:

,值越大越相关。
                 其中是x在文档集中出现的频率,是y在文档集中出现的频率,是x,y在文档集中一起出现的频率,是文档集的大小。

常用相似性、相关性度量指标相关推荐

  1. 【AI面试题】分类问题常用的性能度量指标(评价指标)

    分类问题常用的性能度量指标有精确率.召回率.F1.TPR.FPR. 分类问题度量指标的基础是混淆矩阵: 上表中: TP表示正样本被预测为正样本(真正例,True Positive) FN表示正样本被预 ...

  2. 怎样建立产品体系?(七)- 常用工具和度量指标建立

    创意工具 创意是思想的基本,创意可能是可视化,实物或抽象的,创意产生是涉及流程的必要部分.创意开发是生成.发展.交流新创意的创造性过程,创意开发包括创造解决消费者问题的解决方案的所有活动和流程,这些方 ...

  3. 【AI面试题】回归问题常用的性能度量指标(评价指标)

    1. 均方误差(MSE) MSE(Mean Square Error):是反映估计值与被估计值之间差异程度的一种度量.公式如下: 2. 均方根误差(RMSE) RMSE(Root Mean Squar ...

  4. 从Kaggle赛题: Quora Question Pairs 看文本相似性/相关性

    从Kaggle赛题: Quora Question Pairs 看文本相似性/相关性 包大人 健身 Kaggle 自然语言处理 数据挖掘 137 人赞了该文章 从Kaggle赛题: Quora Que ...

  5. 医学图像处理(一)——分割中常用的度量指标

    下列参数主要参考自MICCAI2007  - 首先定义以下标识符:Vgt代表的是ground truth的分割结果,Vpred代表的是预测的分割结果.  - DICE: 这个相信大家最熟悉,因为使用的 ...

  6. 医学图像分割中常用的度量指标

    从医学的角度来讲,大家关注的性能指标应该是两个:特异性和敏感性,敏感度其实指的是一种查全率,是不是把所有的结节都找到了.特异性是指假阳性的比例.在某种意义上,这是两个矛盾的指标,如果把一个指标调到最大 ...

  7. 【论文翻译】HeteSim:异构网络中相关性度量的通用框架

    原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许 ...

  8. 信息检索 度量指标 Normalized Discounted Cumulative Gain NDCG 全

    点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Amit Chaudhary 编译:ronghuaiyang 导读 由浅入 ...

  9. 机器学习知识点(三十六)分类器性能度量指标f1-score

    在用python机器学习库scikit-learn训练模型时,常用f1-score来度量模型性能,下面回顾和学习下这个指标. 内容概要¶ 模型评估的目的及一般评估流程 分类准确率的用处及其限制 混淆矩 ...

最新文章

  1. Linux学习(十四)---大数据定制篇Shell编程
  2. 织梦首页常用调用标签
  3. 用python生成词云wordcloud
  4. linux下随机数字的生成
  5. 【并查集】 HDU 4424 Conquer a New Region 贪心
  6. [Python人工智能] 五.Tensorboard可视化基本用法及绘制整个神经网络
  7. ×××常见问题原因与解决
  8. 常用的开源镜像网站收集与备忘
  9. 七:动态规划-数字三角形
  10. 来自对象字段的Python字典
  11. ES6中Promise的入门(结合例子)
  12. java post 注册_使用post request python注册帐户
  13. 重装linux式化磁盘,最详细的linux系统重装步骤图解
  14. 转:一个基于互联网医疗的创业公司,三年是一个收获
  15. 金蝶云苍穹开发实用整理
  16. 当我们谈战略,我们究竟在谈什么?
  17. ZooKeeper 命令操作
  18. 3d建模网上学习靠谱吗?学3d建模哪个学校好?
  19. Qt 串口通信软件开发教程
  20. 【FPGA】调用IP核实现心形波

热门文章

  1. 2021年低压电工考试资料及低压电工复审模拟考试
  2. unity 打包的exe进行反编译
  3. 45页智慧交通数字化解决方案2022
  4. 必须要知道的GridView用法(1)
  5. 单表最大2000W行数据
  6. 点击按钮自动加关注的代码(sina微博/QQ空间/人人网/腾讯微博)
  7. uva508 莫尔斯电码(Morse Mismatches)
  8. 天眼全流量系统的详细说明
  9. 重庆的小面50强[转自经典重庆]
  10. html字体类型选择,css 对应word字体类型 css 字体类型