常用相似性、相关性度量指标
本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:
(1)Euclidean Distance(欧几里德距离、欧氏距离)
设有两个向量,
它们之间的Euclidean Distance为:
,值越小越相似。
(2)Manhattan Distance(曼哈顿距离)
设有两个向量,
它们之间的Manhattan Distance为:
,值越小越相似。
(3)Minkowsk Distance(闵可夫斯基距离)
设有两个向量,
它们之间的Minkowsk Distance为:
,值越小越相似。
(4)Hamming Distance(海明距离)
Hamming Distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。
(5)Jaccard Coefficient(Jaccard 系数)
Jaccard Coefficient用来度量两个集合的相似度,设有两个集合和,它们之间的Jaccard Coefficient定义为:
,值越大越相似。
例如,,则。
(6)Pearson Correlation Coefficient(皮尔森相关系数)
设有两个向量,
它们之间的Pearson Correlation Coefficient为:
,值越大越相关。
(7)Cosine Similarity(余弦相似度)
设有两个向量,
它们之间的Cosine Similarity为:
,值越大越相似。
(8)Mahalanobis Distance(马氏距离)
设有两个向量,
它们之间的Mahalanobis Distance为:
,值越小越相似。
其中为x和y的协方差矩阵。
(9)Kullback-Leibler Divergence(KL散度)
KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:
,值越小,两个分布就越相似。
(10)PMI (Pointwise Mutual Information,点对互信息)
PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:
,值越大越相关。
其中为x,y一起出现的概率,为x出现的概率,为y出现的概率。
(11)NGD(Normalized Google Distance)
NGD可以用来度量两个东西x和y之间的相关性,作用和PMI有点类似,定义为:
,值越大越相关。
其中是x在文档集中出现的频率,是y在文档集中出现的频率,是x,y在文档集中一起出现的频率,是文档集的大小。
常用相似性、相关性度量指标相关推荐
- 【AI面试题】分类问题常用的性能度量指标(评价指标)
分类问题常用的性能度量指标有精确率.召回率.F1.TPR.FPR. 分类问题度量指标的基础是混淆矩阵: 上表中: TP表示正样本被预测为正样本(真正例,True Positive) FN表示正样本被预 ...
- 怎样建立产品体系?(七)- 常用工具和度量指标建立
创意工具 创意是思想的基本,创意可能是可视化,实物或抽象的,创意产生是涉及流程的必要部分.创意开发是生成.发展.交流新创意的创造性过程,创意开发包括创造解决消费者问题的解决方案的所有活动和流程,这些方 ...
- 【AI面试题】回归问题常用的性能度量指标(评价指标)
1. 均方误差(MSE) MSE(Mean Square Error):是反映估计值与被估计值之间差异程度的一种度量.公式如下: 2. 均方根误差(RMSE) RMSE(Root Mean Squar ...
- 从Kaggle赛题: Quora Question Pairs 看文本相似性/相关性
从Kaggle赛题: Quora Question Pairs 看文本相似性/相关性 包大人 健身 Kaggle 自然语言处理 数据挖掘 137 人赞了该文章 从Kaggle赛题: Quora Que ...
- 医学图像处理(一)——分割中常用的度量指标
下列参数主要参考自MICCAI2007 - 首先定义以下标识符:Vgt代表的是ground truth的分割结果,Vpred代表的是预测的分割结果. - DICE: 这个相信大家最熟悉,因为使用的 ...
- 医学图像分割中常用的度量指标
从医学的角度来讲,大家关注的性能指标应该是两个:特异性和敏感性,敏感度其实指的是一种查全率,是不是把所有的结节都找到了.特异性是指假阳性的比例.在某种意义上,这是两个矛盾的指标,如果把一个指标调到最大 ...
- 【论文翻译】HeteSim:异构网络中相关性度量的通用框架
原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许 ...
- 信息检索 度量指标 Normalized Discounted Cumulative Gain NDCG 全
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Amit Chaudhary 编译:ronghuaiyang 导读 由浅入 ...
- 机器学习知识点(三十六)分类器性能度量指标f1-score
在用python机器学习库scikit-learn训练模型时,常用f1-score来度量模型性能,下面回顾和学习下这个指标. 内容概要¶ 模型评估的目的及一般评估流程 分类准确率的用处及其限制 混淆矩 ...
最新文章
- Linux学习(十四)---大数据定制篇Shell编程
- 织梦首页常用调用标签
- 用python生成词云wordcloud
- linux下随机数字的生成
- 【并查集】 HDU 4424 Conquer a New Region 贪心
- [Python人工智能] 五.Tensorboard可视化基本用法及绘制整个神经网络
- ×××常见问题原因与解决
- 常用的开源镜像网站收集与备忘
- 七:动态规划-数字三角形
- 来自对象字段的Python字典
- ES6中Promise的入门(结合例子)
- java post 注册_使用post request python注册帐户
- 重装linux式化磁盘,最详细的linux系统重装步骤图解
- 转:一个基于互联网医疗的创业公司,三年是一个收获
- 金蝶云苍穹开发实用整理
- 当我们谈战略,我们究竟在谈什么?
- ZooKeeper 命令操作
- 3d建模网上学习靠谱吗?学3d建模哪个学校好?
- Qt 串口通信软件开发教程
- 【FPGA】调用IP核实现心形波