样本间相似度/距离计算方法总结

标签(空格分隔): 机器学习


闵可夫斯基距离

Minkowski距离,也成欧式距离,计算方法为:

dist(X,Y)=(∑ni=1|xi−yi|p)1p\begin{equation} dist(X, Y) = (\sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{\frac{1}{p}} \end{equation}
这是我们最常用的一种距离度量方式,俗称范数。
当p = 2时就是我们常用的欧式距离。

Jaccard相似系数

J(A,B)=|A∩B||A∪B|\begin{equation} J(A, B) = \frac{|A \cap B|}{|A \cup B|} \end{equation}

余弦相似度(consine similarity)

cos(θ)=XTY|X|·|Y|=∑ni=1XiYi∑ni=1X2i√∑ni=1Y2i√\begin{equation} cos(\theta) = \frac{X^{T}Y}{|X|·|Y|} = \frac{\sum_{i=1}^{n}X_{i}Y_{i}}{\sqrt{\sum_{i=1}^{n}X_{i}^{2}}\sqrt{\sum_{i=1}^{n}Y_{i}^{2}}} \end{equation}

Pearson相似系数

ρXY=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑ni=1(Xi−μX)(Yi−μY)∑ni=1(Xi−μX)2√∑ni=1(Yi−μY)2√\begin{equation} \rho_{XY} = \frac{cov(X, Y)}{\sigma_{X}\sigma_{Y}} = \frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}} = \frac{\sum_{i=1}^{n}(X_{i}-\mu_{X})(Y_{i}-\mu_{Y})}{\sqrt{\sum_{i=1}^{n}(X_{i} - \mu_{X})^{2}}\sqrt{\sum_{i=1}^{n}(Y_{i} - \mu_{Y})^{2}}} \end{equation}

相对熵(K-L散度)

D(p||q)=∑ni=1p(x)logp(x)q(x)\begin{equation} D(p||q) = \sum_{i=1}^{n}p(x)log\frac{p(x)}{q(x)} \end{equation}

Hellinger距离

Dα(p||q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)\begin{equation} D_{\alpha}(p||q) = \frac{2}{1 - \alpha^{2}}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}dx) \end{equation}

余弦相似度 VS Pearson相关系数

可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

样本间距离计算方法总结相关推荐

  1. 分类识别样本间“距离”总结

    在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算距 ...

  2. pvrect r语言 聚类_R语言一条命令实现基于样本和距离的聚类分析

    上一篇文章给大家介绍了利用 R语言的 hclust()进行聚类分析的步骤,已经很简单了,但是依然有不少小伙伴来问 "老师,还有更简单的方法吗,最好是一条命令那种",为了满足的大家的 ...

  3. 等效距离计算公式_实用的计算方法-架空输电线路导线线间距离计算

    1. 10kV 及以下架空线路导线线间距离 380V及以下沿墙敷设的绝缘导线,当档距不大于20m时,其线间距离不宜小于0.2m:3kV以下架空线路,靠近杆塔的两导线间的水平距离不应小于0.5m:10k ...

  4. 曼哈顿算法公式_距离计算方法总结

    计算推荐对象的内容特征和用户模型中兴趣特征二者之间的相似性是推荐算法中一个关键部分 ,相似性的度量可以通过计算距离来实现 在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity ...

  5. 曼哈顿算法公式_距离计算方法总结 | Public Library of Bioinformatics

    在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...

  6. 机器学习中常用的距离计算方法

    我们已经知道了如何通过样本间的距离来评估簇间的距离,本节只剩下最后一个问题了,如何计算样本间的距离,假设样本是n维,常用的距离计算方法有: 1)欧拉距离(Euclidean distance): 2) ...

  7. Mahout中相似度距离计算方法总结

    在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性 ...

  8. 【数据挖掘】基于层次的聚类方法 ( 聚合层次聚类 | 划分层次聚类 | 族间距离 | 最小距离 | 最大距离 | 中心距离 | 平均距离 | 基于层次聚类步骤 | 族半径 )

    文章目录 基于层次的聚类方法 简介 基于层次的聚类方法 概念 聚合层次聚类 图示 划分层次聚类 图示 基于层次的聚类方法 切割点选取 族间距离 概念 族间距离 使用到的变量 族间距离 最小距离 族间距 ...

  9. 论文阅读:基于多模态词向量的语句距离计算方法

    论文信息 华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018. 1.主要工作 简述语句间的距离问题:自然语言处理任务是度量文本间的距离:不同阶段语言学习的难度可以抽象为距离,本 ...

最新文章

  1. 数据蒋堂 | 非常规聚合
  2. 非阻塞模式与阻塞模式
  3. VirtualBox虚拟机导出导入实践
  4. 评 成功编SaaS的 10 大技巧
  5. 跨站请求伪造攻击(CSRF)
  6. 中文版putty后门事件的曝光过程及我们所受到的报复
  7. echarts折线图相关
  8. Cloud一分钟 | 误删生产数据库血案,顺丰高级工程师被开除;阿里巴巴暂停美国云计算扩张?阿里云总裁正式回应:“不会减少投入”...
  9. python读取mat数据是字典形式如何转化为矩阵_mat2json, python读取mat成字典, 保存json...
  10. .net操作读取word中的图像并保存
  11. 使用tornado让你的请求异步非阻塞
  12. MySQL主从同步(四)——M-M架构配置实战
  13. 学习李践《绩效飞轮--企业提升利润的系统工具》课程观后感
  14. Word2Vec模型之训练篇
  15. ie ajax十分卡,解决JQuery .ajax 在IE下卡死问题
  16. 智能推荐系统开发中的十个关键注意点
  17. 删除的数据还能恢复吗?硬盘数据恢复,试试这2个方法
  18. 网易之小易最近在数学课上学习到了集合的概念,集合有三个特征:1.确定性 2.互异性 3.无序性.需要根据给定的w,x,y,z,求出集合中一共有多少个元素。
  19. Apache shiro反序列化(CVE-2016-4437)复现
  20. STM32上手-STWingSKIT_BC28学习笔记(一)环境搭建和LED灯点亮

热门文章

  1. 温度转换python代码解释_如何用python代码温度转换?
  2. 天津java工资_天津java工资怎么样,天津java工资最多到多少,天津java工资待遇有多少...
  3. 【Excel技巧】 数据阅后即焚-VBA
  4. 论文阅读 An Information Gain Formulation for Active Volumetric 3D Reconstruction
  5. 从互联网思维走向智联网思维
  6. 论文阅读26 | DF2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared reid
  7. deepin软件中文乱码
  8. 网络扫描和嗅探工具包 Nmap
  9. 微功耗霍尔开关在电子防盗锁中的应用
  10. C语言咪咪数学宝涉及到的知识点,C语言编程 做一个设计一个儿童算数教学程序:“咪咪数学宝”...