1 kkk-近邻推荐原理

2 各种距离

2.1 欧几里得距离


d12=(x1−x2)2+(y1−y2)2d_{12} = \sqrt{(x_{1} - x_{2})^2 + (y_{1} - y_{2})^2}d12​=(x1​−x2​)2+(y1​−y2​)2​

缺点:欧式距离是一种常用的距离度量,但它并不是尺度不变的,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧式距离度量之前,需要对数据进行归一化处理。

此外,随着数据维数的增加,欧氏距离的作用也就越小。这与维数灾难(curse of dimensionality)有关。

用例:当数据的维度比较低,欧式距离的效果非常好。如果在低维数据上使用欧式距离,则如 kkk-NN 和 HDBSCAN 之类的方法可达到开箱即用的效果。

2.2 曼哈顿距离

在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是曼哈顿距离。 曼哈顿距离也称为“城市街区距离”(City Block distance)。
d12=∣x1−x2∣+∣y1−y2∣d_{12} = \left|x_{1} - x_{2}\right| + \left|y_{1} - y_{2}\right|d12​=∣x1​−x2​∣+∣y1​−y2​∣

缺点:尽管曼哈顿距离在高维数据中可以工作,但它比欧式距离直观性差。此外,由于它可能不是最短路径,有可能比欧氏距离给出一个更高的距离值。

用例:当数据集具有离散或二进制属性时,曼哈顿距离似乎工作得很好,因为它考虑了在这些属性值中实际可以采用的路径。以欧式距离为例,它会在两个向量之间形成一条直线,但实际上这是不可能的。

2.3 切比雪夫距离 (Chebyshev Distance)

切比雪夫距离定义为两个向量在任意坐标维度上的最大差值。换句话说,它就是沿着一个轴的最大距离。切比雪夫距离通常被称为棋盘距离,因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离。

d12=max⁡(∣x1−x2∣,∣y1−y2∣)d_{12} = \max(\left|x_{1} - x_{2}\right|, \left|y_{1} - y_{2}\right|)d12​=max(∣x1​−x2​∣,∣y1​−y2​∣)
缺点:切比雪夫距离通常用于特定的用例,这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此,在确定适合用例时才使用它。

用例:切比雪夫距离用于提取从一个方块移动到另一个方块所需的最小移动次数。此外,在允许无限制八向移动的游戏中,这可能是有用的方法。在实践中,切比雪夫距离经常用于仓库物流,因为它非常类似于起重机移动一个物体的时间。

2.4 余弦距离


d12=x1x2+y1y2x12+y12x22+y22d_{12} = \frac{x_{1}x_{2} + y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}d12​=x12​+y12​​x22​+y22​​x1​x2​+y1​y2​​

缺点:余弦相似度的一个主要缺点是没有考虑向量的大小,而只考虑它们的方向。以推荐系统为例,余弦相似度就没有考虑到不同用户之间评分尺度的差异。

用例:当我们对高维数据向量的大小不关注时,可以使用余弦相似度。对于文本分析,当数据以单词计数表示时,经常使用此度量。例如,当一个单词在一个文档中比另一个单词更频繁出现时,这并不一定意味着文档与该单词更相关。可能是文件长度不均匀或者计数的重要性不太重要。我们最好使用忽略幅度的余弦相似度。

2.5 闵氏距离(Minkowski)


d12=[(x1−x2)p+(y1−y2)p]1pd_{12} =[(x_1 - x_2) ^p+ (y_1 - y_2)^p]^{\frac{1}{p}}d12​=[(x1​−x2​)p+(y1​−y2​)p]p1​

最有趣的一点是,我们可以使用参数 ppp 来操纵距离度量,使其与其他度量非常相似。常见的 ppp 值有:

  • p=1p=1p=1:曼哈顿距离
  • p=2p=2p=2:欧氏距离
  • p=∞p=\inftyp=∞:切比雪夫距离

缺点:闵氏距离与它们所代表的距离度量有相同的缺点,因此,对曼哈顿距离、欧几里得距离和切比雪夫距离等度量标准有个好的理解非常重要。此外,参数ppp 的使用可能很麻烦,因为根据用例,查找正确的 ppp 值在计算上效率低。

用例:ppp的积极一面是可迭代,并找到最适合用例的距离度量。它允许在距离度量上有很大的灵活性,如果你非常熟悉 ppp和许多距离度量,将会获益多多。

2.6 雅卡尔指数(Jaccard Index)


雅卡尔指数(交并比)是用于比较样本集相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。

dAB=1−∣A∩B∣∣A∪B∣d_{AB} =1 - \frac{|A \cap B|}{|A \cup B|}dAB​=1−∣A∪B∣∣A∩B∣​

缺点:雅卡尔指数的一个主要缺点是它受数据大小的影响很大。大数据集对指数有很大影响,因为它可以显著增加并集,同时保持交集相似。
用例:雅卡尔指数通常用于使用二进制或二进制数据的应用程序中。当你有一个深度学习模型来预测图像分割时,比如一辆汽车,雅卡尔指数可以用来计算给定真实标签的预测分割的准确度。
类似地,它可以用于文本相似性分析,以测量文档之间有多少词语重叠。因此,它可以用来比较模式集合。

2.7 汉明距离(Hamming Distance)

汉明距离是两个向量之间不同值的个数。它通常用于比较两个相同长度的二进制字符串。它还可以用于字符串,通过计算不同字符的数量来比较它们之间的相似程度。

缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标。

用例:典型的用例包括数据通过计算机网络传输时的错误纠正 / 检测。它可以用来确定二进制字中失真的数目,作为估计误差的一种方法。此外,你还可以使用汉明距离来度量分类变量之间的距离。

2.8 半正矢(Haversine)


半正矢距离是指球面上的两点在给定经纬度条件下的距离。它与欧几里得距离非常相似,因为它可以计算两点之间的最短连线。主要区别在于半正矢距离不可能有直线,因为这里的假设是两个点都在一个球面上。
d=2rarcsin⁡⁡(sin⁡2(φ2−φ12)+cos⁡(φ1)cos⁡(φ2)sin⁡2(λ2−λ12))d=2 \operatorname{r\arcsin}\left(\sqrt{\sin ^{2}\left(\frac{\varphi_{2}-\varphi_{1}}{2}\right)+\cos \left(\varphi_{1}\right) \cos \left(\varphi_{2}\right) \sin ^{2}\left(\frac{\lambda_{2}-\lambda_{1}}{2}\right)}\right)d=2rarcsin(sin2(2φ2​−φ1​​)+cos(φ1​)cos(φ2​)sin2(2λ2​−λ1​​)​)
符号说明:
ddd:两点之间的距离;
rrr:球的半径;
φ1,φ2\varphi_1,\varphi_2φ1​,φ2​:点1和点2的纬度,以弧度制度量;
λ1,λ2\lambda_1, \lambda_2λ1​,λ2​:点1和点2的经度,以弧度制度量。

缺点:这种距离测量的一个缺点是,假定这些点位于一个球体上。实际上,这种情况很少出现,例如,地球不是完美的圆形,在某些情况下可能使计算变得困难。相反,如果假定是椭球,使用 Vincenty 距离比较好。

用例:半正矢距离通常用于导航。例如,你可以使用它来计算两个国家之间的飞行距离。请注意,如果距离本身不那么大,则不太适合。

2.9 Sørensen-Dice 系数


Sørensen-Dice 系数与雅卡尔指数非常相似,都是度量样本集的相似性和多样性。尽管它们的计算方法相似,但是 Sørensen-Dice 系数更直观一些,因为它可以被视为两个集合之间重叠的百分比,这个值在 0 到 1 之间:
D(A,B)=2∣A∩B∣∣A∣+∣B∣D(A, B)=\frac{2|A \cap B|}{|A|+|B|}D(A,B)=∣A∣+∣B∣2∣A∩B∣​

缺点:正如雅卡尔指数,Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性,因此,它可以控制多集合的平均得分,还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目,而不是平等对待它们。

用例:用例与雅卡尔指数相似,它通常用于图像分割任务或文本相似性分析。

2.10 M-Distance



Mei Zheng, Fan Min, Heng-Ru Zhang, Wen-Bin Chen, Fast recommendations with the M-distance, IEEE Access 4 (2016) 1464–1468.

2.11 MCFV


Heng-Ru Zhang, Fan Min, Zhi-Heng Zhang, Song Wang, Efficient collaborative filtering recommendations with multi-channel feature vectors. International Journal of Machine Learning & Cybernetics. (2019)1165–1172.

2.12 三角距离Triangle


Triangle⁡(ij,iq)=Triangle⁡(OA→,OB→)=1−∣AB∣∣OA∣+∣OB∣Triangle⁡(ij,iq)=1−∑u∈Cij,iq(ru,j−ru,q)2∑u∈Ci,i,qru,j2+∑u∈Ci,i,qru,q2\operatorname{Triangle}\left(i_{j}, i_{q}\right)=\operatorname{Triangle}(\overrightarrow{O A}, \overrightarrow{O B})=1-\frac{|A B|}{|O A|+|O B|} \\ \operatorname{Triangle}\left(i_{j}, i_{q}\right)=1-\frac{\sqrt{\sum_{u \in C_{i j, i_{q}}}\left(r_{u, j}-r_{u, q}\right)^{2}}}{\sqrt{\sum_{u \in C_{i, i, q}} r_{u, j}^{2}}+\sqrt{\sum_{u \in C_{i, i, q}} r_{u, q}^{2}}} Triangle(ij​,iq​)=Triangle(OA,OB)=1−∣OA∣+∣OB∣∣AB∣​Triangle(ij​,iq​)=1−∑u∈Ci,i,q​​ru,j2​​+∑u∈Ci,i,q​​ru,q2​​∑u∈Cij,iq​​​(ru,j​−ru,q​)2​​

where OA→\overrightarrow{O A}OA is the rating vector of iji_{j}ij​, OB→\overrightarrow{O B}OB is the rating vector of iqi_{q}iq​.

Triangle considers both the length of vectors and the angle between them, so it is more reasonable than the angle based Cosine measure. For example, given the two vectors A = (5, 5, 5) and B = (1, 1, 1), the Cosine similarity is 1, which is contrary to common sense. In contrast, the Triangle similarity between them is 0.33, more in line with expectations.
三角距离既考虑了向量的长度,也考虑了它们之间的夹角,因此比基于角度的余弦测度更合理。 例如,给定两个向量 A = (5, 5, 5) 和 B = (1, 1, 1),则余弦相似度为 1,这与常识相反。 相比之下,它们之间的三角形相似度为0.33,更符合预期。

Shuang-Bo Sun, Zhi-Heng Zhang, Xin-Ling Dong, Heng-Ru Zhang, Tong-Jun Li, Lin Zhang, Fan Min, Integrating Triangle and Jaccard similarities for recommendation, PLOS ONE 12 (8) (2017) 1–16.

k近邻推荐用到的各种距离相关推荐

  1. 机器学习入门笔记(三):K近邻算法

    文章目录 一.K近邻算法的基本概念 1.1 K近邻算法实现 二.K近邻分类三要素 2.1 距离度量 2.2 K值的选择 2.2.1 基于m-fold cross validation的 K值选择 2. ...

  2. 【机器学习基础】数学推导+纯Python实现机器学习算法3:k近邻

    作为一种没有显式训练和学习过程的分类和回归算法,k 近邻在众多有监督机器学习算法中算是一种比较独特的方法.说它独特,是因为 k 近邻不像其他模型有损失函数.有优化算法.有训练过程.对于给定的实例数据和 ...

  3. k近邻算法原理c语言,实验二 K-近邻算法及应用

    作业信息 一.[实验目的] 理解K-近邻算法原理,能实现算法K近邻算法: 掌握常见的距离度量方法: 掌握K近邻树实现算法: 针对特定应用场景及数据,能应用K近邻解决实际问题. 二.[实验内容] 实现曼 ...

  4. 机器学习之路:python k近邻回归 预测波士顿房价

    python3 学习机器学习api 使用两种k近邻回归模型 分别是 平均k近邻回归 和 距离加权k近邻回归 进行预测 git: https://github.com/linyi0604/Machine ...

  5. [机器学习]-K近邻-最简单的入门实战例子

    本篇文章分为两个部分,前一部分主要简单介绍K近邻,后一部分是一个例子 第一部分--K近邻简介 从字面意思就可以容易看出,所谓的K近邻,就是找到某个样本距离(这里的距离可以是欧式距离,曼哈顿距离,切比雪 ...

  6. 机器学习(二):k近邻法(kNN)

    引言 一.k近邻法的三要素 1.距离度量 2.k值的选择 3.分类决策规则 二.k近邻算法及代码实现(python) 1.算法 2.代码实现(python) 三.k近邻法的实现:kd树 1.构造kd树 ...

  7. 机器学习:K近邻算法(K-NN)

    K近邻(K-Nearest Neighbor, KNN)是一种最经典和最简单的有监督学习方法之一,它非常有效而且易于掌握. 1 K近邻算法概述 一个样本与数据集中的k个样本最相似, 如果这k个样本中的 ...

  8. 03 k近邻法——课后习题答案

    答案: k=1时,模型复杂,预测准确率较高: k=2时,模型简单,预测准确率相比于k=1时低. 答案: 答案: 输入:已构造的kdkdkd树,目标点xxx. 输出:x的k近邻. (1)在 kd 树中找 ...

  9. 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

    原文出自:http://blog.csdn.net/v_JULY_v/article/details/8203674 前言 前两日,在微博上说:"到今天为止,我至少亏欠了3篇文章待写:1.K ...

最新文章

  1. 往往客户的需求是逐渐被深入的真正的实际需求往往没刚开始所说的那么简单容易就可以搞定...
  2. 浅析在公众号中使用弛声sdk为什么上传解析慢
  3. 110. Balanced Binary Tree
  4. MySql索引原理与使用大全
  5. where is url parameter evaluated in UI5 core q.sap.getUriParameters
  6. cat命令详解_需要!Linux常用监视和故障排查命令详解
  7. 计算机受限制用户,由于该计算机受到限制,本次操作已被取消的解决办法
  8. Merkle Patricia Tree (MPT) 以太坊merkle技术分析
  9. 中国酒器市场趋势报告、技术动态创新及市场预测
  10. datetime插入数据_量化学习:聚宽jqdatasdk对接vnpy的数据服务
  11. 相称显微镜下细胞群体跟踪
  12. fcpx教程,如何在 final cut pro 中导出视频的图文?
  13. Adobe Acrobat 虚拟打印机安装方法(无法找到Adobe PDF资源文件)
  14. 将RT-Thread Nano移植到STM32F401CCU6
  15. 使用ScanPort、SuperScan、Nmap进行端口扫描
  16. 主成分分析提取好的特征
  17. c语言求平均值 保留三位小数,Excel求平均值时,保留小数位数与参与求平均值的个数有关...
  18. MYSQL limt随着offset增大效率变低
  19. c语言指针什么时候加星号,c语言中指针前面的星号,什么时候可以省去,什么时候又必须带上呢?(转载)...
  20. extjs调试错误 TypeError:p is null 或 TypeError: el is null

热门文章

  1. java9默认收集器_Oracle提议将G1作为Java9的默认垃圾收集器
  2. 滨江机器人餐厅_餐厅来了机器人服务员
  3. 宝塔php开启zip组建,宝塔面板如何开启php扩展
  4. mysql索引背后的数据结构_图解Mysql索引的数据结构!看不懂你来找我
  5. 如何检查私钥和公钥是否配对_如何检查家具是否有臭虫
  6. 本机连接opc server有部分数据不刷新_实时数据库PI在企业MES系统中的应用
  7. 微众银行软件测试笔试题,微众银行4月8日笔试题目及部分代码
  8. 做到年薪50W是如何学习Java架构技术的?
  9. java企业人事管理系统源码_企业人事管理系统完美版源代码 - 源码下载|行业应用软件|企业管理(财务/ERP/EIP等)|源代码 - 源码中国...
  10. mysql登陆 慢_mysql登陆慢问题解决