机器学习中用样本之间的距离/相似度来表示样本差异,下面介绍几种常用的距离/相似度,顺便介绍一下L—P范数。

1.闽可夫斯基距离

L—P范数与闽可夫斯基距离的定义一样:
Lp=(∑1nxip)1p,x=(x1,x2,⋯,xn)Lp=({\sum\limits_{1}^n x_i^p})^{\frac{1}{p}},x=(x_1,x_2,\cdots,x_n)Lp=(1∑n​xip​)p1​,x=(x1​,x2​,⋯,xn​)

  • 当p=1p=1p=1时,称为曼哈顿距离
  • 当p=2p=2p=2时,称为欧氏距离
  • 当p=∞p =\inftyp=∞时,称为切比雪夫距离,取各个坐标数值差的绝对值的最大值dij=maxk∣xki−xkj∣d_{ij}= max_k \ |x_{ki}\ - \ x_{kj}|dij​=maxk​ ∣xki​ − xkj​∣

当ppp变化时,范数也有着不同的变化,三维空间中到原点距离小于一的点构成一个球体,即欧氏距离。

1.1L-0范数

对于L—0范数来说,他用来度量向量中非0元素的个数,表现形式为∣∣w∣∣0||w||_0∣∣w∣∣0​,对于其优化问题min∣∣x∣∣0min||x||_0min∣∣x∣∣0​
由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,故被人认为是一个NP难问题。所以在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。而且p的范围是[1, inf)。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式(||x+y|| <= ||x|| + ||y||)

1.2L-1范数

对于L—1范数来说,他用来度量向量中非0元素的绝对值之和,表现形式为∣∣w∣∣0||w||_0∣∣w∣∣0​,对于其优化问题min∣∣x∣∣1min||x||_1min∣∣x∣∣1​

L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
由于L1范数的特殊性质,对L1范数的优化问题是一个稀疏解,利用L1范数可以实现特征的稀疏。

1.3L-2范数

L—2范数是最常见常用的范数,对于其优化问题min∣∣x∣∣1min||x||_1min∣∣x∣∣1​
L2范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

1.4L-∞\infty∞范数

当P=∞P=\inftyP=∞时,也就是L−∞L-\inftyL−∞范数,它主要被用来度量向量元素的最大值。用上面的L-P定义可以得到的L−∞L-\inftyL−∞的定义为: Lp=(∑1nxi∞)1∞,x=(x1,x2,⋯,xn)Lp=({\sum\limits_{1}^n x_i^\infty})^{\frac{1}{\infty}},x=(x_1,x_2,\cdots,x_n)Lp=(1∑n​xi∞​)∞1​,x=(x1​,x2​,⋯,xn​)
通常情况下对于其优化问题:

∣∣x∣∣∞=max(∣xi∣)||x||_\infty=max(|x_i|)∣∣x∣∣∞​=max(∣xi​∣)

2.马哈拉诺比斯距离

马哈拉诺比斯距离简称马氏距离,其距离考虑到各个分量(特征)之间的相关性并与各个分量的尺度无关
马氏距离定义如下:
dij=[(xi−xj)TS−1(xi−xj)]12d_{ij} = [(x_i\ - \ x_j)^TS^{-1}(x_i \ - \ x_j)]^\frac{1}{2}dij​=[(xi​ − xj​)TS−1(xi​ − xj​)]21​
当S为单位矩阵时,此时样本数据的各个分量互相独立且各个分量的方差为1时,马氏距离转变为欧氏距离

3.相关系数

样本之间的相似度也可以用相关系数度量,相关系数越接近1,表示样本越相似,越接近0,表示样本差异性越大。
相关系数的定义为:
rij=∑k=1m(xki−x‾i)(xkj−x‾j)[∑k=1m(xki−x‾i)2∑k=1m(xkj−x‾j)2]12r_{ij}=\frac{\displaystyle \sum^{m}_{k=1}(x_{ki}-\overline{x}_i)(x_{kj}-\overline{x}_j)}{[\displaystyle \sum^{m}_{k=1}(x_{ki}-\overline{x}_i)^2 \displaystyle \sum^{m}_{k=1}(x_{kj}-\overline{x}_j)^2 ]^\frac {1}{2}}rij​=[k=1∑m​(xki​−xi​)2k=1∑m​(xkj​−xj​)2]21​k=1∑m​(xki​−xi​)(xkj​−xj​)​

其中:

x‾i=1m∑xki\overline{x}_i=\frac{1}{m}\displaystyle \sum x_{ki}xi​=m1​∑xki​
x‾j=1m∑xkj\overline{x}_j=\frac{1}{m}\displaystyle \sum x_{kj}xj​=m1​∑xkj​

4.夹角余弦

样本之间相似度也可以用夹角余弦来表示,夹角余弦越接近1,样本越相似。
sij=∑k=1mxkixkj[∑k=1mxki2∑k=1mxkj2]12s_{ij}=\frac {\displaystyle \sum^m _{k=1}x_{ki}x_{kj}}{[\displaystyle \sum^m _{k=1}x^2 _{ki}\displaystyle \sum^m _{k=1}x^2 _{kj}]^\frac{1}{2}}sij​=[k=1∑m​xki2​k=1∑m​xkj2​]21​k=1∑m​xki​xkj​​

机器学习—聚类(一)(L—P范数/闽可夫斯基距离/马氏距离/相关系数/夹角余弦)相关推荐

  1. 高斯判别算法GDA(吴恩达机器学习c#实践,生成高斯模板显示同心圆马氏距离,一)

    首先实现P(x|y)=高斯函数(正态分布),即y是正态分布,是条件,我们把它还原到图像界面I(i,j)每一个像素,是结果. 这个实际就是生成高斯模板,我们前面有3*3的高斯生成算法,但是根本没有办法显 ...

  2. 高斯判别算法GDA(吴恩达机器学习c#实践,生成高斯模板显示同心椭圆马氏距离,二)

    先看以下是个什么? 真看不出什么,对比一下还行,还是看不出来,我们让马氏距离放大十倍等于15,高斯值放大1000倍等于4的像素加以阻挡指示出来,使用白色. 同心椭圆:(为什么协方差矩阵?0值改0.5, ...

  3. 简单粗暴理解与实现机器学习之K-近邻算法(三):距离度量、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化距离、余弦距离、汉明距离、杰卡德距离、马氏距离

    K-近邻算法 文章目录 K-近邻算法 学习目标 1.3 距离度量 1 欧式距离**(Euclidean Distance):** 2 **曼哈顿距离(Manhattan Distance):** 3 ...

  4. 明可夫斯基距离和马氏距离

    在机器学习中,距离是一个非常形象并且常用的概念.在分类和聚类问题中,距离的作用尤为明显.除此之外,在回归问题,甚至自然语言处理问题上,距离也有其相应的应用. 除了距离之外,相似系数也是解决这一问题的方 ...

  5. 概率论概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  6. 统计学相关概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  7. 机器学习中的数学——距离定义(六):马氏距离(Mahalanobis Distance)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

  8. MATLAB学习笔记 使用马氏距离的RGB图像聚类

    1.概述 Mahalanobis 距离分类广泛用于聚类.该方程有一个协方差矩阵,它作用于类的变化以创建相似性. 在 Matlab 中,我们有一个函数 'mahal' 可以计算一个点和一个样本子集之间的 ...

  9. 机器学习两种距离——欧式距离和马氏距离

    我们熟悉的欧氏距离虽然很有用,但也有明显的缺点.它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求.例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区 ...

最新文章

  1. 程序员颈椎病康复秘籍
  2. 设计模式--责任链(Responsibility_Chain)模式
  3. 2021 ICPC 江西省大学生程序设计竞赛(热身赛)【完结】
  4. patience counts
  5. Beta 冲刺 (2/7)
  6. 21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
  7. 基于主动学习算法减少人工标注量,提升文本标注效率的方案探究
  8. mie散射理论方程_A. Mie米散射理论基础
  9. 关于JSF Converter转换器的知识点
  10. 从0开始构建一个属于你自己的PHP框架
  11. 以太网驱动的流程浅析(四)-以太网驱动probe流程【原创】
  12. 微信小程序圆形图片小图标按钮
  13. matlab信号加入白噪音再分离,Matlab中给信号增加白噪声
  14. 武汉理工大学计算机学院转专业细则,计算机学院武汉理工大学2009年各学院转专业工作实施细则.doc...
  15. mysql比赛_在Windows环境下的MySQL数据库,精彩比赛
  16. Nacos入门之服务注册中心以及命名空间分组和DataID三者关系
  17. AR智能眼镜会成未来趋势
  18. java常见的网络异常
  19. 用matlab画出ex,如何用matlab画函数图形
  20. python爬取问卷星内容,Python 问卷星自动填写 爬虫

热门文章

  1. 会计 制造费用转生产成本
  2. Android_Butterfly_动画
  3. 基于ASP.NET MVC 利用(Aspose+Pdfobject.js) 实现在线预览Word、Excel、PPT、PDF文件
  4. AMD GPU的断点指令
  5. 杭州卫星地图 百度卫星地图(含道路、标签信息叠加)
  6. 黑客是如何攻击目标电脑的
  7. 搜狗输入法简约而美的皮肤推荐
  8. 扰码器(二)串行扰码器综述及设计思路
  9. Android电视清理系统应用,智能电视删除自带软件,这个方法最简单!
  10. Feng's blog