参考博客:
协方差的意义
协方差矩阵的实例与意义
马氏距离的深入理解
马氏距离(推荐看一下原博)


度量学习的主流就是学习马氏距离。这里只先简单介绍一下马氏距离中的一些概念和意义。

1. 简单理解协方差的物理意义
2. 协方差矩阵中的元素对分布的影响
3. 对马氏距离的理解
(ps:直观上快速理解马氏距离的前因后果直接跳至第3部分的Q3即可)


1. 简单理解协方差的物理意义

在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:

正相关

当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。

负相关

当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。

不相关

当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。

怎样将这3种相关情况,用一个简单的数字表达出来呢?

在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

重点来了!!!

当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0。

当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差

cov(X, Y) = E(X-EX)(Y-EY)

当 cov(X, Y)>0时,表明X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

这就是协方差的意义。

2. 协方差矩阵中的元素对分布的影响

这里共有五种情况,均为二维的高斯分布(正态分布),每个例子中有三个分布,分别给出了均值和协方差矩阵。均值代表正态分布的中心点,方差代表其分布的形状:

(1)三个协方差矩阵相同,都为对角阵,对角线元素相同

情况(1)

(2)三个协方差矩阵相同,都为对角阵,对角线元素不同

情况(2)

(3)三个协方差矩阵相同,不是对角阵,对角线元素不同

情况(3)

(4)三个协方差矩阵不同,都是对角阵,对角线元素相同

情况(4)

(5)三个协方差矩阵不同,不是对角阵,对角线元素不同

情况(5)

总结

  • 均值为分布的中心点位置。

  • 对角线元素决定了分布图形是圆还是扁。

  • 非对角线元素决定了分布图形的轴向(扁的方向)。

3. 对马氏距离的理解

(1)定义:

马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为

,协方差矩阵为Σ的多变量矢量

,其马氏距离为

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量XY的差异程度:

如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角阵,其也可称为正规化的马氏距离。

其中σi是xi的标准差。

(2)对马氏距离的疑问

Q1:为什么要使变量去掉单位而使尺度无关?

因为测量维度之间的数量级不同,导致计算距离得出的误差过大不具有实际意义(例如身高与体重两个维度计算距离没有意义),所以需要进行归一化处理。

Q2:为什么马氏距离是与尺度无关的?

根据上面1所描述,当计算两点的相似度(也可以说是距离的时候),第一步是首先标准化,化成与尺度无关的量,再计算它的距离。但是如果是单纯使每个变量先标准化,然后再计算距离,可能会出现某种错误,原因是可能在有些多维空间中,某个两个维之间可能是线性相关的,如下图所示:

黄色部分为样品点,可以知道x1与x2是线性相关的,根据正态分布,对于中心点u,与A与B的标准距离应该是相同的,而马氏距离能做到这一点,但欧氏距离做不到,如下图所示:

由上图看到,如果使用欧氏距离,A点与B点距离中心点相同,但是又可以看出,A点处于样品集的边缘了,再外出一点就成异常点了。因此我们使用欧氏距离计算的时候,不能有效地区分出异常数据,看不出两变量之间的相似性与差异性,而上图中,A与B对于全体样品来说,差异性是够大的了。

为了解决这个问题,我们可以通过旋转坐标轴的方法,如下图所示:

可以看到y1与y2是线性无关的,因此我们可以通过对线性无关的分量进行标准化后,再求得距离是合理的。其实通过旋转坐标轴的方式,相当于对x进行相应的线性变换:Y = PX,使Y里面的各分变量变成线性无关的。设 ∑ 是随机向量 X = [x1, x2, ..., xp]的协方差矩阵,它有特征值-特征向量对(λ1,e1), (λ2,e2),.....(λp,ep),其中λ1>=λ2>=....>=λp,则第i主成分由

因此得到的新的变量Y里面的各分量是线性无关的,此时对于离中心点距离为某常数C形成的曲面是超椭球面。而yi的方差为λi,因而需要再把yi标准化,使之变成yi/λi,形成新的yi,这样生成的yi之间变成了与尺度无关的变量了,公式如下:

其中P是以特征向量为行向量的矩阵,根据正定距阵,特征向量互相正交。

现在来验证Y的协方差:

所以,对于旋转压缩后的Y的各分量之间线无关,而且已经标准化,与尺度无关,此时以Y分量为坐标轴形成的空间中,离中心距离为常数C的面为正圆球面。因而可以直接使用欧氏距离描述两点之间的相似度,也就是距离,因此有:

因此,当原坐标经过适当的变换之后,可以求出两点与尺度无关的距离,这也是使用马氏距离的原因。

Q3:这里我们来讨论两个直观意义上的问题 --- (1)协方差矩阵的逆在这里有什么作用,为什么要用逆?(2)马氏距离为什么要使变量间线性无关,这一步有什么意义?

这两个问题困扰了我两天了,终于有知乎大佬:马氏距离(Mahalanobis Distance)解释清楚了。大部分同学都是直接把公式一贴,解释公式了,让人很头大...(小声bb)

问题(1):通俗的解释是用逆矩阵的原因是相当于除去scale对距离的影响,想想一维的情况就应该能理解了~比如说同样距离都是3,但是对于方差大的数据,这个距离就算小了,所以要用距离再除以方差,高维情况就是协方差阵的逆了,理论上的话请看下面。

问题(2):虽然在Q2中简单讨论了一下这个问题,但是对于大部分同学来说(比如本菜)还是比较抽象,引用上面大佬的例子来解释一下。
我们都清楚一点,就是不同单位的特征之间不能简单比较(比如身高和体重)。我们能想到最直接的办法就是归一化。但是仅仅归一化是不行的,还会存在其他问题,什么问题呢?

那就是样本分布也会影响分类

举个一维的例子:现在有两个类别,统一单位,第一个类别均值为0,方差为0.1,第二个类别均值为5,方差为5。那么一个值为2的点属于第一类的概率大还是第二类的概率大?距离上说应该是第一类,但是直觉上显然是第二类,因为第一类不太可能到达2这个位置。
所以,在一个方差较小的维度下很小的差别就有可能成为离群点。就像下图一样,A与B相对于原点的距离是相同的。但是由于样本总体沿着横轴分布,所以B点更有可能是这个样本中的点,而A则更有可能是离群点。

还有一个问题——如果维度间不独立同分布(即存在相关性),样本点一定与欧氏距离近的样本点同类的概率更大吗?

可以看到样本基本服从f(x) = x的线性分布,A与B相对于原点的距离依旧相等,显然A更像是一个离群点

即使数据已经经过了标准化,也不会改变AB与原点间距离大小的相互关系。所以要本质上解决这个问题,就要针对主成分分析中的主成分来进行标准化。

可能有同学对上面这句话表示难以理解,本菜简单解释一下。

假设这里图片中数据具有强烈的正相关,可以理解为数据的两个维度下均值近似相等,μ12=0;方差也近似相等,σ12=σ。所以我们可以看到,对A、B两个点进行归一化的公式为

显然这里的μ和σ都是相同的,所以标准化只相当于对A、B点与数据中心距离进行了一个等比例缩放,并不影响它们之间大小的相互关系~
由此可见,仅仅靠标准化的欧氏距离还是存在很大问题的,数据相关性对判定结果的影响还是很大的。

上面搞懂了,马氏距离就好理解了,只需要将变量按照主成分进行旋转,让维度间相互独立,然后进行标准化,让维度同分布就OK了。

好了,这里我们只讨论直观上面对马氏距离所产生的一些问题的理解,说到这里就差不多了,更多的公式推导本文中也有,大家也可以看引用的原博客。之后可能会更新一下对主成分分析的理解哦~


http://www.taodudu.cc/news/show-2449614.html

相关文章:

  • 马氏距离
  • 马氏距离 结合 卡方分布 异常点检测
  • 马氏距离(Mahalanobis Distance)
  • 电脑服务器删除的文件如何复原,电脑怎么恢复文件_彻底删除的文件如何恢复...
  • android文件恢复功能,安卓手机误删文件恢复?快速恢复办法
  • Linux怎么恢复已删除的文件,Linux中使用extundelete恢复已删除的文件
  • win7怎么把计算机删除文件,win7不小心删除文件如何恢复_win7删除文件的四种恢复技巧...
  • oracle彻底删除dbf文件,ORACLE 删除数据文件模拟灾难恢复
  • 删除linux下的.文件,Linux删除文件命令汇总
  • Linux命令行删除文件恢复
  • 试试这些方法,误删文件怎么恢复?
  • 电脑删除的文件去哪了?删除的数据恢复,居然有3个方法…
  • 电脑里删除的文件怎么恢复,数据恢复方法大全
  • Excel将两个图片合并为一张
  • excel 柱状图 多个水滴图组合
  • 图片不能置于底层怎么办_excel如何设置图片置于底层
  • Excel通过图片名插入图片
  • excel 中的图片删除不了怎么办
  • C# 在 Excel 中创建组合图表
  • excel组合汇总_Excel汇总20151102
  • excel组合汇总_Excel汇总20150112
  • python读写excel的图片_Python读取excel中的图片完美解决方法
  • mpAndroidchart 坐标和图表距离_合二为一——在Excel中制作组合图表!
  • 雷达系统概述--距离分辨率
  • Python数据结构与算法(17)---归并排序
  • 数据传输速率与带宽之间的关系
  • C语言:将3*4矩阵中找出行最大,列最小的那个元素。-将低于平均值的人数作为函数返回值,将低于平均分的分数放入below数组中。...
  • 贪心算法
  • python 极坐标图_Python中的极坐标图问题,未考虑角度
  • 线段树学习记录1

度量学习中的马氏距离相关推荐

  1. 学习笔记5——距离度量(欧氏距离、马氏距离、闵氏距离、曼哈顿距离等)

     参考:深度学习中常用的几种距离度量算法 - 简书 (jianshu.com) 常见的9种距离度量方法-电子发烧友网 (elecfans.com) 1.欧氏距离 欧式距离并不是尺度不变的,因此所计算的 ...

  2. MATLAB学习笔记 使用马氏距离的RGB图像聚类

    1.概述 Mahalanobis 距离分类广泛用于聚类.该方程有一个协方差矩阵,它作用于类的变化以创建相似性. 在 Matlab 中,我们有一个函数 'mahal' 可以计算一个点和一个样本子集之间的 ...

  3. 机器学习中的数学——距离定义(六):马氏距离(Mahalanobis Distance)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

  4. 马氏距离(Mahalanobis Distance)推导及几何意义

    看了一些博客对马氏距离的解释,似乎没有讲到本质的地方,本文从欧氏距离存在的问题开始入手,一步步推导出马氏距离,并得出结论:原始空间中的马氏距离等于坐标旋转变换及缩放后的空间中的欧氏距离. 假设数据集 ...

  5. 简单粗暴理解与实现机器学习之K-近邻算法(三):距离度量、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化距离、余弦距离、汉明距离、杰卡德距离、马氏距离

    K-近邻算法 文章目录 K-近邻算法 学习目标 1.3 距离度量 1 欧式距离**(Euclidean Distance):** 2 **曼哈顿距离(Manhattan Distance):** 3 ...

  6. 【知识学习】马氏距离 Mahalanobis Distance

    目录 1. 协方差的意义 2. 马氏距离 2.1 概述 2.2 公式 2.3 实际意义 2.4 局限性 2.4.1 协方差矩阵必须满秩[不平衡数据少数类一般都不是] 2.4.2 不能处理非线性流形(m ...

  7. K邻近算法概述、欧式距离、Scikit-learn使用 、kNN邻近算法距离度量、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、余弦距离、汉明距离、杰卡德距离、马氏距离

    一.K-邻近算法概述 K邻近算(K Nearest Neighbor算法,KNN算法):如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 ...

  8. 概率论概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  9. R语言学习| 马氏距离mahanobis函数

    1. 马氏距离定义 2. 源代码 输入mahanobis 即可得到代码: > mahalanobis function (x, center, cov, inverted = FALSE, .. ...

  10. 数据的距离度量 一、欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离

    数据的距离度量 一.欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离 前言 欧式距离 标准欧式距离 曼哈顿距离 闵氏距离 切比雪夫距离 兰氏距离 马氏距离 前言 本篇记录一下常用的数据 ...

最新文章

  1. 360浏览器如何保存html文件夹下,在360浏览器中将书签保存的详细步骤
  2. mysql replication延迟_MySQL Replication--复制延迟01--源码瞎猜
  3. spinner 下拉框控件
  4. 最小正连续子序列和 问题
  5. 高级计算机职称考试题,高级职称计算机考试试题
  6. IntelliJ IDEA 2018 设置代码提示对大小写不敏感
  7. 为什么中国没有类似于windows的操作系统?
  8. [译]ASP.NET 5 Configuration
  9. 计算机中word音乐符号在哪里找,word音乐符号怎么打
  10. 学生信息管理系统总体设计规划书
  11. matlab折线参数,matlab画含参数曲线族
  12. fudannlp初试
  13. 苹果7全网通经常显示无服务器,iPhone 7处理器异响查出元凶?英特尔大喊冤枉
  14. 如何远程访问 Redis
  15. 将腾讯视频QLV格式转换为MP4格式
  16. CFont::CreateFont
  17. 惊闻Oracle收购Sun
  18. Linux宝塔控制面板如何实现多个二级域名301重定向跳转
  19. 青云QingCloud与陕中二院联手打造智慧医院范本
  20. Android 解压zip压缩包 (压缩包内有多级目录)

热门文章

  1. 怎么关闭他人计算机网络,远程关机在局域网中,怎样能关闭别人的电脑呢 – 手机爱问...
  2. 潇洒郎:彻底解决Markdown图片问题——无需上传图片——无需网络——转发给他人图片无缺失
  3. vue实现点击播放英语单词
  4. python英文单词记忆游戏单词爆破机
  5. 解决com.lowagie.text.DocumentException: Font 'STSong-Light' with 'UniGB-UCS2-H' is not recognized.
  6. 解决国外资源下载速度过慢的问题
  7. Choerodon猪齿鱼1.0先行版已发布!
  8. 经纬财富:新乡怎么炒白银能挣到钱?
  9. Java连接wincc_WinCC中访问SQL SERVER数据库
  10. [通讯方式] 串口通信