概率论概念及机器学习中样本相似性度量之马氏距离
均值、标准差、方差:
样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资、年收入等等,只有个文字游戏而已。
标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以集合[0,8,12,20]和集合[8,9,11,12]为例,两者的均值都是10,但显然后都较为集中,故其标准差小一些。所以标准差描述的是集合中样品分布的聚合程度。
方差是标准差的平方。
期望:
期望是对一组概率事件在实验前根据概率分布预测出的样本的平均值,是一个概率论的概念,而均值是该概率事件发生后根据实际结果统计的样本的平均值,是一个统计概念。例如对于一个随机数发生器,每次随机生成1到9之间的整数,发生N次,那么对于产生的序列,其期望是5,即理论意义上计算出的均值,但是实际的均值会随着发生次数而改变,有可能是4.5,下次又有可能是5.5,只有在发生次数达到无穷多次之后,实际的均值才会等于期望。
一句话概况:期望就是平均数随样本趋于无穷的极限。
协方差:
协方差用于衡量两个变量的总体误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望,那么两个变量之间的协方差就是负值。如果X与Y是统计独立的,那么二者之间的协方差就是0。
欧氏距离:
欧氏距离也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点之间的直线段距离。在多维向量中欧式距离的计算定义为两个他们向量对应元素差的平方和再开方。
欧氏距离在解决多元数据的分析问题时,存在一定的问题,欧氏距离将样本的不同属性无差别对待,实际问题中往往样本中每个属性的权重因子是不一样的,比如衡量一所房子的好坏,对于有子女需要上学的人,会认为学位更为重要,所占权重应该大一些,而有些家庭人口比较多的人考虑到人均面积,会认为户型、房间数量所占权重应该大一些等等,所以在这种情况欧氏距离各个元素一刀切的对待方式来评价一个现实问题往往是不可取的。
马氏(Mahalanobis)距离:
马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis) 提出的,表示数据所在的空间的协方差的度量,或者认为是把数据所在空间进行归一化处理之后再进行的度量。它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant) ,即独立于测量尺度。马氏距离不受量纲的影响,两者之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。马氏距离是多维空间中两点相似性的变量,往往作为聚类或者分类算法的基础。
概率论概念及机器学习中样本相似性度量之马氏距离相关推荐
- 统计学相关概念及机器学习中样本相似性度量之马氏距离
均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...
- 机器学习中的数学——距离定义(六):马氏距离(Mahalanobis Distance)
分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...
- 简单粗暴理解与实现机器学习之K-近邻算法(三):距离度量、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化距离、余弦距离、汉明距离、杰卡德距离、马氏距离
K-近邻算法 文章目录 K-近邻算法 学习目标 1.3 距离度量 1 欧式距离**(Euclidean Distance):** 2 **曼哈顿距离(Manhattan Distance):** 3 ...
- 机器学习两种距离——欧式距离和马氏距离
我们熟悉的欧氏距离虽然很有用,但也有明显的缺点.它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求.例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区 ...
- 机器学习中的相似性度量 (转)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...
- 机器学习中的相似性度量总结
来自 机器学习算法那些事公众号 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Dist ...
- 机器学习中的相似性度量(转载)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...
- 机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...
- AI:人工智能概念之机器学习中常用算法的思维导图集合(非常经典、建议收藏)之详细攻略
AI:人工智能概念之机器学习中常用算法的思维导图集合(非常经典.建议收藏)之详细攻略 目录 机器学习算法的思维导图集合 1.ML算法思维图 2.ML算法思维导图 相关文章:ML/DL:关于算法模型的选 ...
最新文章
- 领导让我重构代码_领导不是由代码构成
- 2017各银行贷款利息表及P2P平台贷款利率比较
- python资料库-python 资源库
- mysql 列选项_列未显示在“列”选项卡中(MySQL Workbench)
- 复现经典:《统计学习方法》第18章 概率潜在语义分析
- 汇编语言---判断字符
- 台积电5nm进入试产 首批客户苹果华为在列
- JS中Promise函数then的奥秘探究
- Google开源的FlexboxLayout
- HTML5页面实现文件下载
- 倒车雷达matlab仿真,倒车雷达系统设计(超声波-SEG4)
- 计算S=a+aa+…+aa…a
- PCB设计-Allegro软件入门系列第十四讲-设计参数配置(上)
- 7-4 查询水果价格 PTA
- 再见李佳奇,菜鸟哥用Python也能帮小姐姐选择口红啦!
- 14WPF---关键帧动画
- halcon面阵相机标定矫正
- adguard自定义_AdGuardHome拦截页面模版下载,自定义AdGuardHome拦截页教程,修改AdGuardHome默认拦截页...
- nyoj-264-国王的魔镜
- Badboy安装和介绍
热门文章
- 【必收藏】台大李宏毅老师课程 | 资源汇总、笔记总结与索引
- Android 7.1 App Shortcuts使用
- 【操作系统/OS笔记15】死锁的系统模型,死锁的处理办法,银行家算法与死锁检验算法
- 【数据结构笔记15】优先队列、堆、最大堆、堆的操作(插入、删除、建立)与C实现
- Android view 小总结
- 清除iphone文件app连接服务器记录,“文件”中连接外置设备或服务器 - iPhone附带的APP - iPhone使用手册...
- js一行四个 超过自动换行_干货!零基础学JavaScript要掌握的四个基本常识
- verilog实现多周期处理器之——(三)数据相关问题及其解决
- “中文直达”能推动移动上网入口洗牌吗?
- ORM框架之Spring Data JPA(一)Hibernate实现JPA规范