这个大家都懂,这里参考别人的文章,记录下来方便以后回看。

1.对于标量

标量也就是无方向意义的数字,也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如,计算X={2,1,102}和Y={1,3,2}的相异度。一种很自然的想法是用两者的欧几里得距离来作为相异度,欧几里得距离的定义如下:

其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式,可得两者的欧氏距离为:

除欧氏距离外,常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离,两者定义如下:

欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p=2和p=1下的特例。另外这三种距离都可以加权,这个很容易理解,不再赘述。

下面要说一下标量的规格化问题。上面这样计算相异度的方式有一点问题,就是取值范围大的属性对距离的影响高于取值范围小的属性。例如上述例子中第三个属性的取值跨度远大于前两个,这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:

其中max(ai)和min(ai)表示所有元素项中第i个属性的最大值和最小值。例如,将示例中的元素规格化到[0,1]区间后,就变成了X’={1,0,1},Y’={0,1,0},重新计算欧氏距离约为1.732。

2.对于二元变量

所谓二元变量是只能取0和1两种值变量,有点类似布尔值,通常用来标识是或不是这种二值属性。对于二元变量,上一节提到的距离不能很好标识其相异度,我们需要一种更适合的标识。一种常用的方法是用元素相同序位同值属性的比例来标识其相异度。

设有X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1},可以看到,两个元素第2、3、5、7和8个属性取值相同,而第1、4和6个取值不同,那么相异度可以标识为3/8=0.375。一般的,对于二元变量,相异度可用“取值不同的同位属性数/单个元素的属性位数”标识。

上面所说的相异度应该叫做对称二元相异度。现实中还有一种情况,就是我们只关心两者都取1的情况,而认为两者都取0的属性并不意味着两者更相似。例如在根据病情对病人聚类时,如果两个人都患有肺癌,我们认为两个人增强了相似度,但如果两个人都没患肺癌,并不觉得这加强了两人的相似性,在这种情况下,改用“取值不同的同位属性数/(单个元素的属性位数-同取0的位数)”来标识相异度,这叫做非对称二元相异度。如果用1减去非对称二元相异度,则得到非对称二元相似度,也叫Jaccard系数,是一个非常重要的概念。

3.对于分类变量

分类变量是二元变量的推广,类似于程序中的枚举变量,但各个值没有数字或序数意义,如颜色、民族等等,对于分类变量,用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度。

4.对于序数变量

序数变量是具有序数意义的分类变量,通常可以按照一定顺序意义排列,如冠军、亚军和季军。对于序数变量,一般为每个值分配一个数,叫做这个值的秩,然后以秩代替原值当做标量属性计算相异度。

4.2.5、向量

对于向量,由于它不仅有大小而且有方向,所以闵可夫斯基距离不是度量其相异度的好办法,一种流行的做法是用两个向量的余弦度量,其度量公式为:

其中||X||表示X的欧几里得范数。要注意,余弦度量度量的不是两者的相异度,而是相似度!

参考文献:算法杂货铺——k均值聚类(K-means) - T2噬菌体 - 博客园  http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html

各种类型的数据的相异度(相似度)的度量相关推荐

  1. R-数据挖掘 | 聚类分析中的各种相异(似)度计算

    目录 一.聚类的基本数据结构 二.不同数据类型的相异度计算方法 (一)区间标度变量 (二)二元变量 (三)标称变量 (四)顺序变量 (五)比例标度型变量 (六)混合类型 三.R相异(似)度计算总结 一 ...

  2. 数据对象与对象之间相似度与相异度的度量

    为方便起见,我们使用术语邻近度(proximity)表示相似性或相异性.由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数. 我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度,然后考 ...

  3. 相似度和相异度、常用距离度量、余弦相似度

    通常,具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义,因此我们首先讨论具有单个属性的对象之间的邻近度.考虑由一个标称属性描述的对象,对于两个这样的对象,相似意味什么呢?由于标称属性只携带 ...

  4. 如何在 R 中计算 Bray-Curtis 相异度

    Bray-Curtis Dissimilarity是一种衡量两个不同站点之间差异的方法. 它经常在生态学和生物学中用于量化两个地点在这些地点发现的物种的不同之处. 计算如下: BC ij = 1 – ...

  5. java k均值相异度计算_K-NN算法与K-Means算法的原理与区别(附带源码示例)

    KNN算法 K-Means算法 目标 确定某个元素所属的分类 将已存在的一系列元素分类 算法类别 监督的分类算法 无监督的聚类算法 数据区别 训练数据中,有明确的标签. 如:一个数据集中有几万张图片, ...

  6. 如何开始使用任何类型的数据? - 第1部分

    从数据开始 (START WITH DATA) My data science journey began with a student job in the Advanced Analytics d ...

  7. Bray-Curtis相异矩阵系数

    Bray-Curtis相异矩阵概念 Bray-Curtis相异矩阵常用Bray-Curtis.Bray-Curtis相异度是生态学中用来衡量不同样地物种组成差异的测度,可以计算生物样本中不同物种组成的 ...

  8. 【组合数学】组合存在性定理 ( 三个组合存在性定理 | 有限偏序集分解定理 | Ramsey 定理 | 相异代表系存在定理 | Ramsey 定理内容概要 )

    文章目录 一.组合存在性定理 二.Ramsey 定理内容概要 一.组合存在性定理 组合存在性定理 主要有三个定理 , 有限偏序集分解定理 , Ramsey 定理 , 相异代表系存在定理 ; 1. 有限 ...

  9. java double 小数点后两位小数_Java中double类型的数据精确到小数点后两位

    Java中double类型的数据精确到小数点后两位 多余位四舍五入,四种方法 一: double f = 111231.5585; BigDecimal b = newBigDecimal(f);do ...

最新文章

  1. python中的运算符举例_举例讲解Python中的算数运算符的用法
  2. WCF入门(六)——回调
  3. C++ 函数部分(1)
  4. jdbc操作步骤和preparedStatment相比Statment的好处
  5. xamarin.android蓝牙,在Android上连接Xamarin的配对蓝牙设备
  6. vue下拉框值改变_vue select下拉框绑定值不跟着变问题
  7. mongodb查询值不为空_NoSQL之MongoDB——BSON与JSON类型
  8. 了解Callable和Spring DeferredResult
  9. 解决Ubuntu14.04在外接显示器不能指定问题的最佳分辨率
  10. pandas 检查某个元素是否在index中
  11. Handler sendMessage 与 obtainMessage (sendToTarget)比较
  12. 以太坊搭建联盟链_区块链知识普及:什么是以太坊
  13. ubuntu之解决安装python3.6.4后出现error while loading shared libraries: libpython3.6m.so.1.0的问题
  14. 男生追女生的超强数学建模分析
  15. 国内首个SENT 信号解析软件 适配NXP KMA321, melexis MLX90372等SENT信号输出芯片 完美替代PicoScope 解析SENT
  16. 无损数据压缩算法的历史
  17. tmall.product.schema.get( 产品信息获取schema获取 ),淘宝店铺上传商品API接口,淘宝商品发布接口,淘宝商品上传API接口,店铺上传接口,oAuth2.0接口
  18. 基于c语言编程思路的实践与探索,基于C语言编程思路的实践与探索
  19. 【python爬虫】喜欢看小说又手头紧的小伙伴一定要看这篇文章,带你一步步制作一个小说下载器
  20. 苹果怎么换行打字_2周内将你的打字速度提高3倍的方法

热门文章

  1. 正则表达式中的“\w“和“([0-9]|[a-z]|([A-Z]))“
  2. 编程统计候选人的得票数。设有3个候选人,Li,Zhang,Fun。 要求输入投票总数n,然后每次输入一个得票的候选人的名字(区分大小写),若选民输错候选人姓名,则按废票处理。 选民投票结束后程序自动显
  3. 回顾2011年被捕的八大黑客
  4. (2356)忙里偷闲-封装汇编编写的水波特效供C++调用
  5. c语言 return退出函数,C语言中的exit函数 以及他与return函数的区别
  6. 小丑的谢幕——OI回忆录
  7. STM32三种延时函数实现方法
  8. ArcGIS Geostatistical analyst (地统计分析)检查数据情况
  9. cacls DOS文件提权
  10. Guitar Pro 8.0最详细全面的更新内容及全部功能介绍