文章目录

  • 1.定义:
  • 2.聚类评估方法介绍
    • (一)内部评估
      • Davies-Bouldin index(戴维森堡丁指数,简称DB或DBI)
      • Dunn's index(邓恩指数,简称DVI)
      • Silhouette index(轮廓指数,简称SI)
  • 参考

1.定义:

聚类有效性指标(Cluster Validity Index,CVI):用于度量聚类的效果。
详细介绍wiki:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality

2.聚类评估方法介绍

聚类具有随机性,聚类效果的好坏我们并没有办法去判断,这里面给出的聚类有效性指标,可以帮助我们在聚类一组数据后对其聚类效果进行度量,然后根据数据的实际意义做出判断。

聚类评估目前常用的方式有两大类:内部评估(internal)和外部评估(external),内部评估是汇总得到一个单独质量分数,外部评估是通过与公知标准作比较。当然,还有人工评估方法(专家),通过评估其在应用中的聚类效果的间接评估。

(一)内部评估

内部评估就是基于聚类数据评估聚类结果。
下面介绍几种可以用来评估聚类(kmeans算法)质量的内部准则:

Davies-Bouldin index(戴维森堡丁指数,简称DB或DBI)

计算公式:
DB=1n∑i=1nmax⁡j≠i(σi+σjd(ci,cj))DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right) DB=n1​i=1∑n​j​=imax​(d(ci​,cj​)σi​+σj​​)

公式含义:DB为任意两个类别的类内距离平均距离之和与两聚类质心间距之比的最大值

具体解析:

  • 分子:簇内所有点到该簇质心点的平均距离之和
  • 分母 d(ci,cj)d(ci,cj)d(ci,cj):两类别质心间的距离
  • max()最大值部分:选取每组比例中的最大值(即选取最糟糕的一组)
  • 1/n求和部分:将所选比例加和除以类别数

结果意义:DB值越小表示聚类结果同簇内部紧密,不同簇分离较远。即类内距离越小,类间距离越大。

具体过程:

  • step1:计算每个聚类d(A),d(B),d©的平均内部距离。
  • step2:计算任意质心间的距离d(A,B),d(A,C)和d(B,C)。
  • step3:返回最大比例(任意内部聚类之和与其质心间距之比)

Dunn’s index(邓恩指数,简称DVI)

计算公式:
D=min⁡1≤i<j≤nd(i,j)max⁡1≤k≤nd′(k),D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,, D=max1≤k≤n​d′(k)min1≤i<j≤n​d(i,j)​,

公式含义:任意两簇类间最短距离与任意簇的类内最大距离之比

结果意义:DVI值越大表明聚类结果同簇内部紧密,不同簇分离较远。即类间距离越大,类内距离越小。

Silhouette index(轮廓指数,简称SI)

计算公式:
s(i)=b(i)−a(i)max⁡{a(i),b(i)}s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}}s(i)=max{a(i),b(i)}b(i)−a(i)​
或者是
s(i)={1−a(i)/b(i),if a(i)<b(i)0,if a(i)=b(i)b(i)/a(i)−1,if a(i)>b(i)s(i) = \left\{\begin{array}{ll} 1-a(i)/b(i), & \text{if } a(i) < b(i) \\ 0, & \text{if } a(i) = b(i) \\ b(i)/a(i)-1, & \text{if } a(i) > b(i) \end{array} \right. s(i)=⎩⎨⎧​1−a(i)/b(i),0,b(i)/a(i)−1,​if a(i)<b(i)if a(i)=b(i)if a(i)>b(i)​

公式含义:它测量每个模式中自身簇中的模式与其他最近簇中的模式相比的相似程度。

具体解析:

  • a(i) 表示从模式 i 到所有同一聚类中的每个模式的平均距离;
  • b(i) 表示从模式 i 到其他聚类中最接近的那个聚类的每个模式的平均距离。

结果意义:SI值越高表示 i 与自身聚类匹配较好,与其他类匹配较差。即类内密集,类间疏散。

缺点:复杂度较大

参考

DBI的代码思路大家可参考:
https://gist.github.com/StuartGordonReid/7841ab6837e7e84476f3#file-clusteringobjectivefunctions-py
强烈推荐详细介绍聚类及质量评估等的参考文章:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality
剩下的外部评估之后再补上。

聚类有效性指标(CVI)相关推荐

  1. Python机器学习——聚类的有效性指标

    聚类有效性指标(Cluster Validity Index,CVI)用于度量聚类的效果.很显然,希望彼此相似的样本在一个簇,彼此不相似的样本尽量在不同的簇.也就是说:同一簇的样本彼此之间相似,不同簇 ...

  2. 机器学习 | 聚类评估指标

    文章目录 1. 聚类评估指标 1.1 外部评估指标 RI 兰德指数 ARI 调整兰德指数 Jaccard JC指数 FMI FMI指数 MI 互信息 NMI 归一化互信息 AMI 调整互信息 1.2 ...

  3. matlab中CH指标聚类评价指标,MATLAB聚类有效性评价指标(外部)

    MATLAB聚类有效性评价指标(外部) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多内容,请看标签:MATLAB.聚类 前提:数据的真实标签已知 ...

  4. r型聚类典型指标_常用的聚类算法及聚类算法评价指标

    1. 典型聚类算法 1.1 基于划分的方法 代表:kmeans算法 ·指定k个聚类中心 ·(计算数据点与初始聚类中心的距离) ·(对于数据点,找到最近的{i}ci(聚类中心),将分配到{i}ci中) ...

  5. MATLAB聚类有效性评价指标(外部)

    MATLAB聚类有效性评价指标(外部) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多内容,请看标签:MATLAB.聚类 前提:数据的真实标签已知 ...

  6. r型聚类典型指标_聚类与RFM模型 —— 从5月的一道腾讯数据分析面试题说起

    作者:稀饭 本文约2200字,建议阅读12分钟. 5月份的时候曾经投过腾讯的数据分析实习,中午投的简历,午觉睡醒就被call,没有HR通知,南山必胜客直接就来技术面.当时准备的还不够充分,半小时后就感 ...

  7. r型聚类典型指标_文献解读 | 缺陷和非缺陷型精神分裂症脑网络功能紊乱的共性和异性...

     # 导读  精神分裂症是一种高度异质性疾病,缺陷型精神分裂症(DS)与非缺陷型精神分裂症患者(NDS)存在症状上的差异.缺陷型精神分裂症的阴性症状具有原发性和持久性的特点.早期影像学研究报道了DS的 ...

  8. r型聚类典型指标_六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步...

    论文:An empirical study on evaluation metrics of generative adversarial networks 论文链接:https://arxiv.or ...

  9. 软件测试有效性指标,评价软件测试的有效性

    摘要:在软件测试过程中,因为多方面的因素,常常会导致一些错误和失效,为了改善测试过程.使测试过程变得更为有效,需要对软件测试过程进行一个补充,那就是对软件测试的有效性进行评价.本文介绍了评价软件测试有 ...

  10. 软件测试有效性指标,如何衡量软件测试的有效性?

    51Testing软件测试网hTi$~*mp6t"w~ 我经常被问到这个问题:"如何衡量的有效性?"或者是"如何评价测试的有效性?" 仿佛只要我说出个 ...

最新文章

  1. 21day学通python_铁乐学python_day21_面向对象编程3
  2. Swift 4正式发布,新功能概览
  3. 【转】iOS类似Android上toast效果
  4. 构建springmvc+mybatis+dubbo分布式平台-dubbo简介
  5. arcgis10.1连接sqlserver数据库常见问题(转载)
  6. word2003插入页码
  7. Linux (x86) Exploit 开发系列教程之十 使用 Malloc Maleficarum 的堆溢出
  8. php上传完没进度条_php使用APC实现实时上传进度条功能
  9. 6.2 API : RandomForestClassifier与RandomForestRegressor
  10. bzoj1396: 识别子串
  11. tftp服务器的配置文件,tftp 服务器 系统配置文件
  12. 不加好友实现QQ在线代码状态临时会话
  13. HTTPD的常用配置
  14. Recorder Point Guideline
  15. yocto系列讲解[理论篇]68 -Yocto版本信息查询稳定版本和EOL版本
  16. 笔记本 原因代码: 0x500ff 关机类型: 关闭电源_关于笔记本电池更换的建议
  17. 华为智慧屏 SE55
  18. 通过微博名查看id html,微博id在哪里查看?
  19. linux防火墙关闭开放的端口,Linux关闭防火墙,开放端口
  20. 如何保证邮件系统的安全?

热门文章

  1. 调用链根因定位论文《Root Cause Analysis of Anomalies of Multitier Services in Public Clouds》
  2. oppo云服务器怎么卸载,oppo手机小布助手卸载方法_oppo手机小布助手怎么卸载-硬件之家...
  3. citespace:Your version‘s status cannot be verified due to network issue. Check your network conne
  4. 泰勒成立的基本原理(转载)
  5. Echarts柱状图,实现不同系列,柱体之间的部分重叠效果
  6. no matter相关
  7. php审批流设计思路,审批流设计器-字段说明
  8. log4js pm2 cluster配置
  9. jieba分词关键字含英文和特殊字符的处理方法
  10. voyage java_GitHub - zhaoshiling1017/voyage: 采用Java实现的基于netty轻量的高性能分布式RPC服务框架...