三种评价聚类程度的内部指标
1、簇内平方和 inertia
这个公式被称为簇内平方和(cluster Sum of Square),又叫做Inertia,统计学中 “和方差”、“簇内离差平方和”(SSE)在这里指同一意思。而将一个数据集中的所有簇的簇内平方和相加,就得到了整体平方和(Total Cluster Sum of Square),又叫做total inertia,TSSE。Total Inertia越小,代表着每个簇内样本越相似,聚类的效果就越好。因此KMeans追求的是,求解能够让Inertia最小化的质心。
实际上,在质心不断变化不断迭代的过程中,总体平方和是越来越小的。随着簇的书目增加,假设簇数等于样本数,整体簇内平方和为0。
一般认为图中的出现的拐点为较好的分类簇数
**
2、轮廓系数
**
轮廓系数的计算公式可以表示为:
其中,a(i)体现了簇内的密集性,代表样本i与同簇内其他样本点距离的平均值; b(i)反映了簇间的分散性,它的计算过程是,样本i与其他非同簇样本点距离的平均值,然后从平均值中挑选出最小值。当S(i)接近于-1时,说明样本i分配的不合理,需要将其分配到其他簇中;当S(i)近似为0时,说明样本i落在了模糊地带,即簇的边界处;当S(i)近似为1时, 说明样本i的分配是合理的。
该方法综合考虑了簇的密集性与分散性两个信息,如果数据集被分割为理想的k个簇,那么对应的簇
内样本会很密集,而簇间样本会很分散。其取值范围为[-1,1],数值最大的一般认为是较好的分类簇数
3、Calinski-Harabaz Index(CH指标)
CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度。
CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。一般认为数值最大的为较好的分类簇数
三种评价聚类程度的内部指标相关推荐
- 总结出三种评价目的便于管理干部评价
管理干部是企业的中坚力量,管理干部素质的好与差将直接影响到企业经营发展战略的制定与执行.对管理干部进行科学评价,有利于企业正确认识并有效提升管理干部的能力与水平,从而有利于企业长期良性健康地经营与发展 ...
- html清除图片上下间距,css - 三种方法解决LI和内部Img的上下间距问题
在火狐浏览器和谷歌浏览器(qq浏览器,谷歌内核)bug类似这张图: img的高度是190*127 但是放到li中,li并没有设置高度,却和内部的图片之间上下错位. 若强行给li设置高度127,他和im ...
- CSS的三种样式——内联、内部、外部
CSS:页面美化和布局控制 概念:css是Cascading Style Sheets的缩写 --层叠样式表 作用: 美化页面 控制布局 降低耦合度,使分工协作更容易,提高开发效率 优先级问题:遵循就 ...
- lopa分析_【风险分析方法】HAZOP、LOPA和FMEA三种分析方法,如何做到信息共享?...
导 读 信息是人们对事物的了解的不确定性的减少或消除,其功能是表征物质客体成分,结构,状态,特性等属性.信息共享的目的在于减少或消除信息源所需的不确定性.石油化工行业由于设备多,生产过程复杂,危险元素 ...
- 量子计算机三种,MIT发现第三种磁性 可造量子计算机?
麻省理工学院(MIT)近日展示了一种全新磁性的存在,证实了早先的预言. 在此之前,我们只知道两种磁性:"铁磁性"(Ferromagnetism)就是条形磁铁.指南针里的磁性,几个世 ...
- Hyper-V三种虚拟网络类型的理解
Windows 10除家庭版之外都内置了Hyper-V,但是Win10系统上Hyper-V虚拟网络的设置方法却与之前版本的Hyper-V有些不同,最近在折腾了无数遍之后,总算有些心得: 先说说虚拟网络 ...
- 聚类的外部指标(Purity, ARI, NMI, ACC) 和内部指标(NCC,Entropy,Compactness,Silhouette Index),附代码 (Python 和 Matlab)
聚类性能评估的外部指标和内部指标,附代码 (Python 和 Matlab) 文章目录 聚类性能评估的外部指标和内部指标,附代码 (Python 和 Matlab) 1 外部指标 1.1 Purity ...
- python 三种聚类算法(K-means,AGNES,DBScan)
python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan) 更新时间:2019年06月27日 14:44:44 作者:weixin_42134141 这篇文章主要介绍了pyth ...
- K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比
原文:http://www.cnblogs.com/yixuan-xu/p/6272208.html K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means ...
- Kmeans、DBSCAN、层次聚类等三种聚类算法笔记
目录 一.Kmeans模型 1 算法思想及步骤 2 最佳k值的确定方法 2.1 拐点法 2.2 轮廓系数法 2.3 间隔统计量法 3 Kmeans算法的缺点 二.DBSCAN算法 三.层次聚类算法 1 ...
最新文章
- mysql crm动态列设计_值得收藏:一份非常完整、详细的MySQL规范
- python在财务上的应用-python 与财务
- Linux安装pecl和pear
- 开发人员不得不知的MySQL索引和查询优化
- UiAutomator喷射事件的源代码分析
- MacOS如何设置多任务桌面
- 【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型
- NGINX实现负载均衡,并利用PHP实现session入库
- Xcode快捷键—图文详解
- Sentaurus TCAD 2013 在RedHat7.0 Linux系统的安装教程
- PowerDesigner 16.5下载安装包
- 用python来开发webgame服务端系列
- DSL是什么意思?Mbps是什么意思?
- 调用so库文件以及里面的方法
- hdwiki v5.1存在SQL注入导致可下载任意文件
- c语言atol是什么缩写,C语言atol函数的可移植版本疑问
- 桌面删除的文件如何找回
- 塔式太阳能热发电系统的防雷设计
- 加州大学圣地亚哥分校计算机科学排名,2020年加州大学圣地亚哥分校排名TFE Times美国最佳计算机科学硕士专业排名第17...
- php fwrite写入失败,奇怪问题 php-fpm 下使用 fwrite 写入 /tmp 目录失败