聚类算法效果衡量标准

2024-04-24 14:34:27

1.SSE—误差平方和：每类中的点到对应质心的欧氏距离平方的和，值越小，聚类效果越好

与K值相关，只能取到确定k值的最优解，而不是全局最优解

求每类中的点到对应质心的距离的和

使用的函数：

scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None)，该函数用于计算两个输入集合的距离，通过metric参数指定计算距离的不同方式得到不同的距离度量值

实现功能：计算X与kmeans.cluster_centers_（每个类的质心坐标）欧氏距离的和

sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1))

2.轮廓系数法（Silhouette Coefficient），越接近1，聚类效果越好

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=Silhouette

结合了聚类的凝聚度和分离度，用于评估聚类的效果

对于其中的一个点 i 来说：

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)，称为凝聚度

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)，称为分离度

那么 i 向量轮廓系数就为：

可见轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数

使用的函数：

# 评估指标——轮廓系数,前者为所有点的平均轮廓系数，后者返回每个点的轮廓系数

from sklearn.metrics import silhouette_score, silhouette_samples

3.Calinski-Harabasz(CH)指标，S值越大，聚类效果

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=calinski_harabaz_score

对于簇，Calinski-Harabaz 得分是作为 between-clusters dispersion mean （簇间色散平均值）与 within-cluster dispersion（群内色散之间）的比值给出的:

其中是 between group dispersion matrix （组间色散矩阵），是由以下定义的 within-cluster dispersion matrix （群内色散矩阵）:

为数据中的点数，为 cluster （簇）中的点集，为 cluster（簇）的中心，为的中心，为 cluster（簇）中的点数。

使用的函数：

from sklearn.metrics import calinski_harabaz_score

聚类算法效果衡量标准相关推荐

根因分析初探：一种报警聚类算法在业务系统的落地实施
背景众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要.通常情况下,日志主要是记录关键执行点.程序执行错误时的现场信息等.系统出现故障时,运维人员一般先查看错误日志, ...
根因分析初探：一种报警聚类算法在业务系统的落地实施 1
背景众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要.通常情况下,日志主要是记录关键执行点.程序执行错误时的现场信息等.系统出现故障时,运维人员一般先查看错误日志, ...
从零开始实现Kmeans聚类算法
声明:版权所有,转载请联系作者并注明出处: http://blog.csdn.net/u013719780?viewmode=contents 知乎专栏: https://www.zhihu.com/ ...
机器学习中的聚类算法
1. 概述根据所拥有的数据,可以使用三种不同的机器学习方法,包括监督学习.半监督学习和无监督学习. 在监督学习中,根据已标记数据,因此可以确定输出是关于输入的某种(隐函数)的正确值.通过半监督学习, ...
[学习笔记] [机器学习] 8. 聚类算法（聚类算法：K-means、K-means++；聚类算法评估；特征降维：特征选择（Pearson相关系数、Spearman相关系数）、PCA主成分分析）
视频链接数据集下载地址:无需下载 1. 聚类算法简介学习目标: 掌握聚类算法实现过程知道 K-means 算法原理知道聚类算法中的评估模型说明 K-means 的优缺点了解聚类中的算法优化 ...
机器学习入门：聚类算法-5
机器学习入门:聚类算法 1.实验描述本实验先简单介绍了一下各聚类算法,然后利用鸢尾花数据集分别针对KMeans聚类.谱聚类.DBSCAN聚类建模,并训练模型:利用模型做预测,并使用相应的指标对模型进 ...
机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...
机器学习算法之聚类算法拓展：K-Means和Mini Batch K-Means算法效果评估
聚类算法的衡量指标混淆矩阵均一性完整性 V-measure 调整兰德系数(ARI) 调整互信息(AMI) 轮廓系数(Silhouette) import time import numpy as ...
K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点
分类知识分类是根据样本某些属性或某类特征(可以融合多类特征),把样本类型归为已确定的某一类别中.机器学习中常见的分类算法有:SVM(支持向量机).KNN(最邻近法).Decision Tree( ...
【机器学习】使用scikitLearn对数据进行聚类：Kmeans聚类算法及聚类效果评估
无监督学习: [机器学习]使用scikitLearn对数据进行聚类:Kmeans聚类算法的应用及密度聚类DBSCAN [机器学习]使用scikitLearn对数据进行聚类:高斯聚类GaussianMi ...

最新文章

热门文章