1.SSE—误差平方和:每类中的点到对应质心的欧氏距离平方的和 ,值越小,聚类效果越好

与K值相关,只能取到确定k值的最优解,而不是全局最优解

求每类中的点到对应质心的距离的和

使用的函数:

scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None),该函数用于计算两个输入集合的距离,通过metric参数指定计算距离的不同方式得到不同的距离度量值

实现功能:计算X与kmeans.cluster_centers_(每个类的质心坐标)欧氏距离的和

sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1))

2.轮廓系数法(Silhouette Coefficient),越接近1,聚类效果越好

参考地址:https://sklearn.apachecn.org/docs/0.21.3/22.html?h=Silhouette

结合了聚类的凝聚度和分离度,用于评估聚类的效果

对于其中的一个点 i 来说:

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离),           称为凝聚度

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离),称为分离度

那么 i 向量轮廓系数就为:

可见轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优

将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数

使用的函数:

# 评估指标——轮廓系数,前者为所有点的平均轮廓系数,后者返回每个点的轮廓系数

from sklearn.metrics import silhouette_score, silhouette_samples

3.Calinski-Harabasz(CH)指标,S值越大,聚类效果

参考地址:https://sklearn.apachecn.org/docs/0.21.3/22.html?h=calinski_harabaz_score

对于 簇,Calinski-Harabaz 得分 是作为 between-clusters dispersion mean (簇间色散平均值)与 within-cluster dispersion(群内色散之间)的比值给出的:

其中 是 between group dispersion matrix (组间色散矩阵), 是由以下定义的 within-cluster dispersion matrix (群内色散矩阵):

为数据中的点数, 为 cluster (簇) 中的点集, 为 cluster(簇) 的中心, 的中心, 为 cluster(簇) 中的点数。

使用的函数:

from sklearn.metrics import  calinski_harabaz_score

聚类算法效果衡量标准相关推荐

  1. 根因分析初探:一种报警聚类算法在业务系统的落地实施

    背景 众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要.通常情况下,日志主要是记录关键执行点.程序执行错误时的现场信息等.系统出现故障时,运维人员一般先查看错误日志, ...

  2. 根因分析初探:一种报警聚类算法在业务系统的落地实施 1

    背景 众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要.通常情况下,日志主要是记录关键执行点.程序执行错误时的现场信息等.系统出现故障时,运维人员一般先查看错误日志, ...

  3. 从零开始实现Kmeans聚类算法

    声明:版权所有,转载请联系作者并注明出处: http://blog.csdn.net/u013719780?viewmode=contents 知乎专栏: https://www.zhihu.com/ ...

  4. 机器学习中的聚类算法

    1. 概述 根据所拥有的数据,可以使用三种不同的机器学习方法,包括监督学习.半监督学习和无监督学习. 在监督学习中,根据已标记数据,因此可以确定输出是关于输入的某种(隐函数)的正确值.通过半监督学习, ...

  5. [学习笔记] [机器学习] 8. 聚类算法(聚类算法:K-means、K-means++;聚类算法评估;特征降维:特征选择(Pearson相关系数、Spearman相关系数)、PCA主成分分析)

    视频链接 数据集下载地址:无需下载 1. 聚类算法简介 学习目标: 掌握聚类算法实现过程 知道 K-means 算法原理 知道聚类算法中的评估模型 说明 K-means 的优缺点 了解聚类中的算法优化 ...

  6. 机器学习入门:聚类算法-5

    机器学习入门:聚类算法 1.实验描述 本实验先简单介绍了一下各聚类算法,然后利用鸢尾花数据集分别针对KMeans聚类.谱聚类.DBSCAN聚类建模,并训练模型:利用模型做预测,并使用相应的指标对模型进 ...

  7. 机器学习之聚类算法——聚类效果评估可视化

    我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...

  8. 机器学习算法之聚类算法拓展:K-Means和Mini Batch K-Means算法效果评估

    聚类算法的衡量指标 混淆矩阵 均一性 完整性 V-measure 调整兰德系数(ARI) 调整互信息(AMI) 轮廓系数(Silhouette) import time import numpy as ...

  9. K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点

    分类知识   分类是根据样本某些属性或某类特征(可以融合多类特征),把样本类型归为已确定的某一类别中.机器学习中常见的分类算法有:SVM(支持向量机).KNN(最邻近法).Decision Tree( ...

  10. 【机器学习】使用scikitLearn对数据进行聚类:Kmeans聚类算法及聚类效果评估

    无监督学习: [机器学习]使用scikitLearn对数据进行聚类:Kmeans聚类算法的应用及密度聚类DBSCAN [机器学习]使用scikitLearn对数据进行聚类:高斯聚类GaussianMi ...

最新文章

  1. 网页中如何启用QQ交谈
  2. 计算机技术可以学音乐吗,音响工程师可以练出来吗?
  3. 开发中的坑:MQ 也能做 RPC 调用?
  4. 工作碎片记录-android自动化测试
  5. linux编程两个子进程,Linux中fork同时创建多个子进程的方法
  6. workerman高并发异步mysql_workerman怎么实现高并发
  7. tplink软件升级有用吗_如何升级路由器教程:TPLink刷DDWRT更新固件
  8. 找出数组中不重复的一个数
  9. pandas dataframe使用query进行多个条件快速筛选
  10. AI 会替代程序员?超好用的自动补全代码工具 Deep TabNine!
  11. python对XML 操作
  12. jquery学习文档
  13. 销售竞争情报实战--徐凌云老师
  14. 稳压二极管及特性介绍
  15. 使用BaseMap绘制地图它不香么
  16. [2009-07-28]也许是离别之时
  17. python reset_在python中创建'reset'方法以重置已编辑的字符串
  18. 微信公众号 php sdk,GitHub - yuanchenglu/wechat-php-sdk: 微信公众平台 PHP SDK
  19. Microsoft PowerToys
  20. 电视行业迎来市场“拐点” TCL曲面电视表现最为抢眼

热门文章

  1. 软件人员kpi制定模板_KPI绩效考核软件有哪些?拥有多种考核模板i人事
  2. 家庭宽带服务器有什么作用,家用宽带网络与服务器使用的网络有什么不同?
  3. Mann-Whitney 统计量
  4. 微信小程序 在wxml写过滤器 脱敏手机号
  5. 计算机系统动态库修复,电脑系统windows7出现无法定位动态链接库user32.dll错误提示解决措施...
  6. 服务器cache文件夹里的东西可以删除吗,MSOCache文件夹可以删除吗?如何清理C盘空间?...
  7. 程序员如何做好自己的职业规划
  8. 多网卡时如何使用源地址ping目的地址,检测网络连通性。
  9. 计算机键盘静音键咋不亮,键盘上的声音开关键不能用为什么
  10. customer-service项目重构总结