聚类分析的评价指标(性能度量)
聚类分析的评价指标也称为:性能度量指标
聚类算法聚类后,如何评价聚类结果,如何确定各聚类算法结果的优劣,如何确定聚类算法的参数值,可以通过聚类性能度量指标从一个侧面说明聚类算法和算法参数的选择。
聚类性能度量指标分为外部指标和内容指标。
外部指标:
外部指标,也就是有参考标准的指标,通常也可以称为有监督情况下的一种度量聚类算法和各参数的指标。具体就是聚类算法的聚类结果和已知的(有标签的、人工标准或基于一种理想的聚类的结果)相比较,从而衡量设计的聚类算法的性能、优劣。
外部指标主要有:
Jaccard系数(Jaccard Coefficient, JC)
FM指数(Fowlkes and Mallows Index, FMI)
Rand指数(Rand Index, RI)
F值(F-measure)
上述性能度量的结果值均在[0,1]区间,值越大越好,值越大表明聚类结果和参考模型(有标签的、人工标准或基于一种理想的聚类的结果)直接的聚类结果越吻合,聚类结果就相对越好。
兰德系数(Rand index,RI)需要给定实际类别信息C,假设K是聚类结果
- RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。
对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:
调整兰德系数(Adjusted rand index) ARI取值范围为[-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。
优点:
- 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0;
- 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;
- 可用于聚类算法之间的比较。
缺点:
- ARI需要真实标签
互信息评分(Mutual Information based scores)与调整互信息( Adjusted mutual information):
利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI取值范围为[0,1],AMI取值范围为[-1,1],它们都是值越大意味着聚类结果与真实情况越吻合。
- 优点:除取值范围在[0,1]之间,其他同ARI,可用于聚类模型选择;
- 缺点:需要先验知识。
内部指标:
内部指标是无监督的,无需基准数据集,不需要借助于外部参考模型,利用样本数据集中样本点与聚类中心之间的距离来衡量聚类结果的优劣。
内部指标主要有:
紧密度(Compactness):每个聚类簇中的样本点到聚类中心的平均距离。对应聚类结果,需要使用所有簇的紧密度的平均值来衡量聚类算法和聚类各参数选取的优劣。紧密度越小,表示簇内的样本点月集中,样本点之间聚类越短,也就是说簇内相似度越高。
分割度(Seperation):是个簇的簇心之间的平均距离。分割度值越大说明簇间间隔越远,分类效果越好,即簇间相似度越低。
戴维森堡丁指数(Davies-bouldin Index,DBI):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示簇内距离越小,簇内相似度越高,簇间距离越大,簇间相似度低。
邓恩指数(Dunn Validity Index,DVI):任意两个簇的样本点的最短距离与任意簇中样本点的最大距离之商。该值越大,聚类效果越好。
轮廓系数 (Silhouette Coefficient):对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高。
具体实现性能度量可以参考一下博客和官网内容:
DBSCAN聚类算法演示(官网:https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py)
Estimated number of clusters: 3
Estimated number of noise points: 18
Homogeneity: 0.953
Completeness: 0.883
V-measure: 0.917
Adjusted Rand Index: 0.952(调整兰德系数)
Adjusted Mutual Information: 0.916
Silhouette Coefficient: 0.626
聚类模型评估(https://www.jianshu.com/p/b9528df2f57a)
sklearn聚类算法评估方法 之各种系数(https://blog.csdn.net/u010159842/article/details/78624135)
聚类算法的有效性评价指标:理论(https://zhuanlan.zhihu.com/p/96081088)
聚类分析的评价指标(性能度量)相关推荐
- 【AI面试题】分类问题常用的性能度量指标(评价指标)
分类问题常用的性能度量指标有精确率.召回率.F1.TPR.FPR. 分类问题度量指标的基础是混淆矩阵: 上表中: TP表示正样本被预测为正样本(真正例,True Positive) FN表示正样本被预 ...
- 分类性能度量指标:准确性(AC)、敏感性(SE)、特异性(SP)、F1评分、ROC曲线、PR(Precision-Recall)曲线、AUC曲线,混淆曲线
一:比较容易理解的比喻 以糖尿病人的筛查为例.第一个钟形代表正常人,第二个钟形代表糖尿病人.理想中,如果正常人和糖尿病人的血糖范围完全没有重合就好了.这样我就把标准定在中间那个最低点.低于此点的,就是 ...
- 机器学习之性能度量指标——决定系数R^2、PR曲线、ROC曲线、AUC值、以及准确率、查全率、召回率、f1_score
一.线性回归的决定系数(也称为判定系数,拟合优度) 相关系数是R哈~~~就是决定系数的开方! 正如题所说决定系数是来衡量回归的好坏,换句话说就是回归拟合的曲线它的拟合优度!也就是得分啦~~ 决定系数它 ...
- 机器学习中常见性能度量汇总
前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 一.回归 在回归任务上,目前最常用的性能度量方式是均方误差 (Mean S ...
- 分类器性能度量指标之ROC曲线、AUC值
目录 概述 混淆矩阵(Confusion matrix) ROC曲线 AUC(Area under the ROC curve) AUC能拿来干什么 总结 参考资料: 概述 二分类问题在机器学习中是一 ...
- 机器学习之性能度量指标
机器学习的模型性能度量指标 在机器学习中,衡量,评估和选择一个模型好坏是通过一些常见指标实现的,称之为性能指标(Metrics). 对于一个二分类问题,我们首先给出如下基本指标基于这些指标可以推导出其 ...
- 机器学习之常见的性能度量
文章目录 1.简介 2.性能度量总结 3.参考文献 1.简介 本文是对论文<The Impact of Automated Parameter Optimization on Defect Pr ...
- 机器学习中的三对性能度量参数
文章目录 1 分类结果混淆矩阵 2 错误率和精度 3 查准率P和查全率R 4 真正例率TPR和假正例率FPR 1 分类结果混淆矩阵 2 错误率和精度 错误率:分类错误的样本数占样本总数的比例 精度:分 ...
- linux i查看o性能度量,11.9.18 学习笔记:性能管理
性能监视 ※DBA必须定期监视性能以查找瓶颈所在,然后更正问题 监控内容包括: 内存分配问题 I/O设备争用 资源争用 应用程序代码问题 网络瓶颈 ※从网络性能和I/O速度到运行单个程序操作所花费的时 ...
最新文章
- [LeetCode]:94:Binary Tree Inorder Traversal
- mybatis基础,mybatis配置文件核心组件typeHandler元素
- GitHub防黑客新措施:弃用账密验证Git操作,改用token或SSH密钥,今晚0点执行
- 怎么发送文件到服务器端,使用HttpClient发送文件流到服务器端
- cmake + visual studio 配置出错的解决方法
- Jenkins打包之本地远程自动打包教程
- 在微型计算机中 如果电源突然中断,微型计算机在工作中电源突然中断,则其中的信息全部丢失,再次通电后也不能恢复的..._考试资料网...
- Activity、View、Window的理解一篇文章就够了
- 算法-求二进制数中1的个数
- 利用定时器中断方式控制led灯的闪烁速度_实验四 LED点阵
- 前后端分离项目,标准json协议格式参考
- JAVA笔试题常见坑_java笔试常见的选择题(坑你没商量)
- BIGEMAP地图下载器(91卫图助手)功能对比
- 麻瓜编程python爬虫微专业_网易微专业麻瓜编程Python Web开发工程师教程
- 使用 Beyond Compare 和版本控制系统
- 微信小程序-快递查询
- 图片转成文字:方便准确的OCR识图软件
- PHP写评论模块,uchome2.0 日志评论模块分析(php代码及js代码分析)
- 74cms v5.0.1存在远程连接命令/代码执行漏洞
- Python如何对图片进行缩放,旋转,翻转,添加文字以及如何截取并粘贴图像到图片中