Caliński, Tadeusz, and Jerzy Harabasz. “A dendrite method for cluster analysis.” Communications in Statistics-theory and Methods 3.1 (1974): 1-27.

公式与简介

CH指标的计算公式是：s=tr(Bk)tr(Wk)×nE−kk−1s = \frac{\mathrm{tr}(B_k)}{\mathrm{tr}(W_k)} \times \frac{n_E - k}{k - 1}s=tr(Wk)tr(Bk)×k−1nE−k

其中BkB_{k}Bk 为 between-clusters dispersion mean（类间距离），WkW_{k}Wk为 within-cluster dispersion（类内部的距离），详细公式如下：

Wk=∑q=1k∑x∈Cq(x−cq)(x−cq)TW_k = \sum_{q=1}^k \sum_{x \in C_q} (x - c_q) (x - c_q)^TWk=∑q=1k∑x∈Cq(x−cq)(x−cq)T

Bk=∑q=1knq(cq−cE)(cq−cE)TB_k = \sum_{q=1}^k n_q (c_q - c_E) (c_q - c_E)^TBk=∑q=1knq(cq−cE)(cq−cE)T

WkW_{k}Wk 中：CqC_qCq表示当前点所在的类qqq；cqc_qcq是当前类qqq的聚类中心点

BkB_{k}Bk 中：CeC_eCe表示类eee的中心；nqn_qnq表示类别qqq包含的点数。

值越大表示聚类效果越好

代码实现

import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.cluster import KMeansdataframe = pd.DataFrame(data=np.random.randint(0, 50, size=(200, 10)))
# 以kmeans聚类方法为例
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(dataframe)
labels = kmeans_model.labels_
score = metrics.calinski_harabasz_score(dataframe, labels)
print(score)

参考文章

sklearn:https://scikit-learn.org/stable/modules/clustering.html#calinski-harabasz-index

聚类效果评价——Calinski-Harabasz（CH指标）——内部评估标准（2）相关推荐

聚类效果评价——Davies-Bouldin（DB指标）——内部评估标准（3）
Davies, David L., and Donald W. Bouldin. "A cluster separation measure." IEEE transactions ...
K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点
分类知识分类是根据样本某些属性或某类特征(可以融合多类特征),把样本类型归为已确定的某一类别中.机器学习中常见的分类算法有:SVM(支持向量机).KNN(最邻近法).Decision Tree( ...
聚类效果评价——Silhouette Coefficient（轮廓系数）——内部评估标准（1）
公式与简介 Rousseeuw, Peter J. "Silhouettes: a graphical aid to the interpretation and validation of ...
聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
轮廓系数前言是什么? 为什么? 由此可得: 怎么用? 不适用示例前言在机器学习中,无监督学习算法中聚类算法算作相对重要的一部分算法.也常在低资源和无标注的情况下使用. 其中KMeans作为聚 ...
聚类效果评估、内部指标（Jaccard系数、FM指数、Rand指数）、外部指标（DB指数、Dunn指数）、轮廓系数（Silhouette Coefficient）
聚类效果评估.内部指标(Jaccard系数.FM指数.Rand指数).外部指标(DB指数.Dunn指数).轮廓系数(Silhouette Coefficient) 目录
聚类效果评估指标总结
前言实际工作中经常会用到一些聚类算法对一些数据进行聚类处理,如何评估每次聚类效果的好坏?可选的方法有1.根据一些聚类效果的指标来评估:2.直接打点.今天就主要总结下这段时间了解的聚类效果评估指标.废 ...
rpn风险等级评价准则_2019一建经济学习重点：技术方案经济效果评价
2019年一级建造师备考正在进行中,你是在看教材还是在刷题呢?今天优路教育小编是来送干货的,教材太厚,知识点太乱,那就来看这里的考点总结吧.接下来小编带大家一起学习<工程经济>第一章工程经 ...
重组标签云-标签聚类及其评价研究
重组标签云-标签聚类及其评价研究 AlbertoPérez García-Plaza a*, Arkaitz Zubiaga b, Víctor Fresnoa,Raquel Martínez a a ...
skfuzzy.cmeans与sklearn.KMeans聚类效果对比以及使用方法
因为实验中要用到聚类效果的对比,没有时间自己来实现算法,所以Kmeans就用到了sklearn中的Kmeans类,FCM用到了skfuzzy.cmeans. 几个概念 1.Kmeans Kmeans是 ...

聚类效果评价——Calinski-Harabasz（CH指标）——内部评估标准（2）

公式与简介

代码实现

参考文章

聚类效果评价——Calinski-Harabasz（CH指标）——内部评估标准（2）相关推荐

最新文章

热门文章