1. 典型聚类算法

1.1 基于划分的方法

代表:kmeans算法

·指定k个聚类中心

·(计算数据点与初始聚类中心的距离)

·(对于数据点,找到最近的{i}ci(聚类中心),将分配到{i}ci中)

·(更新聚类中心点,是新类别数值的均值点)

·(计算每一类的偏差)

·返回

返回第二步

1.2 基于层次的方法

代表:CURE算法

·每个样本作为单独的一个类别

·

·合并,

·遍历完本次样本,合并成新的类别后,若存在多个类别,则返回第二步

·遍历完本次样本,合并成新的类别后,若所有样本为同一类别,跳出循环,输出每层类别

1.3 基于网格的方法

代表:STING算法

·将数据集合X划分多层网格结构,从某一层开始计算

·查询该层网格间的属性值,计算属性值与阈值的关系,判定网格间的相关情况,不相关的网格不作考虑

·如果网格相关,则进入下一层的相关区域继续第二步,直到下一层为最底层

·返回相关网格结果

1.4 基于密度的方法

代表:DBSCAN算法

·输入数据集合X,随机选取一点,并找出这个点的所有高密度可达点

·遍历此点的所有邻域内的点,并寻找这些密度可达点,判定某点邻域内的点,并寻找这些点密度可达点,判定某点的邻域内的点数是否超过阈值点数,超过则构成核心点

·扫描数据集,寻找没有被聚类的数据点,重复第二步

·输出划分的类,并输出异常值点(不和其他密度相连)

1.5 神经网络的方法

代表:SOM算法

·数据集合,权重向量为,归一化处理

·寻找获胜的神经元,找到最小距离,对于每一个输入数据,找到与之最相匹配的节点

的距离,更新权重:

·更新临近节点,,其中代表学习率

1.6 基于图的聚类方法

代表:谱聚类算法

·计算邻接矩阵,度矩阵

·计算拉普拉及矩阵

·计算归一化拉普拉斯矩阵

·计算的特征值和特征向量

·对Q矩阵进行聚类,得到聚类结果

2. 聚类算法的评价指标

一个好的聚类方法可以产生高品质簇,是的簇内相似度高,簇间相似度低。一般来说,评估聚类质量有两个标准,内部质量评价指标和外部评价指标。

2.1 内部质量评价标准

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度,簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标,所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH(Calinski-Harabasz)指标等

CH指标

CH指标定义为:

其中表示类间距离差矩阵的迹,表示类内离差矩阵的迹,是整个数据集的均值,是第个簇的均值,代表聚类个数,代表当前的类。值越大,聚类效果越好,主要计算簇间距离与簇内距离的比值

簇的凝聚度

簇内点对的平均距离反映了簇的凝聚度,一般使用组内误差平方(SSE)表示:

簇的邻近度

簇的邻近度用组间平方和(SSB)表示,即簇的质心到簇内所有数据点的总平均值的距离的平方和

2.2 外部质量评价标准

外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是:具有不同类标签的数据聚合到不同的簇中,具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵,纯度等指标进行度量。

熵:

簇内包含单个类对象的一种度量。对于每一个簇,首先计算数据的类分布,即对于簇,计算簇的成员属于类的概率

其中表示簇中所有对象的个数,而是簇中类的对象个数。使用类分布,用标准公式:

计算每个簇的熵,其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即:

其中是簇的个数,而是簇内数据点的总和

纯度:

簇内包含单个类对象的另外一种度量。簇的纯度为,而聚类总纯度为:

欢迎关注磐创博客资源汇总站:

http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:

http://pytorch.panchuang.net/

r型聚类典型指标_常用的聚类算法及聚类算法评价指标相关推荐

  1. r型聚类典型指标_应用统计学与R语言实现学习笔记(十)——聚类分析

    Chapter 10 Cluster Analysis 本篇是第十章,内容是聚类分析.由于之后的几章是典型的分析方法.而且在14章的案例里面可能不会体现,所以内容里会渗透较多的R语言操作.由于简书不支 ...

  2. r型聚类典型指标_六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步...

    论文:An empirical study on evaluation metrics of generative adversarial networks 论文链接:https://arxiv.or ...

  3. r型聚类典型指标_聚类与RFM模型 —— 从5月的一道腾讯数据分析面试题说起

    作者:稀饭 本文约2200字,建议阅读12分钟. 5月份的时候曾经投过腾讯的数据分析实习,中午投的简历,午觉睡醒就被call,没有HR通知,南山必胜客直接就来技术面.当时准备的还不够充分,半小时后就感 ...

  4. r型聚类典型指标_文献解读 | 缺陷和非缺陷型精神分裂症脑网络功能紊乱的共性和异性...

     # 导读  精神分裂症是一种高度异质性疾病,缺陷型精神分裂症(DS)与非缺陷型精神分裂症患者(NDS)存在症状上的差异.缺陷型精神分裂症的阴性症状具有原发性和持久性的特点.早期影像学研究报道了DS的 ...

  5. r型聚类分析怎么做_【SPSS数据分析】SPSS聚类分析(R型聚类)的软件操作与结果解读 ——【杏花开生物医药统计】...

    ​ 在上一讲中,我们讲述了针对样本进行聚类的分析方法-Q型聚类.今天我们将详细讲解针对变量数据进行的聚类分析--系统聚类之R型聚类. 我们要将数据变量进行聚类,但不知道要分成几类,或者没有明确的分类指 ...

  6. r型聚类分析怎么做_利用Excel实现R型聚类分析

    © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.    http://www.c ...

  7. 计算机组成原理r型指令logisim实现_大学本科计算机科学与技术专业知识体系

    写这篇文章是因为今年我又担任了新生班主任,信息学院计算机科学与技术专业19级1班,也是我校今年录取分数最高的一个专业.今年正好是我教书20年,20年前我第一次担任班主任的情景还历历在目,如今9905班 ...

  8. kmeans及模型评估指标_使用sklearn评估器构建聚类模型

    原标题:使用sklearn评估器构建聚类模型 作者:徐瑶佳 来源:人工智能学习圈 工作内容: 聚类算法是在没有给定划分类别的情况下,根据数据样本的相似度进行样本分组的一种算法.聚类算法过程是无监督的, ...

  9. 计算机组成原理r型指令logisim实现_第一章 计算机体系结构

    需要掌握的内容: 存储程序计算机 计算机系统的多级层级结构 计算机体系结构 计算机组成 计算机实现 计算机体系结构.组成与实现三者的关系 存储程序计算机 透明性 Amdahl定律 CPU 性能公式 程 ...

最新文章

  1. 优酷智能档在大型直播场景下的技术实践
  2. 【第一组】第十次冲刺例会纪要
  3. 【Qt开发】【VS开发】【Linux开发】OpenCV、Qt-MinGw、Qt-msvc、VS2010、VS2015、Ubuntu Linux、ARM Linux中几个特别容易混淆的内容...
  4. redis中的发布订阅
  5. matlab多项式相乘的法则_卷积计算与多项式乘法
  6. html设置文字超过字数_css限制文字显示字数长度,超出部分自动用省略号显示,防止溢出到第二行...
  7. 《我们应该怎样做需求分析》阅读笔记
  8. php post aspx,Login/LoginPost.aspx.vb 文件 LoginPost.aspx
  9. Golang Web入门(3):如何优雅的设计中间件
  10. 王道机试指南读后总结-3
  11. 惊爆:各大 App 可直接打开小程序!微信收割移动互联网的时间开始了
  12. vim学习 07——跳转缩进
  13. 微信小程序引入阿里巴巴icon步骤及报错解决
  14. 车架号校验 php代码,VIN车辆识别代码查询(精准版)
  15. git cherry-pick 教程
  16. win8 配置IIS和添加网站
  17. Layaverse掌舵人谢成鸿在上海静安国际设计节的主题分享
  18. 【语音之家】AI产业沙龙—火山语音在AI视频译制方向的技术探索与实践
  19. go 语言zip压缩包 读取
  20. 【信捷PLC XL5E-16T试用-程序上传下载】

热门文章

  1. PyTorch 51.BatchNorm和Dropout层的不协调现象
  2. 微软亚洲互联网工程院招聘NLP算法工程师、AI应用科学家
  3. 大规模神经网络的训练优化入门
  4. 就算是戴上口罩,AI也知道你在说什么
  5. 贝叶斯深度学习2020 最新研究总结
  6. 最新消息!阿里四舍五入无限期延迟复工,字节跳动、腾讯......等企业也再次延迟!...
  7. bottle嵌入html,css,js
  8. MATLAB_size()和find(),有什么区别?
  9. 如何用CMD递归查看Windows中文件夹结构 也叫做树形结构!
  10. PanoNet3D:一个基于激光雷达点云语义和几何理解的3D目标检测方法