文章目录

一. 聚类
- 1.1 估计聚类的趋势
- 1.2 霍普金斯统计量
- 1.3 簇数制定
- 1.4 统计量的计算方法
- 1.5 评估聚类质量
- 1.6 基于概念模型聚类
- - 1.6.1 一般情况下的EM算法
  - 1.6.2 概念簇的例子
  - 1.6.3 最大似然估计
二. 离群值检测
- 2.1 检测离群值的方法
- - 2.1.1 统计学方法:
- 2.2 可能存在多个簇的复杂情形
- - 2.1.2 直方图方法
  - 2.1.3 基于邻域判断离群点
参考:

一. 聚类

1.1 估计聚类的趋势

均匀分布的其实聚类没多大意义
随机分布的聚类会特别多的类，意义也不大
真正有意义的是聚群分布的，找出共同的类

1.2 霍普金斯统计量

1.3 簇数制定

肘方法

1.4 统计量的计算方法

1.5 评估聚类质量

Bcubed

轮廓系数

R语言聚类评估

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLlLKsce-1656639913759)(https://upload-images.jianshu.io/upload_images/2638478-db82e380b611c4dc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

1.6 基于概念模型聚类

1.6.1 一般情况下的EM算法

1.6.2 概念簇的例子

1.6.3 最大似然估计

二. 离群值检测

2.1 检测离群值的方法

基于统计学的方法
基于邻近的方法
基于聚类的方法

2.1.1 统计学方法:

一元离群值的Grubb检验:

多元离群值检验:

2.2 可能存在多个簇的复杂情形

离群值可能组成簇

2.1.2 直方图方法

2.1.3 基于邻域判断离群点

参考:

http://www.dataguru.cn/article-4063-1.html

机器学习11-聚类，孤立点判别相关推荐

吴恩达机器学习 11.聚类
一.聚类(Clustering) 1.无监督学习非监督学习算法.即要让计算机学习无标签数据,而不是此前的标签数据. 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这 ...
【机器学习】聚类【Ⅰ】基础知识与距离度量
主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...
人工智能：第四章机器学习之聚类
1目标本次主要介绍机器学习之聚类,主要解决分类的问题. 通过KMean算法.KNN算法.MeanShift算法这三个算法的实战,通过对比,来了解和掌握各个算法的特点. 机器学习之聚类介绍无监督学习 ...
【机器学习】聚类【Ⅴ】密度聚类与层次聚类
主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...
视频教程-机器学习之聚类、主成分分析理论与代码实践-机器学习
机器学习之聚类.主成分分析理论与代码实践干过开发,做到资深Java软件开发工程师,后做过培训,总共培训近千人.目前在高校工作,博士学位.主要研究领域为机器学习与深度学习. 纪佳琪 ¥68.00 立即 ...
机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...
【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现
[机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理基于数据分布密度不同对数据进行聚类,把 ...
机器学习之聚类常用方法
机器学习之聚类基于划分的聚类 K均值算法 k均值++算法注意 k-medoids算法 k-prototype算法基于层次的聚类 BIRCH算法 CURE算法基于密度聚类 DBSCAN算法[参考 ...
机器学习（聚类四）——K-Means的优化算法
K-Means算法是最基本的一种聚类算法,也会有一些问题,前面的博客<机器学习(聚类二)--K-Means>中有介绍,这里就不详细说了.下面介绍一下典型的优化算法: 优化算法 1)K-Me ...

机器学习11-聚类，孤立点判别