文章目录

  • 一. 聚类
    • 1.1 估计聚类的趋势
    • 1.2 霍普金斯统计量
    • 1.3 簇数制定
    • 1.4 统计量的计算方法
    • 1.5 评估聚类质量
    • 1.6 基于概念模型聚类
      • 1.6.1 一般情况下的EM算法
      • 1.6.2 概念簇的例子
      • 1.6.3 最大似然估计
  • 二. 离群值检测
    • 2.1 检测离群值的方法
      • 2.1.1 统计学方法:
    • 2.2 可能存在多个簇的复杂情形
      • 2.1.2 直方图方法
      • 2.1.3 基于邻域判断离群点
  • 参考:

一. 聚类

1.1 估计聚类的趋势

均匀分布的其实聚类没多大意义
随机分布的聚类会特别多的类,意义也不大
真正有意义的是聚群分布的,找出共同的类

1.2 霍普金斯统计量

1.3 簇数制定

肘方法

1.4 统计量的计算方法



1.5 评估聚类质量

Bcubed

轮廓系数

R语言聚类评估

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLlLKsce-1656639913759)(https://upload-images.jianshu.io/upload_images/2638478-db82e380b611c4dc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

1.6 基于概念模型聚类

1.6.1 一般情况下的EM算法

1.6.2 概念簇的例子

1.6.3 最大似然估计

二. 离群值检测

2.1 检测离群值的方法

  1. 基于统计学的方法
  2. 基于邻近的方法
  3. 基于聚类的方法

2.1.1 统计学方法:

一元离群值的Grubb检验:

多元离群值检验:

2.2 可能存在多个簇的复杂情形

离群值可能组成簇

2.1.2 直方图方法

2.1.3 基于邻域判断离群点

参考:

  1. http://www.dataguru.cn/article-4063-1.html

机器学习11-聚类,孤立点判别相关推荐

  1. 吴恩达机器学习 11.聚类

    一.聚类(Clustering) 1.无监督学习 非监督学习算法.即要让计算机学习无标签数据,而不是此前的标签数据. 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这 ...

  2. 【机器学习】聚类【Ⅰ】基础知识与距离度量

    主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...

  3. 人工智能:第四章 机器学习之聚类

    1目标 本次主要介绍机器学习之聚类,主要解决分类的问题. 通过KMean算法.KNN算法.MeanShift算法这三个算法的实战,通过对比,来了解和掌握各个算法的特点. 机器学习之聚类介绍 无监督学习 ...

  4. 【机器学习】聚类【Ⅴ】密度聚类与层次聚类

    主要来自周志华<机器学习>一书,数学推导主要来自简书博主"形式运算"的原创博客,包含自己的理解. 有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 由于字数限 ...

  5. 视频教程-机器学习之聚类、主成分分析理论与代码实践-机器学习

    机器学习之聚类.主成分分析理论与代码实践 干过开发,做到资深Java软件开发工程师,后做过培训,总共培训近千人.目前在高校工作,博士学位.主要研究领域为机器学习与深度学习. 纪佳琪 ¥68.00 立即 ...

  6. 机器学习之聚类算法——聚类效果评估可视化

    我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...

  7. 【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现

    [机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现 一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理 基于数据分布密度不同对数据进行聚类,把 ...

  8. 机器学习之聚类常用方法

    机器学习之聚类 基于划分的聚类 K均值算法 k均值++算法 注意 k-medoids算法 k-prototype算法 基于层次的聚类 BIRCH算法 CURE算法 基于密度聚类 DBSCAN算法[参考 ...

  9. 机器学习(聚类四)——K-Means的优化算法

    K-Means算法是最基本的一种聚类算法,也会有一些问题,前面的博客<机器学习(聚类二)--K-Means>中有介绍,这里就不详细说了.下面介绍一下典型的优化算法: 优化算法 1)K-Me ...

最新文章

  1. linux系统下如何查看cpu能同时跑几个线程_探讨基于Linux的NUMA系统
  2. LNOI2014 LCA
  3. Qt Designer的Tab顺序编辑模式
  4. foundation框架之反射机制
  5. Unity 游戏框架搭建 (九) 减少加班利器-QConsole
  6. vue实现下拉列表远程搜索示例(根据关键词模糊搜索)
  7. Java 并发编程必须知道的七种锁类型以及应用
  8. 学c语言方法,学习C语言方法“新手必看”
  9. 电子计算机应由,计算机
  10. 我的Maven POM配置
  11. 电脑课装b专用代码_JavaScript无形装X,最为致命
  12. Java---SSH(MVC)面试
  13. LayaAir graphics 矢量绘图之 圆形与扇形
  14. 8.25 ccpc 比赛总结
  15. 【机器学习】左逆、右逆、伪逆和广义逆的概念理解
  16. Cookie和Session的作用,区别和各自的应用范围,cookie、Session工作原理
  17. flyme6 patchrom插桩从入门到放弃
  18. DNS Client Events 1014
  19. 服务器断电后找不到磁盘,服务器断电数据丢失恢复原理和恢复过程
  20. 设计软件大合集,看看有你用过的吗

热门文章

  1. android studio listview点击事件,android如何响应listview上不同按钮点击事件
  2. 项目案例之GitLab的数据迁移
  3. ORB-SLAM2可以说是目前最优秀的基于特征点的视觉SLAM
  4. 问题解决:[/usr/lib/systemd/system/etcd.service:6] Missing ‘=‘.
  5. 好书整理系列之-设计模式:可复用面向对象软件的基础 4
  6. 外汇交易与实务--外汇交易基本原理
  7. windows 10 搭建Omnipeek环境
  8. linux端防火墙指定端口的开和关
  9. XP系统经典故障FAQ
  10. RouterOS 常用命令、用法及官方资料