• 聚类概述

    • 定义
    • 距离的定义
    • 算法的分类
  • 启发式算法
    • 概述
    • KEY POINTS
      • 如何代表cluster
      • 如何决定距离远近
      • 没有欧氏距离怎么办
      • 终止条件
    • 总结
  • K-MEANS算法
    • 特点
    • 过程
    • KEY-POINTS
      • 选择k
      • 选择初始点
    • 复杂度
  • BFR算法
    • 大数据集的难题
    • 概述
    • 假设
    • 算法
      • 概述
      • 三类点
      • DS点的更新与数据特征
      • 整个流程
    • 细节
      • 怎么判断点离群中心是不是够近以加入DS
      • 怎么判断2个CS是不是应该合成一个
  • CURE算法
    • 其他算法的限制
    • 步骤1
    • 步骤2
  • 总结

聚类概述

定义

距离的定义

计算聚类过程中点和cluster的距离,有以下几种方式:

算法的分类

启发式算法

概述

启发式算法有两种方法,从下而上或者从上而下。
以从下而上为例,一开始每一个obes就是一个cluster,然后根据距离,不断地结合两个更近的cluster到一个cluster,达到一定的收敛条件后停止。

KEY POINTS

如何代表cluster

如何决定距离远近

没有欧氏距离怎么办

终止条件

总结

K-MEANS算法

特点

  1. 假设欧氏距离,也就是欧式空间是存在的
  2. 一开始必须确定k
  3. 初始集群先随机选择centroid点,个数等于k(朴素的方法是随机选择,但是容易产生距离太近属于一个cluster的点,影响分类结果)。

过程

首先先选择k个初始点当做群的中心,然后数据集中的所有点根据与群中心的远近划分属于哪个群。然后在根据群的性质取群的中心点,然后再次划分所有点属于的群,不断往复,直到群的中心不发生变化,达到稳定的状态停止。

KEY-POINTS

选择k

策略是:多选择几个k,看看average distance to centroid如何变化。
理论上,随着k的增加,这个值应该越变越小,但是减少的幅度也越来越小,我们需要的就是那个拐点。

选择初始点

初始点的选择很有学问,不能够太近都属于一个cluster,这样的话其他的cluster就发现不了。
所以,应该让点越分散越好。

复杂度

BFR算法

大数据集的难题

前面讨论的启发式算法的复杂度是O(n3)O(n^3),使用priority queue的话能减低到O(n2logn)O(n^2logn)。
KMEANS的复杂度是KNKN,但是收敛很慢,也不适用于大数据集。

因此,我们需要一种算法,能够处理数据量很大的分类问题。

概述

BFR(Bradley-Fayyad-Reina)算法,是KMEANS的变种,适用于大数据的分类(数据量只能在disk中存储,不可能全部放在memory里)。

这个算法的基础是一个很重要的假设:

assumes each cluster is normally distributed around a centroid in Euclidean space.

假设

假设的存在,使得每个cluster长得都像下图这样:

  1. axis-aligned
  2. normal distribution among each cluster in each dimension

算法

概述

三类点

DS点的更新与数据特征

整个流程

细节

怎么判断点离群中心是不是够近以加入DS

怎么判断2个CS是不是应该合成一个

CURE算法

其他算法的限制

步骤1

核心思想就是先用一些样本训练出大概的样子,并且用4个数据很好地用样本代替了总体。


步骤2

总结

MMD_5a_Clustering相关推荐

最新文章

  1. php 的包管理,php composer包管理器
  2. java怎么获取固定的日期,如何获取一个指定时间的java.util.Date对象
  3. BZOJ-1007-水平可见直线-HN2008
  4. python matplotlib:figure,add_subplot,subplot,subplots讲解实现
  5. Bootstrap Table列宽拖动的方法
  6. 迅为IMX6Q PLUS开发板烧写Android6.0系统方法
  7. [转]Linux 技巧:让进程在后台可靠运行的几种方法
  8. 趣闻|论文不必参考任何文献?看到作者,网友大呼失敬了
  9. html日期默认,html日期控件默认设置为当天日期
  10. wps中的相交_如何在wps中添加交叉引用 - 卡饭网
  11. Android音量控制器,音量控制器
  12. 开源美颜滤镜SDK代码解析
  13. Android涂鸦画板原理详解——从初级到高级(一)
  14. 紫乌鸦服务器维护后多久刷,魔兽世界6.1紫乌鸦刷新点大全 刷新时间
  15. win10 任务栏打开直接显示【此电脑】的设置方法
  16. C#行转列绑定DGV
  17. 使用wrap和unwrap加密解密Oracle的PL/SQL对象(包,存储过程,函数等)代码
  18. 分享最新版的 INTELWIFI 驱动包
  19. RK3188上运行Ubuntu系统
  20. 【python初级】检测图片文件类型或字节流获得的图片类型

热门文章

  1. 苹果连接电脑只能充电_苹果 iPhone 12 曝充电 Bug:多口充电器无一幸免 只能用单独充电头 - 手机 - IT商业网...
  2. 元旦特惠!无人机/ROS2/三维重建点云/SLAM/多传感器/相机标定/深度估计等重磅干货教程...
  3. 一文详解AI模型部署及工业落地方式
  4. 单图像三维重建、2D到3D风格迁移和3D DeepDream
  5. 48本3D视觉领域学习书籍,请自取
  6. org.apache.tomcat.util.bcel.classfile.ClassFormatException: Invalid byte tag in constant pool: 19
  7. Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法
  8. Bio+IT 生信科技爱好者知识库
  9. SEL重磅:重新认识菌根:菌根真的如普遍认为的那样重要吗?
  10. 本年扩增子、宏基因组课程报名已满,想要学最早等明年