MMD_5a_Clustering
- 聚类概述
- 定义
- 距离的定义
- 算法的分类
- 启发式算法
- 概述
- KEY POINTS
- 如何代表cluster
- 如何决定距离远近
- 没有欧氏距离怎么办
- 终止条件
- 总结
- K-MEANS算法
- 特点
- 过程
- KEY-POINTS
- 选择k
- 选择初始点
- 复杂度
- BFR算法
- 大数据集的难题
- 概述
- 假设
- 算法
- 概述
- 三类点
- DS点的更新与数据特征
- 整个流程
- 细节
- 怎么判断点离群中心是不是够近以加入DS
- 怎么判断2个CS是不是应该合成一个
- CURE算法
- 其他算法的限制
- 步骤1
- 步骤2
- 总结
聚类概述
定义
距离的定义
计算聚类过程中点和cluster的距离,有以下几种方式:
算法的分类
启发式算法
概述
启发式算法有两种方法,从下而上或者从上而下。
以从下而上为例,一开始每一个obes就是一个cluster,然后根据距离,不断地结合两个更近的cluster到一个cluster,达到一定的收敛条件后停止。
KEY POINTS
如何代表cluster
如何决定距离远近
没有欧氏距离怎么办
终止条件
总结
K-MEANS算法
特点
- 假设欧氏距离,也就是欧式空间是存在的
- 一开始必须确定k
- 初始集群先随机选择centroid点,个数等于k(朴素的方法是随机选择,但是容易产生距离太近属于一个cluster的点,影响分类结果)。
过程
首先先选择k个初始点当做群的中心,然后数据集中的所有点根据与群中心的远近划分属于哪个群。然后在根据群的性质取群的中心点,然后再次划分所有点属于的群,不断往复,直到群的中心不发生变化,达到稳定的状态停止。
KEY-POINTS
选择k
策略是:多选择几个k,看看average distance to centroid
如何变化。
理论上,随着k的增加,这个值应该越变越小,但是减少的幅度也越来越小,我们需要的就是那个拐点。
选择初始点
初始点的选择很有学问,不能够太近都属于一个cluster,这样的话其他的cluster就发现不了。
所以,应该让点越分散越好。
复杂度
BFR算法
大数据集的难题
前面讨论的启发式算法的复杂度是O(n3)O(n^3),使用priority queue
的话能减低到O(n2logn)O(n^2logn)。
KMEANS的复杂度是KNKN,但是收敛很慢,也不适用于大数据集。
因此,我们需要一种算法,能够处理数据量很大的分类问题。
概述
BFR(Bradley-Fayyad-Reina)算法,是KMEANS的变种,适用于大数据的分类(数据量只能在disk中存储,不可能全部放在memory里)。
这个算法的基础是一个很重要的假设:
assumes each cluster is normally distributed around a centroid in Euclidean space.
假设
假设的存在,使得每个cluster长得都像下图这样:
- axis-aligned
- normal distribution among each cluster in each dimension
算法
概述
三类点
DS点的更新与数据特征
整个流程
细节
怎么判断点离群中心是不是够近以加入DS
怎么判断2个CS是不是应该合成一个
CURE算法
其他算法的限制
步骤1
核心思想就是先用一些样本训练出大概的样子,并且用4个数据很好地用样本代替了总体。
步骤2
总结
MMD_5a_Clustering相关推荐
最新文章
- php 的包管理,php composer包管理器
- java怎么获取固定的日期,如何获取一个指定时间的java.util.Date对象
- BZOJ-1007-水平可见直线-HN2008
- python matplotlib:figure,add_subplot,subplot,subplots讲解实现
- Bootstrap Table列宽拖动的方法
- 迅为IMX6Q PLUS开发板烧写Android6.0系统方法
- [转]Linux 技巧:让进程在后台可靠运行的几种方法
- 趣闻|论文不必参考任何文献?看到作者,网友大呼失敬了
- html日期默认,html日期控件默认设置为当天日期
- wps中的相交_如何在wps中添加交叉引用 - 卡饭网
- Android音量控制器,音量控制器
- 开源美颜滤镜SDK代码解析
- Android涂鸦画板原理详解——从初级到高级(一)
- 紫乌鸦服务器维护后多久刷,魔兽世界6.1紫乌鸦刷新点大全 刷新时间
- win10 任务栏打开直接显示【此电脑】的设置方法
- C#行转列绑定DGV
- 使用wrap和unwrap加密解密Oracle的PL/SQL对象(包,存储过程,函数等)代码
- 分享最新版的 INTELWIFI 驱动包
- RK3188上运行Ubuntu系统
- 【python初级】检测图片文件类型或字节流获得的图片类型
热门文章
- 苹果连接电脑只能充电_苹果 iPhone 12 曝充电 Bug:多口充电器无一幸免 只能用单独充电头 - 手机 - IT商业网...
- 元旦特惠!无人机/ROS2/三维重建点云/SLAM/多传感器/相机标定/深度估计等重磅干货教程...
- 一文详解AI模型部署及工业落地方式
- 单图像三维重建、2D到3D风格迁移和3D DeepDream
- 48本3D视觉领域学习书籍,请自取
- org.apache.tomcat.util.bcel.classfile.ClassFormatException: Invalid byte tag in constant pool: 19
- Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法
- Bio+IT 生信科技爱好者知识库
- SEL重磅:重新认识菌根:菌根真的如普遍认为的那样重要吗?
- 本年扩增子、宏基因组课程报名已满,想要学最早等明年