聚类

对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类。
--聚类的质量(或结果)取决于对度量标准的选择。
--聚类结果因不同任务而不同。

挑战性问题

–可伸缩性
•可伸缩性是指聚类算法无论对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
–能够处理高维数据
•既可处理属性较少的数据,也可处理属性较多的数据。
•在高维空间聚类更具挑战性,随着维数的增加,具有相同距离的两个样本其相似程度可以相差很远。对于高维稀疏数据,这一点更突出。
–对噪声鲁棒
•在实际中,绝大多数样本集都包含噪声、空缺、部分未知属性、孤立点、甚至错误数据。
–具有约束的聚类
•在实际应用中,通常需要在某种约束条件下进行聚类,既满足约束条件,以希望有高聚类精度,是一个挑战性问题。
–对初始输入参数鲁棒
•具有自适应的簇数判定能力(一直没有解决好)。
•对初始聚类中心鲁棒。
–能够解决用户的问题
•聚类结果能被用户所理解,并能带来经济效益,特别是在数据挖掘领域。
一、距离与相似度度量
距离
相似性
相似性度量
二、混合密度函数
三、K-均值聚类(K-means clustering)
根据迭代准则可分为两种:
1、样本点到类中心的欧氏距离
引入如下假设:
– 各类出现的先验概率均相等;
– 每个均本点以概率为1属于一个类(后验概率0-1近似);
初始值对结果有影响,选的不好会导致聚类
2、“最小误差平方和”准则
k-均值是在协方差矩阵为单位矩阵条件下的结果,只有均值越准确,对下一步的划分才越准确。

模糊k-均值聚类
模糊集
--在传统集合理论中,一个元素或者属于一个集合,或者不属于一个集合。对于模糊集而言,一个元素是以一定的程度属于某个集合,也可以以不同的程度属于几个集合。这一描述引伸出一个重要的概念--模糊集中元素的“隶属度”。

--隶属度函数是表示一个对象 x 属于集合 A 的程度,其自变量的取值范围为所有可能属于集合 A 的对象。

参考资料:

中国科学院大学硕士课《模式识别》ppt

模式识别学习笔记(12)——聚类相关推荐

  1. 模式识别学习笔记(1)——基本概念

    模式识别学习笔记--绪论 一.从数据集D中产生训练集S和测试集T,主要有以下方法: --hold-out(留出法) --cross-validation(交叉验证法) --bootstrapping( ...

  2. 模式识别学习笔记(一)模式识别初认识

    这是本人第一次写博客,把学到的东西以及自己的理解用类似于学习笔记的形式表达出来.如果有不妥的地方,希望大家指正.谢谢! 一.模式识别的定义 关于模式识别(pattern recognition)的定义 ...

  3. 模式识别学习笔记-lecture2-统计判别1

    作为统计判别问题的模式分类 模式识别的目的就是要确定某一个给定的模式样本属于哪一类 输入:被识别对象的特征向量 输出:被识别样本的类别 贝叶斯判别原则 两类模式集的分类 目的:要确定xxx是属于ω1\ ...

  4. 模式识别学习笔记之——统计决策方法

    统计决策方法 1.一个简单的例子引出一些基本概念 假如我手里拿着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作是一个分类决策的问题:你需要从各种可能的硬币中做出一个决策.如果我告诉你这是一枚一角或五 ...

  5. 模式识别学习笔记(3)——高斯概率密度

    概率密度估计方法 参数法:只需将均值和协方差矩阵保存下来,就可知道其分布. 半参数法:GM通过解析求解:期望最大化是极大似然估计的特例,多次迭代才能求得 高斯密度函数 牢记密度函数公式!!! 把协方差 ...

  6. 模式识别学习笔记(1)概率论基础知识

    大学的时候,我的<概率论和数理统计>这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分.你可以想象我的<概率论>这门课学的是有多差了.后来,我工作以后,在学习 ...

  7. XY的模式识别学习笔记-最小平方误差准则分类 MSE

    最小平方误差准则分类 MSE 最小平方误差准则分类 定义 简单例题及Matlab代码实现 大三数学狗,记录一下学习过程. 最小平方误差准则分类 定义 对线性不可分的样本集,不等式组 a T y i & ...

  8. 模式识别学习笔记——第2章—2.4 两类错误率、Neyman-Pearson决策与ROC曲线

    上一节学习了决策表,这一节我们在只有两类情况的决策表中继续深入研究.假设现在我们有两类状态分别是阳性和阴性.可以绘制出如下的决策表: 截至<模式识别(第三版)>阳性阴性状态与决策的可能性关 ...

  9. 模式识别学习笔记(10)——距离度量

    距离度量 度量会影响分类性能 metric learning(度量学习) -Parameters in metric optimized in learning (e.g., empirical ri ...

最新文章

  1. 用OpenCV4实现图像的超分别率
  2. php openssl做什么,php php_openssl.dll文件有什么用?
  3. Swift 5 发布,ABI 终于稳定了
  4. Altium.Designer的学习视频 分享~~
  5. Buildroot stress-ng Linux系统压力测试
  6. Redis笔记之基本数据结构 字典
  7. Linux操作系统下IPTables配置方法详解(转载)
  8. oracle有回表没有,ORACLE回表
  9. python如何输出结果为16_Appium+python自动化(十六)- ADB命令,知否知否,应是必知必会(超详解)...
  10. TM2008预览版试用 速度快完美兼容Vista
  11. 测试计算机性能的软件比较专业,用什么软件测验电脑CPU性能最好
  12. TVM代码库结构概述
  13. 小米8样张彩色噪点问题分析
  14. LED灯光照明控制协议(系统)- DALI
  15. mysql查询结果某个字段设置为固定值_MySQL使用select查询时,在查询结果中增加一个字段并指定固定值...
  16. 图形工作站安装win7+ubuntu双系统
  17. 2019TFE计算机科学排名,2019TFE美国会计专业研究生排名前50
  18. 关于渲染帧率(FPS)的问题
  19. 店铺logo设计免费在线生成
  20. doc转swf,主流文档在线查看解决方案--类似百度文档功能

热门文章

  1. nba2k19数据查询方式
  2. 【原创】基于vue。简单、优雅的评论插件(包含颜文字表情、滑动验证)。
  3. 卸载中国联通网络测速插件的方法
  4. 如何申请著作权,流程和费用有哪些
  5. 电子信息科学与技木属于计算机类吗,电子信息科学与技术专业属于什么类别
  6. MPEG4 IP Camera方案
  7. 全程高能~Python教程薅羊毛!
  8. java i/o操作
  9. JavaScript通用库
  10. google相册数据导出