模式识别学习笔记(12)——聚类
聚类
--聚类结果因不同任务而不同。
挑战性问题
•可伸缩性是指聚类算法无论对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
•既可处理属性较少的数据,也可处理属性较多的数据。
•在高维空间聚类更具挑战性,随着维数的增加,具有相同距离的两个样本其相似程度可以相差很远。对于高维稀疏数据,这一点更突出。
–对噪声鲁棒
•在实际中,绝大多数样本集都包含噪声、空缺、部分未知属性、孤立点、甚至错误数据。
•在实际应用中,通常需要在某种约束条件下进行聚类,既满足约束条件,以希望有高聚类精度,是一个挑战性问题。
–对初始输入参数鲁棒
•具有自适应的簇数判定能力(一直没有解决好)。
•对初始聚类中心鲁棒。
–能够解决用户的问题
•聚类结果能被用户所理解,并能带来经济效益,特别是在数据挖掘领域。
一、距离与相似度度量
二、混合密度函数
三、K-均值聚类(K-means clustering)
– 各类出现的先验概率均相等;
– 每个均本点以概率为1属于一个类(后验概率0-1近似);
--隶属度函数是表示一个对象 x 属于集合 A 的程度,其自变量的取值范围为所有可能属于集合 A 的对象。
参考资料:
中国科学院大学硕士课《模式识别》ppt
模式识别学习笔记(12)——聚类相关推荐
- 模式识别学习笔记(1)——基本概念
模式识别学习笔记--绪论 一.从数据集D中产生训练集S和测试集T,主要有以下方法: --hold-out(留出法) --cross-validation(交叉验证法) --bootstrapping( ...
- 模式识别学习笔记(一)模式识别初认识
这是本人第一次写博客,把学到的东西以及自己的理解用类似于学习笔记的形式表达出来.如果有不妥的地方,希望大家指正.谢谢! 一.模式识别的定义 关于模式识别(pattern recognition)的定义 ...
- 模式识别学习笔记-lecture2-统计判别1
作为统计判别问题的模式分类 模式识别的目的就是要确定某一个给定的模式样本属于哪一类 输入:被识别对象的特征向量 输出:被识别样本的类别 贝叶斯判别原则 两类模式集的分类 目的:要确定xxx是属于ω1\ ...
- 模式识别学习笔记之——统计决策方法
统计决策方法 1.一个简单的例子引出一些基本概念 假如我手里拿着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作是一个分类决策的问题:你需要从各种可能的硬币中做出一个决策.如果我告诉你这是一枚一角或五 ...
- 模式识别学习笔记(3)——高斯概率密度
概率密度估计方法 参数法:只需将均值和协方差矩阵保存下来,就可知道其分布. 半参数法:GM通过解析求解:期望最大化是极大似然估计的特例,多次迭代才能求得 高斯密度函数 牢记密度函数公式!!! 把协方差 ...
- 模式识别学习笔记(1)概率论基础知识
大学的时候,我的<概率论和数理统计>这门课一共挂过3次,而且我记得最后一次考过的时候刚刚及格,只有60分.你可以想象我的<概率论>这门课学的是有多差了.后来,我工作以后,在学习 ...
- XY的模式识别学习笔记-最小平方误差准则分类 MSE
最小平方误差准则分类 MSE 最小平方误差准则分类 定义 简单例题及Matlab代码实现 大三数学狗,记录一下学习过程. 最小平方误差准则分类 定义 对线性不可分的样本集,不等式组 a T y i & ...
- 模式识别学习笔记——第2章—2.4 两类错误率、Neyman-Pearson决策与ROC曲线
上一节学习了决策表,这一节我们在只有两类情况的决策表中继续深入研究.假设现在我们有两类状态分别是阳性和阴性.可以绘制出如下的决策表: 截至<模式识别(第三版)>阳性阴性状态与决策的可能性关 ...
- 模式识别学习笔记(10)——距离度量
距离度量 度量会影响分类性能 metric learning(度量学习) -Parameters in metric optimized in learning (e.g., empirical ri ...
最新文章
- 用OpenCV4实现图像的超分别率
- php openssl做什么,php php_openssl.dll文件有什么用?
- Swift 5 发布,ABI 终于稳定了
- Altium.Designer的学习视频 分享~~
- Buildroot stress-ng Linux系统压力测试
- Redis笔记之基本数据结构 字典
- Linux操作系统下IPTables配置方法详解(转载)
- oracle有回表没有,ORACLE回表
- python如何输出结果为16_Appium+python自动化(十六)- ADB命令,知否知否,应是必知必会(超详解)...
- TM2008预览版试用 速度快完美兼容Vista
- 测试计算机性能的软件比较专业,用什么软件测验电脑CPU性能最好
- TVM代码库结构概述
- 小米8样张彩色噪点问题分析
- LED灯光照明控制协议(系统)- DALI
- mysql查询结果某个字段设置为固定值_MySQL使用select查询时,在查询结果中增加一个字段并指定固定值...
- 图形工作站安装win7+ubuntu双系统
- 2019TFE计算机科学排名,2019TFE美国会计专业研究生排名前50
- 关于渲染帧率(FPS)的问题
- 店铺logo设计免费在线生成
- doc转swf,主流文档在线查看解决方案--类似百度文档功能