聚类对数据的要求
1.数据不能均匀分布
2.霍普金斯统计量,空间统计量,检验空间随机性,在给定的数据集D,它可以看作随机变量o的一个样本,我们想要确定o在多大的程度上,不同于数据空间中的均匀分布。

霍普金斯统计量的操作步骤
1.均匀的从D的空间中抽取n个点p1…pn,也就是说D中的每个样本点都以相同的概率包含在这个样本中,对于每个样本pi(1<=i<=n),我们找出pi在D中的最邻近,并令xi为Pi与它在D中的最邻近之间的距离。

2.均匀的从D的空间中抽取n个点q1…qn,也就是说D中的每个样本点都以相同的概率包含在这个样本中,对于每个样本qi(1<=i<=n),我们找出qi在D-{qi }中的最邻近,并令yi为qi与它在D-{ qi}中的最邻近之间的距离。

3.计算霍普金斯统计量

霍普金斯统计量解读
霍普金斯统计量告诉我们数据集D多大可能遵循数据空间的均匀分布
如果D是均匀分布,则霍普金斯统计量的分母中的两部分会很接近,从而导致得到的H值接近于0.5,然而,如果D是高度倾斜的,则上式中的第一项的值会显著小于第二项,因而H将接近于0。

聚类的簇数制定
1.经验判断的方法,列如样本点的数目是n,则取k=sqrt(n/2)
2.肘方法
3.PSF或者PST2这类统计量 伪F统计量 伪T2统计量
4.信息论方法与信息准则
5.交叉验证

肘方法
基于如下的观察 增加簇数,有助于降低每个簇的簇内方差之和。这是因为更多簇的出现,可以捕获更细的数据对象簇,簇中对象之间更为相似,然鹅形成太多的簇,则降低簇内方差和的边缘效应可能下降,因为吧一个凝聚的簇分裂成两个只引起cuneiform方差和的稍微降低,因此一种正确的簇数的启发方式是,使用cuneiform方差和关于簇数的曲线的拐点。严格的说,给定k>0,我么们可以使用一种像K-均值这样的算法对数据集聚类,并计算簇内方差和Var(k)。然后,我们绘制Var关于k的曲线,曲线的第一个拐点,暗示着正确的簇数。

总体离差平方和
簇内离差平方和


内在方法,簇的分离情况和簇的紧凑情况


模糊聚类

EM算法
最大期望算法 是一种迭代算法,用于含有隐含变量的概率参数模型的最大似然估计或极大后验概率估计

通常包含两个交替步骤进行
E步骤 估计未知参数的期望值,给出当前参数估计
M步骤 重新估计分布参数,以使得数据的似然性最大,给出未知变量的的期望估计
M步上找到参数估计值被用于下一个E步计算中,这个过程不断交替进行,重复直到收敛。

基于概率模型的聚类
聚类分析的目的是发现隐藏的类别,作为聚类的分析主题的数据集可以看作隐藏的类别的可能实例的一个样本,但是没有

类别号。由聚类分析导出的簇使用数据集推断,并且旨在逼近隐藏的类别。

从统计学上讲,我们可以假定隐藏的类别是一个数据空间上的分布,可以使用概率密度函数精确的表示,我们称这种隐藏的类别我i概率簇,对于一个概率簇C,它的密度函数f和数据空间点o,f(o)是C的一个实例在o上出现的相对似然。

离群值的检测

又称为异常值检测,孤立点检测
检测离群值的方法
基于统计学的方法
按照标准差和分布原则,来检测数据的分布异常
箱线图识别离群值
一元离群值检验Grubb检验

马氏距离,主要可以消除数据之间不同的量纲之间的差异,进行排除异常的数据值。

基于邻近性的方法
基于聚类的方法

机器学习_一条会说666的咸鱼相关推荐

  1. 机器学习算法-09-深度学习、BP神经网络、Hopfield神经网络、基于数学原理的神经网络、径向基函数RBF(B站一条会说666的咸鱼)

    Deep Learning 深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是有一种深度学些的结构 ,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征的 ...

  2. 端到端机器学习_端到端机器学习项目:评论分类

    端到端机器学习 In this article, we will go through a classification problem that involves classifying a rev ...

  3. Python_机器学习_常用科学计算库_第6章_ Seaborn+综合案例

    Python_机器学习_常用科学计算库_第6章_ Seaborn+综合案例 文章目录 Python_机器学习_常用科学计算库_第6章_ Seaborn+综合案例 Seaborn 学习目标 6.1 Se ...

  4. 李宏毅_机器学习_作业1(详解)_COVID-19 Cases Prediction (Regression)

    李宏毅_机器学习_作业1:COVID-19 Cases Prediction (Regression) 本文旨在,读懂hw1代码.李宏毅老师作业的完成有一个默认前提,掌握python基础语法,pyto ...

  5. Python_机器学习_算法_第4章_4.决策树算法

    Python_机器学习_算法_第4章_4.决策树算法 文章目录 Python_机器学习_算法_第4章_4.决策树算法 决策树算法 学习目标 4.1 决策树算法简介 学习目标 小结 4.2 决策树分类原 ...

  6. 机器学习_用树回归方法画股票趋势线

     本篇的主题是分段线性拟合,也叫回归树,是一种集成算法,它同时使用了决策和线性回归的原理,其中有两点不太容易理解,一个是决策树中熵的概念,一个是线性拟合时求参数的公式为什么是由矩阵乘法实现的.如需详解 ...

  7. Python_机器学习_算法_第1章_K-近邻算法

    Python_机器学习_算法_第1章_K-近邻算法 文章目录 Python_机器学习_算法_第1章_K-近邻算法 K-近邻算法 学习目标 1.1 K-近邻算法简介 学习目标 1 什么是K-近邻算法 1 ...

  8. 差分隐私 机器学习_满足差分隐私的经验误差最小化方法

    手上的东西有点进行不下去,滚过来写专栏作下回顾.上次聊了聊差分隐私的定义,那么现在我们要在差分隐私的框架上实现机器学习任务. 关于差分隐私机器学习这个方向,Kamalika Chaudhuri 在ni ...

  9. python 读grid 数据_科学网—Python_机器学习_总结14:Grid search - 李军的博文

    机器学习中存在两类参数:通过训练数据学习得到的参数:---可认为是辨识得到的参数,例如模型系数: 在学习算法中单独需要优化的参数--超参.调优参数:---算法自身的系数,例如决策树的深度参数: Gri ...

最新文章

  1. margin 0 auto 什么意思
  2. 自定义UITableViewCell需注意的问题
  3. C#开发XML WebService接口(SOAP)
  4. Java知识整理——ServletJSP
  5. MANIFEST.MF和feature.xml版本控制规则
  6. mysql 自动递增值归零_修改MySQL自动递增值
  7. 一个宝妈如何完成逆袭做到月入5万+,单品利润破20万的
  8. GitHub 闯入印度!
  9. Linux触摸屏驱动分析(6410) -- s3c-ts
  10. 安立公司推出CPRI RF 测量选件
  11. php的console.log,console.log()的作用
  12. iphone远没有android好用,IPhone真的比Android流畅?不要被视觉欺骗了
  13. android 手机 apk安装失败对应码
  14. 常见服务器返回状态码
  15. java开心消消乐代码_Java小项目之:教你做个开心消消乐!
  16. 瓜子二手车2019秋招算法笔试卷1
  17. xxljob实战总结
  18. python全栈(一)网络通信与服务器之多任务-进程
  19. 斯坦福大学新课CS224W-图网络机器学习算法-视频及ppt资源分享
  20. Android Studio 3.0后,找不到Launch Standalone SDK Manager

热门文章

  1. 分布式计算、网格计算和云计算
  2. linux下的僵尸进程 - Zombie
  3. qt4--qt5引用头文件区别
  4. Linux printf()占位符
  5. NotificationManager和Notification区别
  6. 上海传音控股驱动开发笔试题
  7. 结合源码探讨Android距离传感器亮灭屏机制
  8. android之下载文件
  9. ffmpeg之图片转gif
  10. 深度学习自学(二十二):推理框架-MNN