12 聚类-无监督学习算法之一

聚类试图将数据集中的无标记样本划分为若干个通常不相交的子集,每个子集称为一个簇(cluster),每个簇可能对应于一些潜在的概念

  • 聚类算法的两个基本问题:性能度量和距离计算

12.1 性能度量

原则:同一簇样本尽可能相似,不同簇样本尽可能不同,即簇内相似度高 簇间相似度低

  • 将聚类结果与某个参考模型进行比较,称为外部指标
  • 直接考察聚类结果不利用任何参考模型,称为内部指标

12.1.1 外部指标

  • Jaccard系数
  • FM指数
  • Rand指数

12.1.2 内部指标

  • DB指数
  • Dunn指 数

12.2 距离计算

闵可夫斯基距离
(12.1) d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist_{mk}(x_i,x_j)=(\sum^{n}_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}\tag{12.1} distmk​(xi​,xj​)=(u=1∑n​∣xiu​−xju​∣p)p1​(12.1)
p=2:为欧氏距离

p=3:为曼哈顿距离

p趋于无限时,为切比雪夫距离

12.3 原型聚类

12.3.1 K-means算法

算法原理

输入:想要的簇的个数K

​ 无标记的样本({x1,x2…xm}

迭代:预先设置K个点作为K个簇中心

​ 计算m个样本分别与K个中心点的距离,其中最近的距离设定同类 c i = min k ∣ ∣ x ( i ) − μ k ∣ ∣ 2 c_i=\underset{k}{\text{min}}||x^{(i)}-\mu_k||^2 ci​=kmin​∣∣x(i)−μk​∣∣2

​ m个样本分类完成后,对各类求均值作为新的簇中心,依据新的中心重新对m个样本分类

​ 当计算的中心位置与上一次相同时停止迭代

  • 如果一个簇不含点,那么移除这个簇
目标函数

(12.2) J ( c ( 1 ) , . . . , c ( m ) , μ 1 , . . . , μ k ) = min c , μ 1 m ∑ i = 1 m ∣ ∣ x ( i ) − μ c ( i ) ∣ ∣ 2 J(c^{(1)},...,c^{(m)},\mu_1,...,\mu_k)=\underset{c,\mu}{\text{min}}\frac{1}{m}\sum^{m}_{i=1}||x^{(i)}-\mu_{c^{(i)}}||^2\tag{12.2} J(c(1),...,c(m),μ1​,...,μk​)=c,μmin​m1​i=1∑m​∣∣x(i)−μc(i)​∣∣2(12.2)

随机初始化
  • 设定簇的个数小于样本数
  • 设定K个样本点作为初始簇的中心点
  • 聚类数K小的时候随机初始化影响较大
防止落到局部最优

可多次随机初始化,运行K-means算法多次。取目标函数最小的一次作为最优分类

选取K的方法

由目的确定

肘部法则

13 降维-无监督学习之二

13.1 k近邻学习

常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于k个邻居进行预测,分类任务可用投票法,回归任务可用平均法

13.2 低维嵌入

高维属性导致数据样本稀疏,距离计算困难,需要通过某种数学变换将原始高维属性空间转变为一个低维子空间

13.3 主成分分析(PCA)-降维算法

13.3.1 直观原理

PCA可寻找一个超平面使样本的投影距离之和最小(蓝色线段)

13.3.2 线性回归与PCA的不同

PCA:最小化正交距离

13.3.3 算法步骤

  1. 数据预处理:均值标准化 ,即让每个样本减去均值

    ​ 特征缩放:若不同特征规模不同,在均值标准化后除以特征的标准偏差

  2. 计算降维的新坐标z

    U即为特征向量矩阵,代表了样本特征的主成分;S为对角矩阵

  3. 更新K值,确保降维后方差保留绝大部分原方差其中, x a p p r o x x_{approx} xapprox​是在高维空间中映射到低维平面上的近似点,$x_{approx}=U_{reduce} \cdot z $

    需要找到满足不等式最小的k

13.3.4 压缩重现

13.3.5 应用PCA实现计算加速

  • U r e d u c e U_{reduce} Ureduce​是PCA算法计算出的参数,只能被用于训练集实现 x → z x\rightarrow z x→z的降维,不用于交叉验证集
  • 完成初始样本的降维后,即确定了 U r e d u c e U_{reduce} Ureduce​后,将降维后的样本添加上原有的标签作为机器学习的输入。当预测时需要先将新样本送入PCA进行降维处理,再进行机器学习,可实现算法加速
  • PCA实现降维不是一个防止过拟合的好方法,应通过增大正则化参数 λ \lambda λ来防止过拟合
  • 首先考虑不使用PCA

吴恩达机器学习入门笔记12/13-聚类与降维相关推荐

  1. 吴恩达机器学习学习笔记第七章:逻辑回归

    分类Classification分为正类和负类 (规定谁是正谁是负无所谓) 吴恩达老师举例几个例子:判断邮箱是否是垃圾邮箱 一个在线交易是否是诈骗 一个肿瘤是良性的还是恶性 如果我们用之前学习的lin ...

  2. 吴恩达机器学习课程笔记一

    吴恩达机器学习课程笔记 前言 监督学习---`Supervised learning` 无监督学习---`Unsupervised learning` 聚类 异常检测 降维 增强学习---`Reinf ...

  3. 【CV】吴恩达机器学习课程笔记 | 第1-2章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 1 介绍 1-3 监督学习 1-4 无监督学习 2 单变量 ...

  4. 吴恩达机器学习课程笔记(英文授课) Lv.1 新手村(回归)

    目录 1-1机器学习的相关名词 1-2 什么是机器学习? 1.definition 定义 2.主要的机器学习算法的分类 1-3有监督学习及常用算法 1.定义 2.两种数据类型补充:categorica ...

  5. Github标星24300!吴恩达机器学习课程笔记.pdf

    个人认为:吴恩达老师的机器学习课程,是初学者入门机器学习的最好的课程!我们整理了笔记(336页),复现的Python代码等资源,文末提供下载. 课程简介 课程地址:https://www.course ...

  6. 【CV】吴恩达机器学习课程笔记第16章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 16 推荐系统 16-1 问题规划 16-2 基于内容的推 ...

  7. 【CV】吴恩达机器学习课程笔记第10章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 10 应用机器学习的建议 10-1 决定下一步做什么 10 ...

  8. 【CV】吴恩达机器学习课程笔记第18章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 18 应用案例:照片OCR 18-1 问题描述与流程(pi ...

  9. 【CV】吴恩达机器学习课程笔记第17章

    本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片 机器学习 | Coursera 吴恩达机器学习系列课程_bilibili 目录 17 大规模机器学习 17-1 学习大数据集 17-2 随 ...

最新文章

  1. hadoop mac和linux,How to Install Hadoop? (On Mac OS,Linux or Cygwin on Windows)
  2. SAP HUM已知一个内部HU号码,如何得到HU号码?
  3. SpringCloud的版本
  4. 通过TA binary查看TA的uuid和stack
  5. ThreadPoolExecutor运转机制详解(转)
  6. 比亚迪:2月新能源汽车销量14429辆 同比增长73%
  7. 需要vmwareinstalldisk上的文件vmnet_手机上一键就能进行PDF与其他文件的相互转换,果然厉害到不行...
  8. ie6使用绝对定位position:absolute,box不显示
  9. 斯坦福-随机图模型-week1.4_
  10. Android Button常用属性
  11. oracle数字类型是什么格式,oracle字段类型NUMBER(38,3),括号中两个数字分别表示什么?...
  12. poythoncode-实战4--读取文本文件,csv文件,存到系统中以大列表方式进行存储
  13. Intellij IDEA问题解决合集
  14. 2021密码应用技术白皮书
  15. 12.分布式定时任务(xxl-job)
  16. Win10 ipv6无网络访问权限怎么解决
  17. 作业2.EVE ensp 模拟器CONSOLE接口密码设置
  18. android+cortana+语音唤醒,为什么语音唤醒Cortana咒语是“你好,小娜”?
  19. SpringMVC 学谈 (第一章)
  20. Python程序员的浪漫-实现每天定时给Ta推送微信公众号消息提醒超详细教程

热门文章

  1. Real-Time-Voice-Cloning(github声音克隆项目演示)
  2. java商品详情页设计_java高并发秒杀系统3-2节商品详情页上.mp4
  3. 2016·中国计算机辅助设计与计算机图形学大会
  4. 【scala】获取当前时间的上一个自然周以及自然周集合;获取当前时间的上一个自然月以及自然月的第一天与最后一天
  5. 微信小程序weui-form表单的使用
  6. 《城市化》(顾朝林)-1
  7. QT基础之位置相关的函数介绍
  8. 安拆网分享:贝雷片贝雷架桁架的结构力学学问
  9. 详解Flink中yarn部署模式以及测试
  10. window10卸载软件 搜 控制面板