李宏毅ML笔记14:降维/无监督-线性方法
由于要做迁移学习项目, 按照李宏毅给出的学习路线图, 计划分别看无监督学习(第九章), 异常检测(第十章), 迁移学习(第12章). (但可能要鸽了, 马上要开始项目, 接下来一段时间直接看迁移学习相关. 希望以后有机会回来填坑.)
目录
无监督学习介绍
无监督学习
聚类
K-means
层次聚类HAC
降维
降维有助于学习的原因
如何降维
PCA数学推导
降到1维
降到多维空间
求解PCA-拉格朗日乘子法
计算w1
计算w2
去相关性
PCA算法原理
重建组件
PCA所得W最小化 重建误差证明
自编码器
无监督学习介绍
无监督学习
无监督学习(Unsupervised Learning)可以分为两种:
1. 化繁为简:聚类(Clustering), 降维(Dimension Reduction)
2. 无中生有: Generation
无监督学习(Unsupervised Learning)通常只会拥有xy中的一侧(x或y).
1. 化繁为简: 复杂的input->简单的output,此时训练集只有输入x,而没有输出y. 比如把unlabel的树图片转变为一棵抽象的树.
2. 无中生有: 给function一个不同数字,生成不同的图像,此时训练集没有输入x,只有输出y.
聚类
Clustering聚类,把相近的样本划分为同一类,比如对无标签图片进行分类,打上cluster 1、2、3的标签,这个分类过程化繁为简.
目前分几个cluster的问题主要还依据经验选定.
K-means
聚类中最常用的方法K-means. 步骤:
1. 已有unlabeled data ,要划分为K个cluster.
$$ X = \left\{ {x^{1},\cdots,x^{n},\cdots,x^{N}} \right\} $$
其中每个样本用一个向量表示.
2. 每个簇选一个样本向量作为center ,K个簇需要K个center初始值.
3. 遍历所有的样本x,判断其所属簇,如果与第i个簇的center 最接近,则归于该簇.
b^n_i=1表示第n个样本属于第i个簇,b^n_i=0表示不属于:
$$ b_{i}^{n} \begin{cases}1 & x^{n} \text { is most "close" to } c^{i} \\ 0 & \text { Otherwise }\end{cases} $$
4. 更新center:把每个簇里所有样本均值作为新的center值,即
$$ c^{i} = {{\sum_{x^{n}}{b_{i}^{n}x^{n}}}/{\sum_{x^{n}}b_{i}^{n}}} $$
反复进行3,4操作.
注:如果不从原先的data set里取center的初始值,可能会导致部分cluster没有样本点
层次聚类HAC
Hierarchical Agglomerative Clustering
假设有5个样本点,聚类步骤:
1. 建立树结构
对5个样本点两两计算相似度,挑出最相似的一对,设为样本点1和2.
将样本点1和2合并(可以对两个vector取平均),生成代表这两个样本点的新结点.
此时只剩下4个结点,两两计算相似度, 重复上述步骤进行样本点的合并,直到只剩根结点.
过程类似建立Huffman 树,区别是Huffman依据词频,HAC依据相似度建树.
2. 选取阈值
在构造好的树上横着切一刀,相连的叶结点属于同一个簇.
不同颜色的横线和叶结点上不同颜色的方框对应着切法与cluster的分法
HAC和K-means最大区别: 如何决定簇的数量.
在K-means直接决定K值;
HAC决定这一刀切在树的哪里, 不需要精确知道需要分几类.
降维
聚类clustering缺点: 以偏概全,强迫每个样本属于某个簇.
降维Dimension Reduction即分布式表示Distributed Representation, 可用两个角度理解.
1. 分布式表示Distributed Representation的角度: 样本具有多个簇的特征, 用向量表示样本比单一类别更好, 向量每一维都代表object的某种属性.
例子: 小杰的念能力分布,不仅仅归为强化系.
強化系 |
0.70 |
放出系 |
0.25 |
變化系 |
0.05 |
操作系 |
0.00 |
具現化系 |
0.00 |
特質系 |
0.00 |
2. 降维(Dimension Reduction): 原样本高维(image),用其特值来描述可转变为低维空间.
降维有助于学习的原因
设数据呈3D螺旋式分布,用3D空间描述很浪费,把卷摊平后用2D的空间即可.
MNIST(手写数字集),每一张图片有28*28维,但大多数其他的28*28维向量表示的图片,都不像数字,所以描述数字需要的维度可能远小于28*28.
例: 几张表示“3”的图片,可以用一个端正的"3"的特征, 加角度就可以多描述原先28*28 维的图像.
抓住角度的变化即可描述28维空间中的变化. 28维pixel=樊一翁的胡子; 1维的角度=他的头
如何降维
降维要找一个function,其输入原始的x,输出维度更小的z.
最简单的方法是特征选择Feature Selection,即拿掉一些直观上就对结果没有影响的维度, 如图只需要x2维度:
该方法有时无法使用,如下图中的螺旋卷任何一个dimension都不能被拿掉:
另一个常见的方法PCA(Principe Component Analysis): 其降维用线性函数,对输入x线性变换(linear transform)得输出z. 系数W由PCA找出.
$$
李宏毅ML笔记14:降维/无监督-线性方法相关推荐
- kaggle信用卡欺诈看异常检测算法——无监督的方法包括: 基于统计的技术,如BACON *离群检测 多变量异常值检测 基于聚类的技术;监督方法: 神经网络 SVM 逻辑回归...
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
- python笔记14介绍几个魔法方法
python笔记14介绍几个魔法方法 先声明一下 各位大佬,这是我的笔记. 如有错误,恳请指正. 另外,感谢您的观看,谢谢啦! (1).__doc__ 输出对应的函数,类的说明文档 print(pri ...
- 聚类算法 距离矩阵_快速且不需要超参的无监督聚类方法
论文: Efficient Parameter-free Clustering Using First Neighbor Relations Efficient Parameter-free Clust ...
- 【Python-ML】无监督线性降维PCA方法
# -*- coding: utf-8 -*- ''' Created on 2018年1月18日 @author: Jason.F @summary: 特征抽取-PCA方法,无监督.线性 ''' i ...
- [吴恩达机器学习笔记]14降维3-4PCA算法原理
14.降维 觉得有用的话,欢迎一起讨论相互学习~Follow Me 14.3主成分分析原理Proncipal Component Analysis Problem Formulation 主成分分析( ...
- NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法
©PaperWeekly 原创 · 作者 | 李婧蕾 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 Abstract 无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别.然而,在学 ...
- 经典论文复现 | InfoGAN:一种无监督生成方法
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...
- 李宏毅ML笔记12:半监督
目录 生成式模型 有监督生成式模型 半监督生成式模型 直观解释 具体操作 基本原理 低密度分离假设 Self Training Self Training与generative model对比 基于熵 ...
- 李宏毅ML笔记7:为什么深度学习
目录 深宽对比 模组化 图像辨识例子 模组化思想 DL与模组化关系 模组化的好处: 语音例子 语音辨识的过程 传统方法HMM-GMM DL做法 DL原理类比 Toy Example End-to-en ...
- 李宏毅机器学习笔记(十六)——无监督学习(四):自编码器
文章目录 一.自编码器的引入 二.自编码器的应用 1.文本检索 2.寻找相似图片 3.预训练神经网络 4.面向图片的自编码器 5.进行内容生成 三.自编码器的改进 1.去除噪音 2.重定义损失函数 3 ...
最新文章
- OpenCV中高斯混合背景建模算法汇总
- html调用deeplink,如何优雅地从浏览器打开本地应用deeplink
- 1013 B. And
- 【原】npm 常用命令详解
- joblib多线程、多进程学习案例(一)——一步步写多进程任务
- 复购分析实践中,Pandas 遇到了大难题
- 区块链 共识算法 分类
- maven中dependency的属性(依赖)配置
- html用css美化表格
- radon变换的原理-通过直线方程式的计算来检测出直线
- 打开html文件网页崩溃,浏览器打开就崩溃,浏览器页面打不开
- 空间相册怎么移到计算机里,qq空间上传照片_怎样把电脑里存的照片传到qq空间??...
- 陶哲轩实分析 5.2 节习题试解
- 七牛云邵杰:视觉智能——视频云新时代
- 解决md导入CSDN中图片大小过大 改变图片的大小
- 如何应对面试官问你职业规划问题
- 金蝶中间件AAS无法访问管理平台提示404
- 谷歌浏览器如何查css,谷歌浏览器查看编辑元素CSS样式_谷歌工具
- IntelliJ IDEA(Ultimate版本)的下载、安装和WordCount的初步使用(本地模式和集群模式)...
- 网络爬虫的基本原理是什么?
热门文章
- gpio rk3399 控制_RK3326 RK3399 GPIO寄存器操作笔记
- Android手机视频监控系统
- 计算机就业去哪个岗位好? 算法岗位还是开发岗位更好?
- java--------------
- CSS minification error
- Tomcat配置https 访问http跳转https 配置域名
- 鸿蒙os beta3.0怎么升级,鸿蒙系统 2.0 Beta3.0版本更新详解
- 原来使用 Pandas 绘制图表也这么惊艳!
- windows10关闭java自动更新
- NTDETECT.COM 丢失(NTDETECT failed)解决方法