吴恩达《机器学习》第十四章:降维
文章目录
- 十四、降维
- 14.1 应用一:数据压缩
- 14.2 应用二:数据可视化
- 14.3 主成分分析PCA
- 14.4 重建的压缩表示
- 14.5 选择主成分的数量
- 14.6 主成分分析的应用建议
十四、降维
14.1 应用一:数据压缩
本节问题:
- 降维是如何应用在数据压缩方面的?
~~~~~~ 数据投影,把三维数据降到二维,就是把它投影到一个z1,z2坐标的平面,用平面的点确定三位空间的点,即把三维坐标系的点用两个数字表示出来;
14.2 应用二:数据可视化
本节问题:
- 降维是如何对数据可视化起到作用的?
~~~~~~ 用一个不同的特征来表示它,加入这里有50个特征,我们用两个不同的特征来表示它们,相当于对于每个样本,我用2个数组表示50个数字;
对于降维在数据可视化中的应用,通常k选择2,3,从而方便画图展示;
14.3 主成分分析PCA
本节问题:
- 了解降维的一种核心方法——PCA;
- PCA的原理;
- PCA同线性回归的区别;
- 主成分分析的步骤;
~~~~~~ 试图找一个投影(可以是平面可以是线)来把数据投影到上面,使投影误差(点到直线的距离)最小;
主成分分析降维的同时,也带来一定的误差,即与原始数据相比,数据可靠性降低;看取舍 ;
假设常数项为0,直线过原点更容易观察;
~~~~~~ 向量;一个或者多个向量构成直线或者多维空间;找出若干向量,将数据投影到这k个向量展开的线性子空间上;k维平面,若是2维平面,距离就是原3维空间上的点到二维平面的距离;
PCA和线性回归的区别:
线性回归最小化的是实际y值到预测y值的平方差,而PCA最小化的是点到直线的距离的平方;
线性回归用一个x值来预测y值;
PCA将所有x值转换为别的值;
1、在进行PCA之前,先均值归一化和特征规范化;
2、数据预处理
3、特征缩放
4、主成分分析
协方差
正定矩阵
奇异值分解
7、用到的就是那个 U 矩阵,用于线性变换,得到向量z,z是k维向量,其实就是整个投影过程的变换;
14.4 重建的压缩表示
本节问题:
- 如何把降维后的数据恢复到以前维度;
原始数据的重构问题:
其实就是一个矩阵求逆的过程,不过求出来的Xapprox和以前的X会有一定的误差,因为存在投影误差;
而对于U矩阵,它是正交矩阵,转置等于逆,所以这里直接Xapprox=UreduceZ;
14.5 选择主成分的数量
本节问题:
- 如何选择主成分K的大小
K越大,Xapprox越接近原来的X,保留的方差性就越多;
方差被保留的百分比=>信息被保留的百分比;
使用SVD,能够避免反复大量计算;
14.6 主成分分析的应用建议
本节问题:
- PCA如何加快学习算法的执行效率;
在监督学习中对高维的样本使用主成分分析降维,比如10000维数据降到1000维,几乎不影响精确度,PCA后回归能够大幅度提高效率;
~~~~~~ **错误应用之一:使用PCA防止过拟合;**它可能效果会很好,但这不是解决过拟合的方式,因为它实际特征并没有减少(比如99%的方差被保留),还不如使用正则化;
建议:
- 不要一开始就使用PCA,最好先使用原始数据,只有当原始数据进行不下去了才考虑PCA;
- 与其考虑降低维度,不如想想如何优化算法;
吴恩达《机器学习》第十四章:降维相关推荐
- 吴恩达机器学习(十四)推荐系统(基于梯度下降的协同过滤算法)
目录 0. 前言 1. 基于内容的推荐算法(Content-based recommendations) 2. 计算电影特征 3. 基于梯度下降的协同过滤算法(Collaborative filter ...
- 吴恩达机器学习(第四章)——多变量线性回归
第四章-多变量线性回归 文章目录 第四章-多变量线性回归 多功能 多元梯度下降法 梯度下降算法 特征缩放 学习率 特征与多项式回归 正规方程 正规方程的概念 公式的推导 梯度下降法 VS 正规方程 奇 ...
- 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)
文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...
- 吴恩达机器学习笔记十四之大规模机器学习
本节目录 1 大型数据集的学习 2 随机梯度下降法 3 小批量梯度下降 4 随机梯度下降收敛 5 在线学习 6 映射化简和数据并行 1 大型数据集的学习 如果我们有一个低方差的模型,增加数据集的规模可 ...
- 吴恩达机器学习(十四)向量化
梯度下降原始表达式: 向量化:
- 西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)
文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...
- 吴恩达机器学习(十二)—— 机器学习系统的设计
吴恩达机器学习系列内容的学习目录→\rightarrow→吴恩达机器学习系列内容汇总. 1. 优先处理的工作:垃圾邮件分类例子 2. 误差分析 3. 偏斜类的误差度量 4. 查准率和查全率之间的权衡 ...
- 吴恩达机器学习(十六)机器学习流水线、上限分析
目录 0. 前言 1. 流水线 2. 上限分析(Ceiling analysis) 学习完吴恩达老师机器学习课程的照片OCR,简单的做个笔记.文中部分描述属于个人消化后的理解,仅供参考. 如果这篇文章 ...
- 吴恩达机器学习(十二)主成分分析(降维、PCA)
目录 0. 前言 1. 主成分分析(PCA) 2. 主成分分析PCA的流程 3. 低维空间维度的选择 4. 主成分分析使用方式 学习完吴恩达老师机器学习课程的降维,简单的做个笔记.文中部分描述属于个人 ...
- 吴恩达机器学习(十)支持向量机(SVM)
目录 0. 前言 1. 代价函数(Cost Function) 2. 假设函数(Hypothesis) 3. 范数表示 4. 高斯核函数(Gaussian Kernel) 5. SVM实现多分类 6. ...
最新文章
- 【Android 插件化】插件化框架整理
- Grafana分析Nginx日志
- z370支持pcie信号拆分吗_定了!AMD B550主板确认将支持PCIE4.0,多项能力接近X570
- 算法复习第五章贪心法
- mysql 传统数据恢复_MySQL误操作后如何快速恢复数据
传统解法
利用binlog2sql快速闪回
常见问题
参考资料...
- 基于VGG的感知损失函数--人眼感知的loss
- 解决安卓TextView高度和textSize大小不一致问题
- mysql端口隐藏_修改MySQL端口以及出现的问题
- wgs84坐标系拾取工具_COORD坐标转换
- 设计模式-单一职责原著
- Python爬虫QQ空间好友说说
- 浙大图灵班今年首次招生:院士授课,本科生配学业导师
- 室内定位:基于NB/LTE Cat.1蜂窝网络的穿戴设备定位 BLE-4
- R语言绘图:条形图——barplot
- Codeforces Round #583 (Div. 1 + Div. 2, based on Olympiad of Metropolises)
- Spring源码分析(二)BeanFactoryPostProcessor之ConfigurationClassPostProcessor的调用过程
- 计算机自动控制论文,精选:计算机在自动控制技术实践中的应用分析论文原稿...
- 编写 Matlab mexFunction (C mex)
- 分享一个好用的在线加解密工具
- C语言实现复数的几个基本操作(四则运算,初始化,销毁...)