文章目录

  • 十四、降维
    • 14.1 应用一:数据压缩
    • 14.2 应用二:数据可视化
    • 14.3 主成分分析PCA
    • 14.4 重建的压缩表示
    • 14.5 选择主成分的数量
    • 14.6 主成分分析的应用建议

十四、降维

14.1 应用一:数据压缩

本节问题

  • 降维是如何应用在数据压缩方面的?


    ~~~~~~      数据投影,把三维数据降到二维,就是把它投影到一个z1,z2坐标的平面,用平面的点确定三位空间的点,即把三维坐标系的点用两个数字表示出来;

14.2 应用二:数据可视化

本节问题

  • 降维是如何对数据可视化起到作用的?

    ~~~~~~      用一个不同的特征来表示它,加入这里有50个特征,我们用两个不同的特征来表示它们,相当于对于每个样本,我用2个数组表示50个数字;


    对于降维在数据可视化中的应用,通常k选择2,3,从而方便画图展示;

14.3 主成分分析PCA

本节问题

  • 了解降维的一种核心方法——PCA;
  • PCA的原理;
  • PCA同线性回归的区别;
  • 主成分分析的步骤;

~~~~~~      试图找一个投影(可以是平面可以是线)来把数据投影到上面,使投影误差(点到直线的距离)最小;
主成分分析降维的同时,也带来一定的误差,即与原始数据相比,数据可靠性降低;看取舍 ;
假设常数项为0,直线过原点更容易观察;

~~~~~~      向量;一个或者多个向量构成直线或者多维空间;找出若干向量,将数据投影到这k个向量展开的线性子空间上;k维平面,若是2维平面,距离就是原3维空间上的点到二维平面的距离;

PCA和线性回归的区别:

线性回归最小化的是实际y值到预测y值的平方差,而PCA最小化的是点到直线的距离的平方;
线性回归用一个x值来预测y值;
PCA将所有x值转换为别的值;



1、在进行PCA之前,先均值归一化和特征规范化;
2、数据预处理
3、特征缩放
4、主成分分析
协方差
正定矩阵
奇异值分解

7、用到的就是那个 U 矩阵,用于线性变换,得到向量z,z是k维向量,其实就是整个投影过程的变换;

14.4 重建的压缩表示

本节问题

  • 如何把降维后的数据恢复到以前维度;

原始数据的重构问题:

其实就是一个矩阵求逆的过程,不过求出来的Xapprox和以前的X会有一定的误差,因为存在投影误差;
而对于U矩阵,它是正交矩阵,转置等于逆,所以这里直接Xapprox=UreduceZ;

14.5 选择主成分的数量

本节问题

  • 如何选择主成分K的大小

    K越大,Xapprox越接近原来的X,保留的方差性就越多;
    方差被保留的百分比=>信息被保留的百分比;

    使用SVD,能够避免反复大量计算;

14.6 主成分分析的应用建议

本节问题

  • PCA如何加快学习算法的执行效率;


在监督学习中对高维的样本使用主成分分析降维,比如10000维数据降到1000维,几乎不影响精确度,PCA后回归能够大幅度提高效率;

~~~~~~      **错误应用之一:使用PCA防止过拟合;**它可能效果会很好,但这不是解决过拟合的方式,因为它实际特征并没有减少(比如99%的方差被保留),还不如使用正则化;

建议

  • 不要一开始就使用PCA,最好先使用原始数据,只有当原始数据进行不下去了才考虑PCA;
  • 与其考虑降低维度,不如想想如何优化算法;

吴恩达《机器学习》第十四章:降维相关推荐

  1. 吴恩达机器学习(十四)推荐系统(基于梯度下降的协同过滤算法)

    目录 0. 前言 1. 基于内容的推荐算法(Content-based recommendations) 2. 计算电影特征 3. 基于梯度下降的协同过滤算法(Collaborative filter ...

  2. 吴恩达机器学习(第四章)——多变量线性回归

    第四章-多变量线性回归 文章目录 第四章-多变量线性回归 多功能 多元梯度下降法 梯度下降算法 特征缩放 学习率 特征与多项式回归 正规方程 正规方程的概念 公式的推导 梯度下降法 VS 正规方程 奇 ...

  3. 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)

    文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...

  4. 吴恩达机器学习笔记十四之大规模机器学习

    本节目录 1 大型数据集的学习 2 随机梯度下降法 3 小批量梯度下降 4 随机梯度下降收敛 5 在线学习 6 映射化简和数据并行 1 大型数据集的学习 如果我们有一个低方差的模型,增加数据集的规模可 ...

  5. 吴恩达机器学习(十四)向量化

    梯度下降原始表达式: 向量化:

  6. 西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)

    文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...

  7. 吴恩达机器学习(十二)—— 机器学习系统的设计

    吴恩达机器学习系列内容的学习目录→\rightarrow→吴恩达机器学习系列内容汇总. 1. 优先处理的工作:垃圾邮件分类例子 2. 误差分析 3. 偏斜类的误差度量 4. 查准率和查全率之间的权衡 ...

  8. 吴恩达机器学习(十六)机器学习流水线、上限分析

    目录 0. 前言 1. 流水线 2. 上限分析(Ceiling analysis) 学习完吴恩达老师机器学习课程的照片OCR,简单的做个笔记.文中部分描述属于个人消化后的理解,仅供参考. 如果这篇文章 ...

  9. 吴恩达机器学习(十二)主成分分析(降维、PCA)

    目录 0. 前言 1. 主成分分析(PCA) 2. 主成分分析PCA的流程 3. 低维空间维度的选择 4. 主成分分析使用方式 学习完吴恩达老师机器学习课程的降维,简单的做个笔记.文中部分描述属于个人 ...

  10. 吴恩达机器学习(十)支持向量机(SVM)

    目录 0. 前言 1. 代价函数(Cost Function) 2. 假设函数(Hypothesis) 3. 范数表示 4. 高斯核函数(Gaussian Kernel) 5. SVM实现多分类 6. ...

最新文章

  1. 【Android 插件化】插件化框架整理
  2. Grafana分析Nginx日志
  3. z370支持pcie信号拆分吗_定了!AMD B550主板确认将支持PCIE4.0,多项能力接近X570
  4. 算法复习第五章贪心法
  5. mysql 传统数据恢复_MySQL误操作后如何快速恢复数据 传统解法 利用binlog2sql快速闪回 常见问题 参考资料...
  6. 基于VGG的感知损失函数--人眼感知的loss
  7. 解决安卓TextView高度和textSize大小不一致问题
  8. mysql端口隐藏_修改MySQL端口以及出现的问题
  9. wgs84坐标系拾取工具_COORD坐标转换
  10. 设计模式-单一职责原著
  11. Python爬虫QQ空间好友说说
  12. 浙大图灵班今年首次招生:院士授课,本科生配学业导师
  13. 室内定位:基于NB/LTE Cat.1蜂窝网络的穿戴设备定位 BLE-4
  14. R语言绘图:条形图——barplot
  15. Codeforces Round #583 (Div. 1 + Div. 2, based on Olympiad of Metropolises)
  16. Spring源码分析(二)BeanFactoryPostProcessor之ConfigurationClassPostProcessor的调用过程
  17. 计算机自动控制论文,精选:计算机在自动控制技术实践中的应用分析论文原稿...
  18. 编写 Matlab mexFunction (C mex)
  19. 分享一个好用的在线加解密工具
  20. C语言实现复数的几个基本操作(四则运算,初始化,销毁...)

热门文章

  1. 简易nodejs服务器
  2. 【原创】搭建spark环境中的坑及解决办法
  3. win10 免安装版本的MySQL的下载安装和配置
  4. 互利网上数字金融典型场景: 网络借贷
  5. MapReduce单机提交(待稿)
  6. [USACO09HOL]假期绘画Holiday Painting
  7. 针对需要使用T3协议的Weblogic2628漏洞解决方案
  8. oracle查锁及解锁命令
  9. [Robot Framework] 怎么写动态等待?
  10. faster rcnn一些博客