西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)
文章目录
- 0. 前言
- 1. 主成分分析PCA
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
维数灾难:在高维情形下出现的数据样本稀疏、距离计算困难等问题。
缓解维数灾难的方法是降维。
降维的好处:
- 舍弃部分信息后能使得样本的采样密度增大
- 当数据受到噪声影响时,舍弃的无关信息往往与噪声有关
1. 主成分分析PCA
主成分分析(Principal Component Analysis)是常用的降维方法。
PCA假设存在这样的超平面:
- 最近重构性:样本点到这个超平面的距离都足够近
- 最大可分性:样本点在这个超平面上的投影能尽可能分开,即方差最大化
PCA算法如下图所示(图源:机器学习),基于线性变换进行降维:Z=WTXZ=W^TXZ=WTX:
奇异值分解SVD:通常可以使用SVD代替特征值分解:svd=UΣVTsvd=U\Sigma V^Tsvd=UΣVT,Σ\SigmaΣ的对角线元素为奇异值,选择最大的d′d'd′个奇异值,对应向量为矩阵UUU的前d′d'd′列。
设置一个阈值确定降维后需要保持多少的原始信息,以此来设定降维维度:
∑i=1d′λi∑i=1dλi⩾t\frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^d\lambda_i}\geqslant t ∑i=1dλi∑i=1d′λi⩾t
其中,λ\lambdaλ表示特征值或者奇异值。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)相关推荐
- 西瓜书+实战+吴恩达机器学习(八)监督学习之朴素贝叶斯 Naive Bayes
文章目录 0. 前言 1. 朴素贝叶斯算法 2. 半朴素贝叶斯算法 2.1. ODE 2.2. SPODE 2.3. TAN 2.4. AODE 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔 ...
- 西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)
文章目录 0. 前言 1. 偏差方差的解决方法 2. 高偏差高方差的学习曲线 3. 调试模型技巧 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 泛化误差可分解为 ...
- 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)
文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...
- 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)
文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...
- 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)
文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...
- 西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM、半监督k-means、协同训练算法)
文章目录 0. 前言 1. 半监督SVM 2. 半监督k-means 2.1. 约束k-means 2.2. 约束种子k-means 3. 协同训练算法 如果这篇文章对你有一点小小的帮助,请给个关注, ...
- 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost
文章目录 0. 前言 1. AdaBoost算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Boosting:先训练一个基学习器,然后根据学习器的表现对样本 ...
- 西瓜书+实战+吴恩达机器学习(十)监督学习之支持向量机 Support Vector Machine
文章目录 0. 前言 1. 拉格朗日乘子法 2. SVM参数求解方法 3. 软间隔 4. 核方法 5. 支持向量回归 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前 ...
- 西瓜书+实战+吴恩达机器学习(二十)随机算法(拉斯维加斯方法、蒙特卡罗方法)
文章目录 0. 前言 1. 拉斯维加斯方法 2. 蒙特卡罗方法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 随机算法主要分为两种类型: 拉斯维加斯方法:采样次 ...
最新文章
- 记录CSS3 target伪类简介
- ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩夺魁 | 技术头条
- Android nDrawer
- 探讨PHP页面跳转几种实现技巧
- Asp.Net 设计模式 之 “简单工厂”模式
- Linux查看时间段文件,Linux查看特定时间段内修改过的文件
- TOJ 3046: 招商银行网络系统
- Leetcode - 142. Linked List Cycle II
- 动手学servlet(六) 过滤器和监听器
- mysql内存态_MySQL · 社区动态 · MySQL内存分配支持NUMA
- 简单类型参数是值传递,对象参数是引用传递
- 对mysql having 的理解
- WinForm嵌入Chrome内核浏览器
- YALMIP学习(一):入门
- debian系统离线安装iperf2
- JAVA中 万物皆对象
- use after free double free利用
- 从“机器换人”到“虚拟数字员工”,我们应该担心人工智能“抢饭碗”吗?
- 单片机串口通信c语言程序,pc计算机与单片机串口通信源程序
- 计算机男朋友好处,程序猿男朋友的好处
热门文章
- 【荐】万能清除浮动样式
- 用java的socket来发送一个类
- Ext自定义控件 - 自学ExtJS
- 打造自己的专业图像工具-Visual C++ 2005图像编程系列【一】
- python __builtins__ copyright类 (14)
- Linux signal 编程(转载)
- RHEL5.6环境下yum安装MySQL
- Spring3 报org.aopalliance.intercept.MethodInterceptor问题解决方法
- WPF之Binding的三种简单写法
- GemBox Spreadsheet Professional 2.9