机器学习之三:降维技术

2024-05-08 13:52:46

机器学习之三:降维技术

如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道

1. 基本概念

机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。

2. 降维的作用

  • 降低时间和空间复杂度
  • 节省了提取不必要特征的开销
  • 去掉数据集中夹杂的噪声
  • 较简单的模型在小数据集上有更强的鲁棒性
  • 当数据能有较少的特征进行解释,我们可以更好的解释数据,使得我们可以提取知识
  • 实现数据可视化

3. 降维的方法

3.1 主成分分析PCA(Principal Component Analysis)

Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分,如果能用不超过3-5个成分就能解释变异的80%,就算是成功。
基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的 综合指标,并代替原先的指标。

3.2 因子分析

降维的一种方法,是主成分分析的推广和发展。
是用于分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

因子分析的主要用途
减少分析变量个数
通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量
使问题背后的业务因素的意义更加清晰呈现

与主成分分析的区别
主成分分析侧重“变异量”,通过转换原始变量为新的组合变量使到数据的“变异量”最大,从而能把样本个体之间的差异最大化,但得出来的主成分往往从业务场景的角度难以解释。
因子分析更重视相关变量的“共变异量”,组合的是相关性较强的原始变量,目的是找到在背后起作用的少量关键因子,因子分析的结果往往更容易用业务知识去加以解释。

3.3 线性判别式分析(Linear Discriminant Analysis)

线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。
基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。
LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。

3.4 多维尺度分析(Multi Dimensional Scaling)

多维尺度分析(Multi Dimensional Scaling),简称为MDS。MDS的目标是在降维的过程中将数据的dissimilarity(差异性)保持下来,也可以理解降维让高维空间中的距离关系与低维空间中距离关系保持不变。MDS利用成对样本间相似性,目的是利用这个信息去构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。

3.5 局部线性嵌入Locally Linear Embedding(LLE)

Locally Linear Embedding(LLE)是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。
LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。
算法的主要步骤分为三步:

  1. 寻找每个样本点的k个近邻点;
  2. 由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
  3. 由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

每日一句
To be alive is to be happy.
人活着,开心最重要。

机器学习之三:降维技术相关推荐

  1. 【机器学习】降维技术-PCA

    写在篇前   PCA即主成分分析技术,又称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标,其主要目的是为了减少数据的维数,而同时保持数据集最多的信息.这篇文章主要是整理PCA算法的理论 ...

  2. 【机器学习】机器学习中必知必会的 8 种降维技术,最后一款超硬核!

    探索性数据分析是数据科学模型开发管道的重要组成部分.数据科学家将大部分时间花在数据清洗.特征工程和执行其他数据整理技术上.降维是数据科学家在执行特征工程时使用的技术之一. 降维是将高维数据集转换为可比 ...

  3. 机器学习算法-PCA降维技术

    机器学习算法-PCA降维 一.引言 在实际的数据分析问题中我们遇到的问题通常有较高维数的特征,在进行实际的数据分析的时候,我们并不会将所有的特征都用于算法的训练,而是挑选出我们认为可能对目标有影响的特 ...

  4. 机器学习中必知必会的 8 种降维技术,最后一款超硬核!

    欢迎关注 ,专注Python.数据分析.数据挖掘.好玩工具! 探索性数据分析是数据科学模型开发管道的重要组成部分.数据科学家将大部分时间花在数据清洗.特征工程和执行其他数据整理技术上.降维是数据科学家 ...

  5. 独家 | 机器学习数据准备技术之旅(附链接)

    作者:Jason Brownlee 翻译:李嘉骐 校对:王晓颖 本文约4300字,建议阅读9分钟 本文介绍了机器学习中常用的数据准备技术. 标签:初学者 机器学习 数据准备 特征工程 机器学习项目中的 ...

  6. 【机器学习】降维代码练习

    本课程是中国大学慕课<机器学习>的"降维"章节的课后代码. 课程地址: https://www.icourse163.org/course/WZU-1464096179 ...

  7. 机器学习之降维(特征选择与特征提取)

    一.降维技术主要分为两大类:特征选择和特征提取. 基本概念:特征选择:我们可以选出原始特征的一个子集.特征提取:通过现有信息进行推演,构造出一个新的特征子空间. 为什么要降维:    (1)数据的多重 ...

  8. 【12个降维技术的终极指南(使用Python代码)】

    Adam坤 于 2019-04-21 01:04:02 发布 2722 已收藏 34 分类专栏: AI程序员 机器学习 算法 数据科学 版权 AI程序员 同时被 3 个专栏收录 166 篇文章3 订阅 ...

  9. MachineLearning 13. 机器学习之降维方法UMAP及可视化 (umap)

    点击关注,桓峰基因 桓峰基因公众号推出机器学习应用于临床预测的方法,跟着教程轻松学习,每个文本教程配有视频教程大家都可以自由免费学习,目前已有的机器学习教程整理出来如下: MachineLearnin ...

最新文章

  1. iOS 开发之时间选择器
  2. android升级SDK后,XML graphical layout无法预览的解决
  3. VScode 1.4新版功能
  4. C++:VS2019遇到C1083 无法打开包括文件: “opencv2/opencv.hpp”: No such file or directory
  5. struts2的动态方法调用(DMI)和通配符映射
  6. 【华为云技术分享】LwM2M协议的学习与分享
  7. Linux无线网络文件传输慢,在Deepin 20下QQ和TIM不能下载上传文件及无线wifi速度慢的解决...
  8. 区块链、无人驾驶、量子计算、感知智能……2050 年的技术什么样?
  9. 动态规划——买卖股票系列
  10. AFL++: Combining Incremental Steps of Fuzzing Research
  11. 蓝桥杯——PWM / PWM定时器捕获频率和占空比
  12. 思科关闭日志_详解Cisco(思科)路由器的故障日志
  13. 【计算机网络】计算机网络总结
  14. python万年历函数输入某一年某一月_Python自定义函数计算给定日期是该年第几天的方法示例...
  15. 如何让计算机桌面自动更换,怎样让电脑的桌面自动变换即自动更换桌面背景
  16. 钱多多软件制作第六天
  17. ROS中的TF坐标变换工具及实现、Rviz查看(十四)C++、python
  18. dgi数据治理_银行数据治理方法浅析
  19. [Vulhub] ThinkPHP漏洞合集
  20. MacBook如何切换操作win系统?2023最新版Parallels虚拟机

热门文章

  1. 7种工具帮助你审查代码
  2. 直播app开发公司手把手搭建一套简单的直播系统
  3. android仿ppt,android 仿ppt进入动画效果合集
  4. 高一计算机精英班班徽,高一8班班徽设计图案素材大全
  5. 2.8 mm / 4 mm / 6 mm / 8 mm 焦距的镜头分别能监控多大范围?
  6. 《神经科学:探索脑》学习笔记(第2章 神经元和神经胶质细胞)
  7. ninja 编译threadx(ubuntu)
  8. 共识算法PBFT资料整理
  9. 电脑连不上5GWiFi解决办法:更新驱动
  10. 如何提高深度学习的泛化能力?