PCA:Principle component analysis 主成分分析

百度百科:它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。


PCA是无监督的。(其实也可以不降维,比如上面的x1和x2变成了y1和y2,就没降维。)

LDA:Linear Discriminant Analysis 线性判别分析

区别于同名的LDA(Latent Dirichlet Allocation 文档主题生成模型)

刘建平: LDA是一种监督学习的降维技术,“投影后类内方差最小,类间方差最大”。


(右图的分布比做图的分的更开)

MDS:MultiDimensional Scaling 多维尺度变换

MDS 是一种线性降维方法。其目标在新空间中两个点之间的距离,与原空间中尽量相同。

注意,MDS所说的距离就是欧式距离,这就导致无法处理流形,也就引出了ISOMAP。

ISOMAP: Isometric Mapping 等距特征映射

对于流形(Manifold,局部具有欧式空间性质的空间),两点之间的距离并非欧氏距离。而是采用“局部具有欧式空间性质”的原因,让两点之间的距离近似等于依次多个临近点的连线的长度之和。通过这个方式,将多维空间“展开”到低维空间。

思路详述 & 流形的解释(很有趣):{降维} ISOMAP等距特征映射 & MDS多维标度法


(经典的“瑞士卷”问题)

SNE & T-SNE

SNE,不同于MDS和ISOMAP中基于距离不变的思想,而是先将欧氏距离距离转换为条件概率,来表达点与点之间的相似度,再优化两个分布之间的距离-KL散度,从而保证点与点之间的分布概率不变。

尽管SNE提供了很好的可视化方法,但是他很难优化,而且存在“拥挤问题”crowding problem。t-SNE在低维空间下使用更重长尾分布的t分布来避免拥挤问题和优化问题。

见到最好的资料: http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

AutoEncoder:自编码器

这就完全是是另一种思路,深度学习的方式了。模型的输入和输出相同,都是高维的原数据。

理解为:(下图)高维数据(左测蓝色)通过某种网络变成低位数据(中间红色)后,又经过某种网络变回高维数据(右侧蓝色)。数据经过该模型前后没有变化,而中间的低维数据完全具有输入输出的高维数据的全部信息,所以可以用低维数据代表高维数据。

之所以叫AutoEncoder,而不叫AutoEncoderDecoder,是因为训练好之后只有encoder部分有用,decoder部分就不用了。


进入深度学习的思路之后,编码的网络是开放的,可以自由设计的。一个思路是端到端,将网络的输出设为你任务要的结果(如类别、序列等),过程中的某层嵌入都可以作为降维的低维结果。当然,这种低维结果其实是模型的副产品,因为任务已经解决。比如bert模型得到(中文的)字嵌入。


如果你觉得本文有些许帮助,请点赞~~~~

降维方法小结和理解:PCA、LDA、MDS、ISOMAP、SNE、T-SNE、AutoEncoder相关推荐

  1. “降维算法”面试知识点总结-PCA+LDA算法-百面机器学习系列4

    提示:在准备机器学习算法工程师面试的过程中,我主要参考<百面机器学习>去巩固自己的基础知识.本系列博客将以该书为主题,并以八股文的方式去概述整本书的内容,以尽量减少读者们的阅读作量,并方便 ...

  2. 大数据(线性/非线性)降维方法(PCA,LDA,MDS,ISOMAP,LLE)

    文章目录 数据块划分 特征分布 特征提取 PCA LDA MDS Isomap LLE 数据块划分 对于给定的数据集Magic(19020个样本,10个属性),我们首先将其划分为RSP数据块,然后再分 ...

  3. 【机器学习】基于PCA/LDA的数据降维和可视化(二维+三维)

    基于PCA/LDA的数据降维和可视化 Introduction Project Intro File Intro Tools Intro Code&Dataset Link Process P ...

  4. python降维方法_机器学习数据降维方法总结(附python代码)

    介绍 在机器学习实战时,如果面对一个数据集具有上千个特征,那么对于模型训练将是一个巨大的挑战.面对如此多的数据变量,如果我们认真的去分析每一个变量将耗费我们几周甚至几个月的时间,那么你估计也要被开除了 ...

  5. 机器学习之降维方法(LDA、PCA)小结

    1 线性判别分析(LDA) 1.1 LDA简介 LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的.一句话来概括LDA的核心思想,[投影后类内方差最小,类间方差最大].我们将数 ...

  6. 降维方法之PCA,LDA

    降维的目的 减少冗余信息造成的误差,提高数据信息的精度. PCA 主成分分析 Principal Component Analysis(PCA)主成分分析,是最常用的线性降维方法,无监督的,它通过某种 ...

  7. 用相似矩阵的几何意义直观理解PCA降维方法

    PCA(主成分分析)是降维中最经典的方法,其推导求解的常用两种方法包括最大方差理论(样本点到超平面的投影都尽可能分开)以及最小平方误差理论(样本点到超平面的距离都足够近),以上两种方法都需要进行严格意 ...

  8. PCA与LDA两种降维方法原理的简要对比

    1.PCA(主成分分析) 无监督的,选择的是投影后数据方差最大的方向.因此PCA假设方差越大,代表的信息量越大,使用主成分来表示原始数据可以去除冗余的维度,达到降维的目的. 2.LDA(线性判别分析) ...

  9. 稀疏学习、稀疏表示、稀疏自编码神经网络、字典学习、主成分分析PCA、奇异值分解SVD 等概念的梳理,以及常用的特征降维方法

    稀疏学习.稀疏表示.稀疏自编码神经网络.字典学习.主成分分析PCA.奇异值分解SVD 等概念的梳理,以及常用的特征降维方法 关于稀疏 稀疏编码 Sparse Coding 与字典学习 神经网络的正则化 ...

最新文章

  1. R语言绘制生存曲线图
  2. python求五个数中的最大值和最小值_python编程 求输入的10个数中的最大值和最小值,并输出它们各自是第几个...
  3. AFAB 科目要求一个成本会计分配
  4. Lua与Redis交互
  5. 玩Java 8 – Lambda,路径和文件
  6. 【转】事务和锁机制是什么关系? 开启事务就自动加锁了吗?
  7. porphet论文_Facebook 时间序列预测算法 Prophet 的研究
  8. 韶关python培训班_韶怎么读有什么意思 带韶字名字推荐(图文)
  9. python简易问答机器人_Python入门到实践-问答机器人
  10. 应用计算机技术建立起来的地图,韩梅家住鼓楼附近,约好同学夏宇一块儿去景山公园踏青。(15分)...
  11. AngularJS controller调用factory
  12. Java 比较图片_Java图片比对
  13. 第五讲—按键控制LED
  14. 离线语音遥控器控制红外设备
  15. 试用北大CoBOT源代码缺陷工具在Linux系统下安装
  16. bfv同态加密_全同态加密BFV-(section 2-SHE)
  17. 基于华为云区块链服务快速部署和搭建链上应用
  18. 打破学位和学术的迷信
  19. matlab多径信道模型,多径时变信道模型的仿真与性能分析课程设计(样例3)
  20. 2017.7.10 noi2008 假面舞会

热门文章

  1. Android应用请求获取Root权限
  2. resize2fs和xfs_growfs扩展逻辑卷的大小
  3. Ubuntu 安装 itop
  4. 微信小程序开发,设置小程序为可转发可分享朋友圈
  5. 【弄nèng - Activiti6】Activiti6入门篇(九)—— 邮件任务
  6. Dubbo 使用Nacos作为注册中心是,消费端获取不到注册中心服务问题
  7. 太厉害了,终于有人能把文件上传漏洞讲的明明白白了
  8. js下Uint8Array合并读取的方式
  9. 数据库SQL实战-查找排除当前最大、最小salary之后的员工的平均工资avg_salary(mysql)
  10. 【老生谈算法】matlab编写PSO算法及实例——PSO算法