数据降维基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。

数据降维工具箱drtoolbox中众多算法,这里简单做个分类。

因为很多并没有仔细了解,在此次只对八种方法做分类:主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)、等距映射(Isomap)、局部线性嵌入(Locally Linear Embedding,LLE)、Laplacian 特征映射(Laplacian Eigenmaps)、局部保留投影(Local Preserving Projection,LPP)、局部切空间排列(Local Tangent Space Alignment,LTSA)、最大方差展开( Maximum Variance Unfolding,MVU)

线性/非线性

线性降维是指通过降维所得到的低维数据能保持高维数据点之间的线性关系。线性降维方法主要包括PCA、LDA、LPP(LPP其实是Laplacian Eigenmaps的线性表示);非线性降维一类是基于核的,如KPCA,此处暂不讨论;另一类就是通常所说的流形学习:从高维采样数据中恢复出低维流形结构(假设数据是均匀采样于一个高维欧式空间中的低维流形),即找到高维空间中的低维流形,并求出相应的嵌入映射。非线性流形学习方法有:Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU
整体来说,线性方法计算块,复杂度低,但对复杂的数据降维效果较差。

监督/非监督

监督式和非监督式学习的主要区别在于数据样本是否存在类别信息。非监督降维方法的目标是在降维时使得信息的损失最小,如PCA、LPP、Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU;监督式降维方法的目标是最大化类别间的辨别信,如LDA。事实上,对于非监督式降维算法,都有相应的监督式或半监督式方法的研究。

全局/局部

局部方法仅考虑样品集合的局部信息,即数据点与临近点之间的关系。局部方法以LLE为代表,还包括Laplacian Eigenmaps、LPP、LTSA。
全局方法不仅考虑样本几何的局部信息,和考虑样本集合的全局信息,及样本点与非临近点之间的关系。全局算法有PCA、LDA、Isomap、MVU。
由于局部方法并不考虑数据流形上相距较远的样本之间的关系,因此,局部方法无法达到“使在数据流形上相距较远的样本的特征也相距较远”的目的。
以下是对一组三维数据(900样本)降到一维,应用八种算法的时间对比:

(转载请注明作者和出处:http://blog.csdn.net/xiaowei_cqu 未经允许请勿用于商业用途)

【数据降维】数据降维方法分类相关推荐

  1. Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略

    Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...

  2. 深入浅出Python机器学习9——数据预处理、降维、特征提取及聚类

    数据预处理 使用 StandScaler 进行数据预处理 首先手工生成一些数据:        用make_blobs 函数时,指定了样本数量 n_samples 为 40,分类 centers 为 ...

  3. 07_数据降维,降维算法,主成分分析PCA,NMF,线性判别分析LDA

    1.降维介绍 保证数据所具有的代表性特性或分布的情况下,将高维数据转化为低维数据. 聚类和分类都是无监督学习的典型任务,任务之间存在关联,比如某些高维数据的分类可以通过降维处理更好的获得. 降维过程可 ...

  4. python用tsne降维图像_python代码实现TSNE降维数据可视化教程

    TSNE降维jne免费资源网 降维就是用2维或3维表示多维数据(彼此具有相关性的多个特征数据)的技术,利用降维算法,可以显式地表现数据.(t-SNE)t分布随机邻域嵌入 是一种用于探索高维数据的非线性 ...

  5. Atitit 知识管理的重要方法 数据来源,聚合,分类,备份,发布 搜索

    Atitit 知识管理的重要方法 数据来源,聚合,分类,备份,发布 搜索 1.1. Rss 简易信息聚合(也叫聚合内容 Really Simple Syndication1 1.1. Rss 简易信息 ...

  6. 超高维数据(数据维度远大于样本数)的降维

    超高维数据(数据维度远大于样本数)的降维该如何处理? clear ;clc; img1 = double(imread('im1.jpg')); img2 = double(imread('im2.j ...

  7. excel按季度分类汇总_按部门对Excel表格中数据进行分类汇总的方法

    分类汇总是Excel的一项重要功能,它能快速以某一个字段为分类项,对数据列表中其他字段的数值进行统计计算.本文以在表格中按照部门来统计数据总和为例介绍Excel表格中数据进行分类汇总的方法的操作方法. ...

  8. 大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)

    目录 (1)分类 (2)回归分析 (3)聚类 (4)关联规则 (5)神经网络方法 (6)Web数据挖掘 在大数据时代,数据挖掘是最关键的工作.大数据的挖掘是从海量.不完全的.有噪声的.模糊的.随机的大 ...

  9. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

  10. 高维数据中特征筛选方法的思考总结——单变量分析筛选法

    基因组学.转录组学.蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征).降维方法分为两大类:单变量分析降维法.多变量分析降维法.单变量降维常常使用FC值或者P值, ...

最新文章

  1. 第一个MapReduce程序
  2. 数据结构学习工具总结
  3. lucene源码分析(5)lucence-group
  4. 网易MCtalk Live:漫谈短视频平台概况,全面解读头部内容
  5. Spring 体系结构详解
  6. fileinputstream_从Java中的FileInputStream读取字节
  7. 攻击者巧妙滥用谷歌 DoH 下载恶意软件
  8. 开源jeecms,jeebbs学习笔记4——从jo_user表看持久层设计
  9. Intent的一些简单用法
  10. Dxg——[版本管理工具Git SVN]开发笔记整理分类合集【所有的相关记录,都整理在此】
  11. kerberos linux 账号,使用AD / Kerberos进行身份验证/授权的Linux服务器是否需要计算机帐户?...
  12. python抓取天气预报_抓取天气预报的代码(Python)
  13. python socket服务端
  14. idea快速创建serilizableuid
  15. 利用python读取excel中的公司名称获取公司的经营范围并回填进excel中
  16. 关于网站标签页的logo设置
  17. cp——复制文件\文件夹
  18. 最多K次交换冒泡排序
  19. mysql 视图 事务 存储过程 触发器——龙腾
  20. 2021华为软件精英赛初赛试题解析,欢迎讨论

热门文章

  1. 使用python绘制五角星
  2. 区块链概念正宗龙头股
  3. 随机数函数rand()
  4. Docker-入门基础知识(1)
  5. @Aspect注解使用场景
  6. Hadoop大数据原理(3) - 分布式计算框架MapReduce
  7. numpy-repeat
  8. 帮你快速拿Offer!Android攒了一个月的面试题及解答,含BATJM大厂
  9. C#怎么选中datagridview中的一行,并获得它的数据?
  10. c语言 多字节合并拼接(4个uchar 组合成 ulong)