流形与降维:概述

  • 降维算法概述
    • 流形学习
    • 距离的定义
  • KNN图与流形降维
    • KNN图
    • SNE算法

降维算法概述

降维,顾名思义就是把数据或者特征的维度降低,一般分为线性降维和非线性降维。

线性降维有:PCA、LDA、MDS(Classical Multidimensional Scaling)
非线性降维有: ISOmap( Isometric Mapping), LLE(Locally Linear Embedding), LE(Laplacian Eigenmaps) 非线性降维算法中用到的,大多属于流行学习方法。

流形学习

关于流形学习(Manifold Learning)最形象的解释莫过于这幅图:

这幅图又被称为Swiss Roll,瑞士卷,是一种常见的卷状蛋糕,如何计算蛋糕卷起表面上两点距离,就是流行计算中要解决的一个问题。

距离的定义

在欧式几何中,我们将两点的距离定义为两点的直线距离,这个距离也是在欧式空间中A到B的最短距离。由于在瑞士卷上,从A点到B点实际上有无数中路径,那么该如何定义A和B之间的距离呢?与欧式空间中的距离定义类似,我们也可以将其简单地定义为“最短路径”。

那么这个最短距离又如何定义呢?现实生活中测量从北京到纽约的距离也是一个这样的问题。由于地球实际上是球形的,从北京的纽约的距离 不是空间中这两个地点的直线距离,而是通过GIS中称为测地距离(根据球面几何,球体上任意两点的距离就是同时经过这两点的球面大圆的弧长)的度量来计算。在瑞士卷的问题中,类似地,我们也需要找到“测地距离”。

总结一下,这里提到的几个概念:

  • 测地距离:流形上两个点之间的最短测地线的长度。
  • 测地线:流形上两个点之间最短的曲线。
  • 黎曼测度:黎曼流形上某一点的切空间上定义的内积的集合。
  • 黎曼测度的性质:黎曼流形上某一点的切空间上某一切向量的范数等于这个切向量对应的测地线的长度。

KNN图与流形降维

KNN图

KNN图(k-Nearest Neighbour Graph)是对空间中的n个节点,通过某种距离度量的方式找到距离他最近的k个邻居,然后分别将这k个点连接起来,形成k条有向边。当然在实际中为了便于处理,通常是构造成无向边。这样的处理方法类似于局部微分,认为流行上每个点的邻域符合欧式空间定义。就类似于处理从北京到纽约的距离这样的问题不能用欧式几何,应该用黎曼集合,但是对于日常生活中常用的距离概念都是用欧式距离来描述一样。从直观上来讲,一个流行好比是d维的空间,在一个m维的空间中被扭曲(m>d)之后的结果,d维流形的任意点都局部同胚于(正逆映射都是光滑的一一映射)欧式空间 R D R^D RD
KNN图就可以在计算流行上两点的距离时起到“估算”测地线的作用,用欧式距离得到一个近似,如下图所示,图中蓝色的曲线是沿着流行真实的测地线距离,红色的是在原始数据点上根据欧式距离构造KNN 图得到的近似测地线距离。

SNE算法

SNE(stochastic neighbor embedding)算法的基本假设和上述KNN图算法基本上是一致的,在高维空间相似的数据点,映射到低维空间距离也是相似的。但是与KNN图算法不同的是,SNE把这种距离关系转换为一种条件概率来表示相似性。
假设高维空间中的数据点服从高斯分布,那么任意两点之间的距离,例如 X j X_j Xj点相距 X i X_i Xi点的距离认为是:
p j ∣ i = e x p ( − ∣ ∣ X i − X j ∣ ∣ 2 / ( 2 δ i 2 ) ∑ k ≠ i e x p ( − ∣ ∣ X i − X k ∣ ∣ 2 / ( 2 δ i 2 ) p_{j|i}= \frac{exp(-||X_i-X_j||^2/(2\delta_i^2)}{\sum_{k \ne i}{exp(-||X_i-X_k||^2/(2\delta_i ^2)}} pji=k̸=iexp(XiXk2/(2δi2)exp(XiXj2/(2δi2)
数据映射到低维空间后,高维数据点之间的相似性应该在低维空间保持一致。这里同样用条件概率的形式描述,假设高维数据点 x i x_i xix j x_j xj在低维空间的映射点分别为 y i y_i yiy j y_j yj。类似的,低维空间中的条件概率用 q j ∣ i q_{j∣i} qji表示,并将所有高斯分布的方差均设定为 1 2 \frac{1}{\sqrt{2}} 2

1,所以有:
q j ∣ i = e x p ( − ∣ ∣ Y i − Y j ∣ ∣ 2 ∑ k ≠ i e x p ( − ∣ ∣ Y i − Y k ∣ ∣ 2 q_{j|i}= \frac{exp(-||Y_i-Y_j||^2}{\sum_{k \ne i}{exp(-||Y_i-Y_k||^2}} qji=k̸=iexp(YiYk2exp(YiYj2
如果降低维度后 Y i Y_i YiY j Y_j Yj真实反映了高维数据点 X i X_i XiX j X_j Xj之间的关系,那么条件概率 p j ∣ i p_{j∣i} pjiq j ∣ i q_{j∣i} qji应该完全相等。

机器学习之:流形与降维概述相关推荐

  1. python降维之时间类型数据的处理_【Python算法】数据降维概述

    数据降维概述 1.数据降维概述 所谓的数据降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,可以解决大规模特征下的数据显示问题,使得数据集更易使用,降低后续算法的计算,消除噪声影 ...

  2. [飞桨机器学习]六种常见数据降维

    [飞桨机器学习]六种常见数据降维 事实上,在高维情形下 现的数据样本稀疏. 距离计算困 难等问是所有机器学习方法共同面 的严重障碍, 被称为" 维数灾难" (curse of di ...

  3. sklearn与机器学习系列专题之降维(五)一文弄懂Isomap特征筛选降维

    目录 1.Isomap算法简介 2.Isomap算法原理 3.Isomap算法优缺点 4.python实战Isomap 5.下篇预告 1.Isomap算法简介 等度量映射(Isometric Feat ...

  4. 机器学习 数据增加_【机器学习】数据降维概述

    机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中. 机器学习主要问题 数据维数 维数 (又称维度) 数学中:独立参数的数目 物理中:独立时空坐标的数目 维度 ...

  5. 【机器学习】简述多种降维算法

    [转载请注明出处]chenrudan.github.io 最近看了一些关于降维算法的东西,本文首先给出了七种算法的一个信息表,归纳了关于每个算法可以调节的(超)参数.算法主要目的等等,然后介绍了降维的 ...

  6. 机器学习:流形学习Manifold Learning之LLE(局部线性嵌入)

    流形学习被认为属于非线性降维的一个分支. 线性降维的图例如下: 原图: 线性降维后的图: 线性的算法基本就是这个样子,可以看到线性的算法能把最重要的维度们找出来,蛋卷的形状被保全了下来, 但是对很多应 ...

  7. 机器学习:特征选择和降维实例

    https://www.toutiao.com/a6672721847512990216/ "特征选择是选择用于模型构建的相关特征的子集的过程",或者换句话说,选择最重要的特征. ...

  8. 机器学习算法基础——数据降维

    12.数据的降维之特征选择 特征选择 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择 ...

  9. 《菜菜的机器学习sklearn课堂》降维算法PCA和SVD

    降维算法PCA和SVD 什么是维度? sklearn中的降维算法 PCA 与 SVD 降维究竟是怎样实现的? PCA重要参数 n_components 迷你案例:高维数据的可视化 附录 PCA参数列表 ...

最新文章

  1. 半透明遮罩层覆盖整个可视区域
  2. yeoman_具有Spring Boot和Yeoman的单页Angularjs应用程序
  3. 为什么应该避免JSF
  4. 用同一uuid作为两个字段的值_这两个小技巧,让SQL语句不仅躲了坑,还提升了 1000 倍...
  5. Win11如何查看电池情况 Win11查看电池情况的方法
  6. 23种经典设计模式都有哪些,如何分类?Java设计模式相关面试
  7. 二维数组(解引用、指针数组、数组的指针)——C语言
  8. Entity Framework 4 in Action读书笔记——第四章:使用LINQ to Entities查询:使用函数...
  9. 《版式设计——日本平面设计师参考手册》—第1章段落样式和字符样式的基础知识...
  10. ubuntu16.04中将自己的ubuntu做成镜像
  11. PGP加密并签名电子邮件
  12. macpro如何清理磁盘空间_Mac系统空间占用太大,如何清理磁盘空间
  13. 经常眩晕,可能是不痛的偏头痛
  14. python怎样快速下载库_Python如何急速下载第三方库详解
  15. 睿智的目标检测——YoloV7-Tiny-OBB旋转目标检测算法部署
  16. 【热门】牛宝宝取名大全:女孩带点诗意唯美柔情的名字
  17. Ubuntu12.04 安装Skype
  18. 网上书店平台---需求规格说明书
  19. 基于规则和检索的聊天机器人引擎
  20. 机器学习是什么?我对机器学习的理解

热门文章

  1. solidity:4.函数可见性与修饰符
  2. Html中input标签的详解
  3. 硅芯思见:Timing Borrow深入浅出
  4. table 表头固定
  5. input标签的value属性详解
  6. 华云数据董事长许广彬荣获“中国信息化2021年度领军人物”
  7. 火猴之烟花效果展示(firemonkey)
  8. scrapy 西刺代理 爬取
  9. Android 将依赖完全打入aar包供第三方使用
  10. 视频教程-shiro权限安全管理框架-Java