{降维} ISOMAP等距特征映射 MDS多维标度法
首发:https://zhuanlan.zhihu.com/p/60599491
介绍两种降维方法
镇楼_MDS: http://www.utdallas.edu/~herve/Abdi-MDS2007-pretty.pdf
镇楼_ISOMAP: http://www-clmc.usc.edu/publications/T/tenenbaum-Science2000.pdf
Multidimensional Scaling (MDS) 多维标度法
1、经典应用场景
在不知各点坐标的,仅知道各点间距离的情况下,求各点坐标。
下表是美国十个城市之间的飞行距离,我们如何在平面坐标上据此标出这10城市之间的相对位置,使之尽可能接近表中的距离数据呢?
得到
就从10维数据变成了2维,做到了降维。也恢复了10维数据内部所包含的2维数据的内涵。
经典应用是原数据都是距离的情况下,类似“距离”情况还可以是更加泛泛的“相似程度”。
2、引申应用:
经典应用中,10维数据其实就是由2维数据变化而成的。引申一下,如果假设待处理的N维数据就当做m维数据变化而成的,那么就可以通过相同方式达到降维的目的。
3、计算:
(先留空,后补全。需要的朋友可以看上面的“镇楼”。)
Isometric Mapping (ISOMAP) 等距特征映射
1、知识准备(跳过无妨,但挺有意思):
流形 manifold 的理解
流形(Manifold)是局部具有欧式空间性质的空间。黎曼流形就是以光滑的方式在每一点的切空间上指定了欧式内积的微分流形。
定义看晕了就举几个例子,“球面”、“被弯曲了的平面”都是流形。下图可以看做“被弯曲了的平面”的一部分。(注意这个“被弯曲了的平面”不能折死褶,得全称“光滑”。记住这里“光滑”是个大flag,全文flag,后面会用。)
而“被弯曲了的平面”可以再被弯曲回一张平面,即从三维到二维。为什么呢?因为“被弯曲了的平面”其实是2维信息以某一形态放入了3维,在知道了该“某一形态”数据的情况下,如果已知x,就可以算出y。
而“球面”在三维欧式空间中,在知道半径的情况下,如果已知了x,就可以算出y。
即,如果已知“球面”的半径、“被弯曲了的平面”的“弯曲信息”的情况下,3维空间的他们其实都只是2维的。(这个思路也是流形学习中“降维”的基础。话糙理不糙!)
(多说一句话:这两例中2维信息对应到了3维,就是“流形”这个词的中文译者江泽涵所说“杂然赋流形”,2维的数据经过“杂然”参杂了其他数据就变成了3维或者更多维。多妙啊!!撒花撒花!!)
(再多说一句:上面说的“被弯曲了的平面”、“球面”都是2维流形,而非3维流形。)
2、isomap思路:
图中一个点是一个样本,样本是三个维度的,而图中的各点组成的曲面是一个流形。(图例显然是流形,就是为了讲解这事儿而特意做的,当然是啦!处理现实问题时可以假设是流形,反正难以证明是,也难以证明不是。)
而传统的PCA、LDA都不能处理这个非线性的降维问题。但由于这是个流形,如果能将该曲面以某种方式展开成为平面,那么就完成了从3维到2维的降维。后面就可以用上述MDS的方式继续做降维。
至此,该问题转化为“如何把曲面展开平面”(即“如果把流形展开”)。
以宏观视角来看,这些样本是3维的无疑;但如果以微观视角来看,由于流形各处都是“光滑”的(前文说的flag,嗯嗯,没死褶),所以只要足够小,那么就近似于平面。为了把局部微观的平面扩展到全局宏观的平面,就需要打断遥远点的联系,只保留临近点的联系。
引入图论框架,连接相邻的点构建一个连接图,被称作“邻接图”(neighborhood graph)
连接相邻的点的具体方式有二:一是最近的k个点;二是以r为半径划定一个区域(多维的),内部的就算“临近的”。
现在有了这张图,如果扔下3维空间仅看这张图,那么就是
这张图就是 三维欧式空间里的二维流形 在 二维欧式空间 的近似对应。蓝线是流形真实展开后的距离;红线是用临近点的方式近似展开后的距离。二者不能完全重合,所以叫“近似”。
按论文中的表述:
后面就可以用MDS做了。
3、测地线 geodesic distance
关于论文中的测地线距离的概念,可以以一个非常好的例子,(https://www.zhihu.com/question/24548348/answer/358774739 的回答真好)中美航线怎样最短,想必这样最短
但是由于地球不是平面,所以,最短的是这样:
画在二维地图上就是
这才是实际上的最短路线,也就是“测地线 Geodesic distance”。
这时你再看图就能明白图A中蓝色虚线是三维空间中的最短连线,也就是“距离”;而在二维流形中的最短连线,也就是距离,是蓝色直线。这根蓝色直线就是图中二维流体的测地线。
首发链接:https://zhuanlan.zhihu.com/p/60599491
参考:流形学习之等距特征映射(Isomap) - wing1995 - 博客园
拓展阅读:有谁给解释一下流形以及流形正则化?
如果你觉得本文有些许帮助,请点赞~~~~
更多降维方式:降维方法小结和理解:PCA、LDA、MDS、ISOMAP、SNE、T-SNE、AutoEncoder
{降维} ISOMAP等距特征映射 MDS多维标度法相关推荐
- 机器学习降维算法六——ISOMAP(等距特征映射)
流形学习:传统的机器学习方法中,数据点和数据点之间的距离和映射函数都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以用于真实世界的非线性数据,从 ...
- mds算法python函数_多维标度法(MDS)的Python实现
标签: 多维标度法(multidimensional scaling,MDS)是一种在低维空间展示"距离"数据结构的多元数据分析技术,是一种将多维空间的研究对象( 样本 或 变量 ...
- Matlab 多维标度,详解多维标度法(MDS,Multidimensional scaling)
流形学习(Manifold Learning)是机器学习中一大类算法的统称,而MDS就是其中非常经典的一种方法.多维标度法(Multidimensional Scaling)是一种在低维空间展示&qu ...
- r语言plotmds_在R语言中使用MDS(多维标度法)
多维标度法(Multidimensional Scaling),是一种维数缩减方法,把高维的数据点映射到一个低维的流形上:同时也是一种可视化方法,实践中通常利用2D或3D的MDS 结果观察(投影后)点 ...
- 多维标度法(MDS,Multidimensional Scaling)及普氏分析(Procrustes Analysis)在人体姿态关节点上的简单示例(python)
多维标度法(MDS,Multidimensional Scaling) 多维标度法一个简单的应用示例就是,已知一组城市之间的相对距离关系(相似矩阵),如何求解出各个城市在地图上的位置,使其尽可能满足前 ...
- 数学建模常用模型18 :多维标度法
给大家安利一款朋友开发的自研国产数据分析基础工具,一键式自动分析,自动生成分析模板,5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM, ...
- 多维标度法MDS古典解的证明与R语言实现
文章目录 写在前面 MDS概念与基本思想 一些基本概念与定义 距离阵 欧式型距离阵 欧式型距离阵判定定理 证明★\bigstar★ 必要性 充分性 MDS古典解计算步骤 R语言实现 方法一:使用内置的 ...
- r语言plotmds_多元统计分析R语言建模| 11 多维标度法MDS
定义:利用客体间相似性数据去解释它们之间的空间关系的统计分析方法 多维变量--二维三维空间表示,标度到低维空间上 种类: 度量化模型:相似性数据游距离.比例尺度测得 非度量化模型:顺序量表(有序)水平 ...
- 用java写MDS多维标度分析(multidimensional scaling )
http://www.inf.uni-konstanz.de/algo/software/mdsj/ 这个网页上有详细的说明 具体的教程什么的等有空再写,也可能不写,看网页应该能看懂 我这里写一个它的 ...
最新文章
- 荣耀:想成功要敢于推翻重来
- 炎症标记物辅助评估银屑病活动度以及依那西普疗效
- java post 提交数据_使用Post方式提交数据到Tomcat服务器的方法
- 学Python从业前景如何?工作机会多吗?
- 关于Linux学习的热身知识六
- 自学python考哪些证书-学Python能挣多少钱?哪些人适合学Python?
- ssh整合之四单独搭建struts的运行环境
- 关于AD7124的应用
- MVPArms实现本现数据缓存
- Rhino.Inside.Revit教程
- MySQL数据分析-(13)表操作补充:索引
- 使用telnet和ssh登录linux
- 儿童发烧、高热,警惕病毒性感冒【程序员爸爸们学着点】
- 显示“Hello World”并转换为语音
- 存储卡 android文件夹,安卓系统下SD卡文件夹功能介绍
- 个人空间的编辑个人资料案例(简单介绍 仅供参考)
- 安全狗云原生安全能力守护中国联通安全发展
- 使用Reactor响应式编程
- 2017第七届中国锁业博览会会刊(参展商名录)
- 联想计算机型号吧,联想电脑型号有几种
热门文章
- bilibili视频信息爬虫
- 对接快递100快递管家API之订单取消接口
- Emacs常用命令快速参考
- 数据分析师不能不知道的5种数据分析方法,解决90%分析难题!
- 硅谷真假u盘测试软件,真正一键装机,U盘装机“大师”名不虚传
- Android之路-路漫漫其修远兮
- 全球及中国食品级椰子油市场销售策略及需求形势分析报告(2022-2027)
- UCM狂热者:从Base方式转移到UCM ClearCase
- 超详细的(视频)人脸情感特征提取教程【Python】
- dcf是ea211发动机吗_ea211发动机优缺点,发动机ea211使用寿命