文章目录

  • 1. 目标一:数据压缩
  • 2. 目标二:数据可视化

1. 目标一:数据压缩

第二种类型的无监督学习问题,称为降维。有几个不同的的原因可能想要做降维。一是数据压缩,数据压缩不仅允许压缩数据,它也加快学习算法。

作为一种生动的例子,收集的数据集有许多特征:

假设未知两个的特征: x 1 x_1 x1​:长度:用厘米表示; x 2 x_2 x2​:是用英寸表示同一物体的长度。

所以,这给了高度冗余表示,也许不是两个分开的特征 x 1 x_1 x1​和 x 2 x_2 x2​,这两个基本的长度度量,也许想要做的是减少数据到一维,只有一个数测量这个长度。这个例子似乎有点做作,这里厘米英寸的例子实际上不是那么不切实际的,两者并没有什么不同。

  1. 将数据从二维降至一维:
    假使要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,希望将测量的结果作为机器学习的特征。现在的问题的是,两种仪器对同一个东西测量的结果不完全相等(由于误差、精度等),而将两者都作为特征有些重复,因而,希望将这个二维的数据降至一维。

从这件事情看到的东西发生在工业上的事。如果有几百个或成千上万的特征,往往容易失去需要的特征。有时可能有几个不同的工程团队,也许一个工程队给你二百个特征,第二工程队给你另外三百个的特征,第三工程队给你五百个特征,一千多个特征都在一起,它实际上会变得非常困难,去跟踪你知道的那些特征,你从那些工程队得到的。其实不想有高度冗余的特征一样。

  1. 将数据从三维降至二维:
    这个例子中要将一个三维的特征向量降至一个二维的特征向量。过程是与上面类似的,将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征向量。

这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维。
.

2. 目标二:数据可视化

在许多及其学习问题中,如果能将数据可视化,便能寻找到一个更好的解决方案,降维可以做到。

假使有关于许多不同国家的数据,每一个特征向量都有50个特征(如GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的。使用降维的方法将其降至2维,便可以将其可视化了。

这样做的问题在于,降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去发现了。

降维 (Dimensionality Reduction)相关推荐

  1. 机器学习Machine Learning:特征选择Feature Selection 与 数据降维Dimension Reduction的区别?

    为什么会有降维和特征选择??? 我们知道机器学习的终极目标就是为了预测,当然预测前我们要对数据进行训练.通常我们不会拿原始数据来训练,为什么呢?可能有些人觉得原始信息(original data)包含 ...

  2. 文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction

    学习笔记,仅供参考,有错必究 关键词:子空间聚类,降维,主成分分析,贝叶斯信息准则,k-centroids VARCLUST: clustering variables using dimension ...

  3. An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi...

    An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi... ...

  4. Dimensionality Reduction

    Dimensionality Reduction --Hands-on Machine Learning with Scikit-Learn and TensorFlow -Chapter 8 Int ...

  5. Dimensionality Reduction - Principle Component Analysis problem formulation

    摘要: 本文是吴恩达 (Andrew Ng)老师<机器学习>课程,第十五章<降维>中第117课时<主成分分析问题规划>的视频原文字幕.为本人在视频学习过程中记录下来 ...

  6. [论文翻译]A Global Geometric Framework for Nonlinear Dimensionality Reduction

    论文题目:A Global Geometric Framework for Nonlinear Dimensionality Reduction 论文来源:Science 290, 2319 (200 ...

  7. Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos

    Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos ...

  8. 【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping

    1.背景 对比学习算是比较早就已经提出了一种技术.其中,早期比较有名的一篇文章就是Lecun等在<Dimensionality Reduction by Learning an Invarian ...

  9. 【论文翻译】:Nonlinear Dimensionality Reduction by Locally Linear Embedding

    [论文题目]:Nonlinear Dimensionality Reduction by Locally Linear Embedding [论文来源]:Nonlinear Dimensionalit ...

最新文章

  1. 如何在Java 环境下使用 HTTP 协议收发 MQ 消息
  2. Python 之路 Day5 - 常用模块学习
  3. apache http server 停止工作_配置nginx,Apache支持pathinfo模式-什么是phpinfo模式
  4. 商品详情及规格参数的渲染
  5. python爬虫循环表格xpath_python爬虫数据解析之xpath
  6. php mysql 非空_PHP-为什么mysql接受非空字段为null
  7. 对select into表复制的一点思考
  8. 【POJ2796】Feel Good (简单单调栈)
  9. 南京林业大学计算机考研资料,2021南京林业大学考研历年真题复习资料
  10. 常见算法的英文命名(排序、查找)
  11. 加密公司如何获得硅谷传奇风投a16z的青睐
  12. 基于JavaWeb医疗管理系统的开发与实现
  13. win10系统许可证即将过期的解决方法
  14. K9F1G08U0B K9F2G08U0A K9F2G08U0M
  15. 【ES6】阮一峰ES6学习(四) 对象的扩展
  16. 基金知识汇总和实战经验分享
  17. 《Python程序设计》——第1章 计算与问题求解简介 1.1 计算与Python简介
  18. 关于golang的http库及常用库
  19. Mysql explain 详细用法
  20. 腾讯云服务器从购买到配置详细内容

热门文章

  1. push(array)和push([...array])的区别和联系
  2. 概率图几种模型的简介和比较
  3. Uboot 编译问题-“xxx aliased to external symbol xxx”
  4. Android消息提醒
  5. Golang处理excel用流式写入,追加行数据
  6. VSCode 代码格式化的快捷键
  7. java数据类型图:
  8. JAVA数据类型笔记
  9. win 10 下matlab 7 运行不了,弹出警告,完美解决方案
  10. 【机器学习】机器学习的基本概念/术语2