文章目录

  • 1.为什么要数据降维?
  • 2.为什么能数据降维?
  • 3.SVD(奇异值分解)
  • 4.SVD进行降维
  • 5.SVD降维的特点
  • 6.CUR分解

1.为什么要数据降维?

  • 海量数据太大,不得不降维
  • 可以使简单的模型运算的更快,更容易理解,更容易维护
  • 优质的降维数据可以在使用不是最优的模型参数的情况下得到不错的预测结果

2.为什么能数据降维?


可以假设,数据实际上是存在或者靠近一个低维子空间中,子空间的坐标轴能够有效地表达这个数据。

  • 可以复习下矩阵的秩

    第三行可以用第一行减去第二行得到,因此第三行就可以变换为0,秩就为2。

3.SVD(奇异值分解)


将矩阵A变为三个矩阵相乘,下图表示出来更加形象。

SVD的性质

对于一个用户看电影的例子来说:

U:用户-主题的相似矩阵,
T:电影主题 的相似矩阵,
∑:其对角元素是每一个主题的强度

4.SVD进行降维

SVD怎么进行降维?能够精确到什么程度?
把 ∑ 中最小的奇异值设为0。


弗罗宾尼斯范数就是表示的两个矩阵的差值的大小。

会发现SVD和PCA的推导很相似

5.SVD降维的特点

  • 奇异向量:每一个奇异向量是所有输入矩阵的行向量或列向量的线性组合
  • 奇异向量是稠密的

6.CUR分解



SVD与CUR对比

海量高维数据与纬度约减相关推荐

  1. 余弦相似度 高维数据_海量高维数据与近似最近邻

    在实际工程当中,我们常常会遇到海量的数据,那作为一个数据挖掘准从业人员,如何从海量的数据当中挖掘出他们数据之间的关系和规律就显得尤为重要了. 今天我要讲的时海量高维数据及其近似最近邻方案. K-近邻算 ...

  2. 高维数据降维 国家自然科学基金项目 2009-2013 NSFC Dimensionality Reduction

    2013 基于数据降维和压缩感知的图像哈希理论与方法 唐振军 广西师范大学 多元时间序列数据挖掘中的特征表示和相似性度量方法研究 李海林 华侨大学       基于标签和多特征融合的图像语义空间学习技 ...

  3. 【NumPy】NumPy约减的轴的方向

    文章目录 约减 约减方向(垂直.水平) 求和 其他函数 完整代码 约减 约减:表示将众多数据按照某种规则合并成一个或几个数据. 约减之后,数据的个数在总量上是减少的. 在这里,"约减&quo ...

  4. NKCorpus:利用海量网络数据构建大型高质量中文数据集

    摘要 [目的]大规模.高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取.文本清洗.数据去重等 ...

  5. 机器学习:维数约减算法PCA(主成分分析法)原理、实现与应用

    文章目录 算法目标 预处理 算法过程 逆过程 主成分数kkk的选取 应用 算法目标 PCA的目标就是实现维数约减,即在尽可能保留信息的同时减少数据的维度.通过维数约减,我们可以实现数据压缩节省存储空间 ...

  6. Coursera机器学习(Andrew Ng)笔记:无监督学习与维度约减

    无监督学习与维度约减 机器学习初学者,原本是写来自己看的,写的比较随意.难免有错误,还请大家批评指正!对其中不清楚的地方可以留言,我会及时更正修改 Unsupervised learning & ...

  7. 基于Hash算法的高维数据的最近邻检索

    一.摘要 最紧邻检索:一种树基于树结构,一种是基于hash a.随机投影算法,需要产生很多哈希表,才能提高性能. b.基于学习的哈希算法在哈希编码较短时候性能不错,但是增加编码长度并不能显著提高性能. ...

  8. 基于云上分布式NoSQL的海量气象数据存储和查询方案

    前言 气象数据是一类典型的大数据,具有数据量大.时效性高.数据种类丰富等特点.气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到 ...

  9. 基于HBase+ ElasticSearch的海量交通数据实时存取方案设计

    董长青,任女尔,张庆余,田玉靖 北京卡达克数据技术中心软件业务本部,天津 300300 摘要:交通流数据具有数据海量.存储和交互速率快等特征,因此其数据的采集.存储及检索成为了车辆远程监控平台中的关键 ...

  10. BMap添加海量点数据,BMap.Point携带数据

    在开发web项目的过程中使用到了百度地图,由于要在地图中画出很多点比较影响加载速度,查看官方文档,发现有提供加载海量点的功能BMap.PointCollection,用这个加快速度,但是官方文档中提供 ...

最新文章

  1. 链表问题12——将单链表的每K个节点之间逆序
  2. MultipartFile类常用的一些方法
  3. Hadoop学习之以伪分布模式部署Hadoop及常见问题
  4. 能源15A1,A2燃烧学期末试题2018-01-02
  5. 最小二乘法原理及极值点判定
  6. oh-my-zsh 国内网络快速安装方法 | How to install oh-my-zsh in China
  7. python 可执行文件_如何通过Python函数运行的可执行文件的终端...
  8. java之NIO(Channel,Buffer,Selector)
  9. 使用nagios监控某进程的运行状态
  10. mysql双机热备 读写分离_轻松搭建MySQL主从复制、读写分离双机热备)
  11. 网络机顶盒固件提取、编辑和打包
  12. 有一个程序员男朋友是什么样的体验?
  13. php 实现信息采集(网页内容抓取)程序代码
  14. 利用Matlab将图片转换成素描(简笔画)风格
  15. Codeforces 718E.Matvey's Birthday dp+状态压缩
  16. 爬壁机器人外文文献_自动化专业外文翻译--Alicia3爬壁机器人的粘着控制
  17. Linux下搭建第一个区块链网络(FISCO BCOS)
  18. AutoCAD 2010中文版从入门与精通视频教程
  19. 使用 pdb 进行调试
  20. FTP登录时一直弹出登录窗口,就算输入正确的账号密码也不能登录

热门文章

  1. 利用wcf传递字节的简单例子
  2. 第11章 连接查询和分组查询
  3. Cesium.js学习第二天(立方体)
  4. 线性代数的本质与几何意义 01. 向量是什么?(3blue1brown 咪博士 图文注解版)
  5. 平均值的最值化 - 二分
  6. poj 1905 Expanding Rods (数学 计算方法 二分)
  7. 人工智能与深度学习实战(4)——口罩佩戴识别(CNN)
  8. LeetCode【119. 杨辉三角 II】
  9. Python学习之路-22 (面向对象特殊成员)
  10. mybatis---知识点复习