一个特性:低维(特征少)转向高维的过程中,样本会变的稀疏(可以有两种理解方式:1.样本数目不变,样本彼此之间距离增大。2.样本密度不变,所需的样本数目指数倍增长)。

高维度带来的影响:

1.变得可分。

由于变得稀疏,之前低维不可分的,在合适的高维度下可以找到一个可分的超平面。

2.过拟合风险。

过高维度会带来过拟合的风险(会学习到数据集中的特例或异常,对现实测试数据效果较差)。增加维度的线性模型等效于低维空间里较复杂的非线性分类器。

3.需要更多训练数据。我们需要更多的训练数据进行参数估计。

4.过高维度会让分类变难。

高维下数据更多分布在空间角落(因为单位球占单位立方体下的空间比例随着维度增加,越来越小。处于单位球内的可以看出靠近中心),而角落处的特征更难分,因为距离更大。

5.高维度中用距离来衡量样本相似性的方法已经渐渐失效。

(几乎所有的高维空间都远离其中心,任意两点的距离会趋向收敛,意思是任意两点的最大距离和最小距离会变为相同。因此基于欧式距离的k-means算法,会无法进行聚类(因为距离会趋于收敛)。而K-NN会的临近K个点中,会出现更多非同类的点(远多于低维度的情况)。)

转载于:https://www.cnblogs.com/dingz/p/9029395.html

对The Curse of Dimensionality(维度灾难)的理解相关推荐

  1. 深度学习:维度灾难(Curse Of Dimensionality)

    深度学习:维度灾难 维度灾难的几何意义 补充说明 (r 如果大于1) 维度灾难于过拟合的关系 缓解方法 维度灾难的几何意义 假设有一个正方形,边长为1,那么面积为1 * 1. 正方形的内接圆的边长为0 ...

  2. 如何正确理解维度灾难

    一.前言   博主最近在学习机器学习的PCA降维算法的时候,对于维度灾难和特征稀疏有了新的认识.这篇文章主要讲解什么是维度灾难,并从几何的角度来对其进行形象的解释. 二.维度灾难的概念   维度灾难( ...

  3. 维度灾难 维数灾难 暂记

    距离度量问题 对于基于距离的模型KNN,K-means来说.需要有效的降维,或者大量数据的训练,发现数据的低维流形空间. Theorem[Beyer et al.99]:Fix ϵ\epsilonϵ ...

  4. ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality

    Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒 6. Mitigating the Curse of Dimensionality 减轻维度诅 ...

  5. 02 聚类算法 - 相似度距离公式、维度灾难

    聚类就是对__大量未知标注__的数据集,按照数据__内部存在的数据特征__将数据集划分为__多个不同的类别__,使__类别内的数据比较相似__,__类别之间的数据相似度比较小__. 聚类算法的重点是计 ...

  6. 机器学习中的维度灾难

    红色石头的个人网站:redstonewill.com 一.介绍 本篇文章,我们将讨论所谓的"维度灾难",并解释在设计一个分类器时它为何如此重要.在下面几节中我将对这个概念进行直观的 ...

  7. python standardscaler_教你用python一步步解决“维度灾难”

    全文共7016字,预计学习时长40分钟或更长 现代科技时代产生和收集的数据越来越多.然而在机器学习中,太多的数据可不是件好事.某种意义上来说,特征或维度越多,越会降低模型的准确性,因为需要对更多的数据 ...

  8. Tensorflow张量和维度概念的理解

    Tensorflow张量和维度概念的理解 理解tensorflow张量的概念:张量就是一个数据存储容器,一种数据结构,是人为定义的.因为在计算机内存中哪里有什么2维空间3维空间,都是一块块连续的内存区 ...

  9. 关于维度建模,事实表和维度维度表的理解

    以下是我个人对于维度建模的理解. 列: 有一个xx门店,在上午十点,a员工向b客户卖出了一条 项链,金额为500元. 这个过程就是什么人在什么时间什么地点做了什么事情. 首先确定业务主题,关于销售的业 ...

最新文章

  1. 五分钟搞懂MySQL索引下推
  2. HDU 3062 Party(2-sat题模板+tarjan )
  3. mybatis简单案例源码详细【注释全面】——前期准备
  4. 韩顺平php视频笔记38-41 php数据类型(部分)
  5. python tkinter button_更改Python中Tkinter Button的命令方法
  6. Spring源码分析之ProxyFactoryBean方式实现Aop功能的分析
  7. 农场管理软件行业调研报告 - 市场现状分析与发展前景预测
  8. 字典攻击——彩虹表攻击与防御
  9. 【转】 精密贴片电阻阻值对照表
  10. 11月全国程序员平均工资出炉,网友:我丢了同行的脸
  11. 全屋Wi-Fi:一个谁也解决不好的痛点?
  12. android 系统 安卓8,安卓系统竟可以这么流畅!最快Android 8.0来了
  13. PS工作记录——图片元素复制,智能抠图
  14. 强化学习 - Deep RL开源项目总结
  15. 想玩 NAS? 群晖NAS 的选购 配件搭配以及硬盘 RAID指南
  16. VC中用代码移动CDockPane的位置
  17. 索尼相机摄像机断电MP4视频无XML文件数据恢复修复方法
  18. Godaddy服务器 部署免费SSL证书
  19. python图像处理-形状提取和识别1(基于Hough的形状提取)
  20. 如何使用双线性变换法将模拟电路滤波器设计成为数字滤波器?

热门文章

  1. linux系统如何查看是否是线程死锁,多线程中如何使用gdb精确定位死锁问题
  2. 中业科技机器人价格_2019年年中盘点:智能扫地机器人十大畅销品牌排名
  3. stm32f7linux,STM32F7串口5初始化失败
  4. idea编译的文件怎么用cmd打开_JAVA学习册|基础语法|cmd输出HelloWorld
  5. 平板电脑安装软件_概述嵌入式工业平板电脑的安装方法和注意事项!
  6. shiro session 设置取不到_SpringCloud+shiro+前后端分离
  7. python 只能将最后一行写入excel_Python 应用 办公自动化之 Excel(上)
  8. java中的md5加密_java中的MD5加密
  9. linux 下orapwd 未找到命令,关于orapwd命令entries参数的探究
  10. python数学公式代码导入_NumPy 数学函数及代数运算的实现代码