对The Curse of Dimensionality(维度灾难)的理解
一个特性:低维(特征少)转向高维的过程中,样本会变的稀疏(可以有两种理解方式:1.样本数目不变,样本彼此之间距离增大。2.样本密度不变,所需的样本数目指数倍增长)。
高维度带来的影响:
1.变得可分。
由于变得稀疏,之前低维不可分的,在合适的高维度下可以找到一个可分的超平面。
2.过拟合风险。
过高维度会带来过拟合的风险(会学习到数据集中的特例或异常,对现实测试数据效果较差)。增加维度的线性模型等效于低维空间里较复杂的非线性分类器。
3.需要更多训练数据。我们需要更多的训练数据进行参数估计。
4.过高维度会让分类变难。
高维下数据更多分布在空间角落(因为单位球占单位立方体下的空间比例随着维度增加,越来越小。处于单位球内的可以看出靠近中心),而角落处的特征更难分,因为距离更大。
5.高维度中用距离来衡量样本相似性的方法已经渐渐失效。
(几乎所有的高维空间都远离其中心,任意两点的距离会趋向收敛,意思是任意两点的最大距离和最小距离会变为相同。因此基于欧式距离的k-means算法,会无法进行聚类(因为距离会趋于收敛)。而K-NN会的临近K个点中,会出现更多非同类的点(远多于低维度的情况)。)
转载于:https://www.cnblogs.com/dingz/p/9029395.html
对The Curse of Dimensionality(维度灾难)的理解相关推荐
- 深度学习:维度灾难(Curse Of Dimensionality)
深度学习:维度灾难 维度灾难的几何意义 补充说明 (r 如果大于1) 维度灾难于过拟合的关系 缓解方法 维度灾难的几何意义 假设有一个正方形,边长为1,那么面积为1 * 1. 正方形的内接圆的边长为0 ...
- 如何正确理解维度灾难
一.前言 博主最近在学习机器学习的PCA降维算法的时候,对于维度灾难和特征稀疏有了新的认识.这篇文章主要讲解什么是维度灾难,并从几何的角度来对其进行形象的解释. 二.维度灾难的概念 维度灾难( ...
- 维度灾难 维数灾难 暂记
距离度量问题 对于基于距离的模型KNN,K-means来说.需要有效的降维,或者大量数据的训练,发现数据的低维流形空间. Theorem[Beyer et al.99]:Fix ϵ\epsilonϵ ...
- ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality
Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒 6. Mitigating the Curse of Dimensionality 减轻维度诅 ...
- 02 聚类算法 - 相似度距离公式、维度灾难
聚类就是对__大量未知标注__的数据集,按照数据__内部存在的数据特征__将数据集划分为__多个不同的类别__,使__类别内的数据比较相似__,__类别之间的数据相似度比较小__. 聚类算法的重点是计 ...
- 机器学习中的维度灾难
红色石头的个人网站:redstonewill.com 一.介绍 本篇文章,我们将讨论所谓的"维度灾难",并解释在设计一个分类器时它为何如此重要.在下面几节中我将对这个概念进行直观的 ...
- python standardscaler_教你用python一步步解决“维度灾难”
全文共7016字,预计学习时长40分钟或更长 现代科技时代产生和收集的数据越来越多.然而在机器学习中,太多的数据可不是件好事.某种意义上来说,特征或维度越多,越会降低模型的准确性,因为需要对更多的数据 ...
- Tensorflow张量和维度概念的理解
Tensorflow张量和维度概念的理解 理解tensorflow张量的概念:张量就是一个数据存储容器,一种数据结构,是人为定义的.因为在计算机内存中哪里有什么2维空间3维空间,都是一块块连续的内存区 ...
- 关于维度建模,事实表和维度维度表的理解
以下是我个人对于维度建模的理解. 列: 有一个xx门店,在上午十点,a员工向b客户卖出了一条 项链,金额为500元. 这个过程就是什么人在什么时间什么地点做了什么事情. 首先确定业务主题,关于销售的业 ...
最新文章
- 五分钟搞懂MySQL索引下推
- HDU 3062 Party(2-sat题模板+tarjan )
- mybatis简单案例源码详细【注释全面】——前期准备
- 韩顺平php视频笔记38-41 php数据类型(部分)
- python tkinter button_更改Python中Tkinter Button的命令方法
- Spring源码分析之ProxyFactoryBean方式实现Aop功能的分析
- 农场管理软件行业调研报告 - 市场现状分析与发展前景预测
- 字典攻击——彩虹表攻击与防御
- 【转】 精密贴片电阻阻值对照表
- 11月全国程序员平均工资出炉,网友:我丢了同行的脸
- 全屋Wi-Fi:一个谁也解决不好的痛点?
- android 系统 安卓8,安卓系统竟可以这么流畅!最快Android 8.0来了
- PS工作记录——图片元素复制,智能抠图
- 强化学习 - Deep RL开源项目总结
- 想玩 NAS? 群晖NAS 的选购 配件搭配以及硬盘 RAID指南
- VC中用代码移动CDockPane的位置
- 索尼相机摄像机断电MP4视频无XML文件数据恢复修复方法
- Godaddy服务器 部署免费SSL证书
- python图像处理-形状提取和识别1(基于Hough的形状提取)
- 如何使用双线性变换法将模拟电路滤波器设计成为数字滤波器?
热门文章
- linux系统如何查看是否是线程死锁,多线程中如何使用gdb精确定位死锁问题
- 中业科技机器人价格_2019年年中盘点:智能扫地机器人十大畅销品牌排名
- stm32f7linux,STM32F7串口5初始化失败
- idea编译的文件怎么用cmd打开_JAVA学习册|基础语法|cmd输出HelloWorld
- 平板电脑安装软件_概述嵌入式工业平板电脑的安装方法和注意事项!
- shiro session 设置取不到_SpringCloud+shiro+前后端分离
- python 只能将最后一行写入excel_Python 应用 办公自动化之 Excel(上)
- java中的md5加密_java中的MD5加密
- linux 下orapwd 未找到命令,关于orapwd命令entries参数的探究
- python数学公式代码导入_NumPy 数学函数及代数运算的实现代码