维数

在处理各种数据集时,维数通常是一个令人困惑的概念。从物理角度看,维度是空间维度:长度、宽度和高度。(为了简单起见,我们不把时间当作第四维度来深入研究物理学。)在任何现实生活的场景中,我们遇到的都不超过这三个维度。

但是,当我们处理用于机器学习的数据时,通常有几十个、数百个甚至更多个维度。为了理解这些高维度,我们需要研究维度的基本性质。

空间维度的定义使得每个维度都与其他两个维度垂直或正交。这种正交性对于三维空间中的所有点都有唯一表示至关重要。如果维度不是互相正交的,则空间中的相同点可以具有多种表示形式,并且基于此的整个数学计算将失败。

例如,如果我们将三个坐标设置为长度、宽度和高度,并具有任意的原点(原点的精确位置仅会更改坐标值,但不会影响唯一性属性,因此只要它在整个计算过程中保持不变,任何原点的选择都是可以的。)

坐标(0,0,0)标记原点本身的位置。坐标(1,1,1)将标记一个点空间,该点空间在每个维度中均距原点1个单位,并且是唯一的。没有其他坐标系可以表示空间中的相同位置。

现在,让我们将这个概念扩展到更高的维度。在数学上添加更多的维度相对容易,但是很难在空间上可视化它们。如果我们添加第四个维度,则它必须与之前的所有三个维度都正交。在这样的四维空间中,原点的坐标为(0,0,0,0)。三维空间中的点(1,1,1)可以在四维空间中具有坐标(1,1,1,0)。

只要确保正交性,就可以保证坐标的唯一性。同样地,我们可以有任意数量的维度,所有的数学计算仍然成立。

就拿鸢尾花数据示例,输入有4个特征:萼片和花瓣的长度和宽度。由于这4个特征相互独立,所以它们可以看作是正交的。因此,当使用鸢尾花数据解决问题时,即依据这四个因素对数据进行分类时,我们实际上是在处理四维输入空间。

维数灾难

即使从数学的角度来看,增加任意数量的维度都是可以的,但是仍然存在一个问题。随着维度的增加,数据的密度呈指数下降。

例如,如果我们在训练数据中有1000个数据点,并且数据具有3个独有的特征。假设所有特征的值在1~10之间。所有这1000个数据点都位于一个大小为10×10×10的立方体中。因此,密度为1000/1000或每单位立方体1个样本。如果有5个独有的特征而不是3个,那么数据的密度很快就会下降到每单位5维立方体0.01个样本。

数据的密度很重要,因为数据的密度越高,找到一个好模型的可能性就越大,模型准确性的置信度就越高。如果密度很低,则使用该数据的训练模型的置信度就会很低。因此,尽管高维在数学上是可以接受的,但是人们需要注意维数,以便能够开发出具有高置信度的良好的机器学习模型。

结语: 在机器学习中的维数可以理解为数据的特征,依据这些维数(特征)进行分类,所以说可以有很多维度,用坐标来表示(0,1,0,1,……)

当数据量一定时,我们要对数据进行分类,即训练出模型(可以理解为一个模型代表一类),当维数越多时,即训练出单个模型所依据的数据变少,即数据密度降低,不利于训练出模型,即是维数危机。

十年脑血栓:

十年脑血栓是几年

哈哈哈,如果你笑了别忘了给个一键三连哟!!!

【每日AI】什么是维数?相关推荐

  1. k 最近邻_k最近邻与维数的诅咒

    k 最近邻 机器学习模型和维数的诅咒 (Machine Learning models and the curse of dimensionality) There is always a trade ...

  2. 维数灾难:都是孤独惹的祸

    全文共2433字,预计学习时长7分钟 图源:unsplash 维数灾难究竟是什么?除了是机器学习术语中让人闻风丧胆的主要实例外,还包括特征数量的增加对数据集的影响.简言之,维数灾难全都与孤独有关. 在 ...

  3. 『每日AI』马化腾丨中国互联网已从C2C进化为KFC!

    关注"Ai时速" 智慧赢未来!  Ai时速  因着Ai的美好:用速度和激情创赢新时代! 职业创业|圈子机会|进化共赢 编辑|小Ai     图文来源 |网络 每日Ai 写在前面 2 ...

  4. 线性空间,线性子空间,基与维数

    索引 集合: V V V 线性空间 ( V , ⊕ , ⊗ ) \left( V,\oplus ,\otimes \right) (V,⊕,⊗) 线性子空间 ( W , ⊕ , ⊗ ) ( W ⊆ V ...

  5. 线代[2]|对极易混淆概念的梳理—线性相关与线性无关、极大线性无关部分组与秩与基础解系、向量空间的基与维数

    原创首发于CSDN,转载请注明出处(CSDN:古希腊的汉密士),谢谢! 文章目录 一般形式的线性方程组 线性相关与线性无关 线性极大无关部分组与秩与基础解系 |齐次线性方程组的解 向量空间的基与维数 ...

  6. 『每日AI』5G新时代丨最先火起来的居然是……

    关注"Ai时速"  智慧赢未来! AI时速|创赢未来 AI时速 因着Ai的美好:用速度和激情创赢Ai时代! 职业创业|圈子机会|进化共赢 编辑|小Ai     图文来源 |网络 每 ...

  7. c语言中二维数组中维数的计算,数组指针字符串C语言程序设计-第4章.ppt

    <数组指针字符串C语言程序设计-第4章.ppt>由会员分享,可在线阅读,更多相关<数组指针字符串C语言程序设计-第4章.ppt(132页珍藏版)>请在人人文库网上搜索. 1.程 ...

  8. 分类问题中的“维数灾难” - robotMax

    分类问题中的"维数灾难" - robotMax 在看机器学习的论文时,经常会看到有作者提到"curse of dimensionality",中文译为" ...

  9. 2020百度云秀最新成绩单,AI Cloud活跃客户数同比去年增长65%

    12月17日,"ABC SUMMIT 2020百度云智峰会"在北京举行.大会以"智者先行"为主题,百度CTO王海峰展现了518新战略后百度智能云取得的最新成绩和 ...

  10. 解决softmax后列和不为1的bug记录 :问题原因为 s为1维的,来除torch.exp(x)(64x10)时候,维数不对应,需要将s也要转换为2维的即维数为(64x1),才可以广播按行对应相除

    def softmax(x):     ## TODO: Implement the softmax function here     #print("torch.exp(x)=" ...

最新文章

  1. 素数问题是物质的几何学问题
  2. 启动马达接线实物图_电工知识:三相电机正反转的完整接线,实物讲解,原理分析...
  3. SFTP连接GCP,向服务器发送文件方法,第三方工具生成密钥对连接GCP服务器(putty生成密钥远程连接服务器)...
  4. Django与CSRF 、AJAX
  5. java 自定义注解获取_Java自定义注解
  6. 北京人文计算机学院,北京人文大学计算机信息工程学院举行元旦晚会
  7. Spring Boot 配置随机数技巧
  8. 开启 ASA 5505 snmp协议
  9. camera驱动电源配置_电源行业发展前景如何?
  10. c 子类对象 访问父类对象受保护成员_面向对象三大特征: 继承
  11. python isinstance(object, classinfo)
  12. 网易云音乐歌曲带时间轴歌词的提取
  13. 第20节 简单密码破解—基于windows系统
  14. vnc远程控制软件,五款良心推荐的vnc远程控制软件
  15. configmapsecrets基本操作
  16. 假设检验:使用p值来接受或拒绝你的假设
  17. 【翻译论文】Understanding Reuse, Performance, and Hardware Cost of DNN......
  18. CodeForces 878 简要题解
  19. “懂行人”加码远程医疗建设,陕西省人民医院用科技打破时空限制
  20. Unity2D学习笔记Day14:靠近门时弹出对话框并播放录制动画

热门文章

  1. QT实现串口调试助手(三):保存日志、QSS样式载入
  2. 【2021】IOS证书(.p12)和描述文件(.mobileprovision)申请
  3. 强化学习读书笔记(一)
  4. 支付宝APP参数SDK转换URL网页链接
  5. iOS小知识: 使用bugly上报自定义错误信息进行数据监控
  6. 颠覆大数据分析之Storm的设计模式
  7. 祝萍:后疫情时代,医美运营既要走心也要反套路
  8. 【分享】“钉钉自建“在集简云平台集成应用的常见问题与解决方案
  9. h3c服务器系统丢失,某局点H3C FlexServer R390服务器阵列失败数据丢失的经验案例...
  10. 搜狗输入法5.0正式版发布 首创云计算输入