原文链接:http://tecdat.cn/?p=5354

维度的诅咒是一种现象,即数据集维度的增加导致产生该数据集的代表性样本所需的指数级更多的数据。 为了对抗维度的诅咒,已经开发了许多线性和非线性降维技术。这些技术旨在通过特征选择或特征提取来减少数据集中维度(变量)的数量, 而不会显着丢失信息。特征提取是将原始数据集转换为维数较少的数据集的过程。两个众所周知的,密切相关的特征提取技术是主成分分析(PCA)和自组织映射(SOM)。人们可以把降维作为一个渡槽系统来理解数据的河流。

主成分分析(PCA)

主成分分析(PCA)是一种统计算法,用于将一组可能相关的变量转换为一组称为主成分的变量的不相关线性重组。简而言之,主要组成部分,ÿ,是我们数据集中变量的线性组合, X,那里的权重, ËĴŤ是从我们的数据集的协方差或相关矩阵 的特征向量导出的。

第一个主要成分是使数据点距离的平方和最小的直线。它是单行数据集的最小二乘逼近。因此,第一个主要组成部分解释了数据集的最高变异量。然后从数据集中提取残差并计算下一个主成分。如此,每个连续的部件解释较少的方差,从而从中减少了变量的个数 X, 米,主要组件的数量, ķ。在使用PCA时存在一些挑战。从而从中减少了变量的个数 X, 米,主要组件的数量, ķ。在使用PCA时存在一些挑战。首先,该算法对数据集中变量的大小敏感,因此建议采用平均中心,而采用相关矩阵X因为它是正常化的。 PCA的另一个挑战是它本质上是线性的。PCA的非线性适应包括非线性PCA和内核PCA。

自组织映射(SOM)

自组织映射(SOMs)最初是由Kohonen在20世纪90年代中期发明的,有时也被称为Kohonen Networks。SOM是一种多维缩放技术,它构建了一些底层数据集的概率密度函数的近似值,X,这也保留了该数据集的拓扑结构。

这是通过映射输入向量来完成的, X一世在数据集中, X,权重矢量, w ^Ĵ,特征地图中的(神经元) w ^。保留拓扑结构简单地意味着如果两个输入向量靠近在一起X,那些输入向量映射到的神经元 w ^也将紧密结合在一起。这是SOM的特点。

如果SOM中的神经元数量少于数据集中的模式数量,那么我们将降低数据集的维数...而不是输入或权向量的维数。因此,由SOM执行的维度降低的类型与由PCA执行的降维类型不同,并且SOM实际上更类似于诸如K均值聚类的 聚类算法。

然而,SOM和聚类的区别在于数据集的聚类将(一般来说)保留数据集的概率密度函数,而不是数据集的拓扑结构。这使SOM特别有用于可视化。通过定义一个将给定权向量转化为颜色的次函数,我们能够将底层数据集的拓扑结构,相似性和概率密度函数可视化为一个较低的维数(通常是两维因为网格)。

PCA的应用

“Weka是数据挖掘任务的机器学习算法集合,它可以直接应用于数据集,也可以从您自己的Java代码中调用.Weka包含数据预处理,分类,回归,聚类,关联规则,可视化,也非常适合开发新的机器学习方案。“ [ 来源 ]

WEKA中的一个特性是选择属性和降维的工具。其中一个支持的算法是主成分分析。本示例将PCA应用于包含12个相关技术指标的.CSV文件。冗余是导致模型(特别是机器学习模型)过度拟合的数据质量之一。

相关矩阵技术指标

如果我们把它加载到WEKA中,我们将看到数据集的一些基本的描述性统计,包括每个变量(技术指标)的直方图,以及它们的最小值,最大值,平均样本统计量和标准差样本统计量。

在选择属性选项卡中,选择主要组件属性评估器,WEKA将自动选择排序器搜索方法。

点击开始后,WEKA提取前五个主要组件。可以看出,前三个主成分与收盘价的相关系数分别为0.6224,0.3660和0.1643。知道PCA,这三个组成部分是不相关的,理论上至少应包含有关指数运动的不同信息。

拓端tecdat|维度规约(降维)算法在WEKA中应用相关推荐

  1. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  2. 拓端tecdat荣获2022年度51CTO博主之星

    相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...

  3. 拓端tecdat|bilibili视频流量数据潜望镜

    最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...

  4. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  5. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  6. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  7. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  8. 机器学习——经典降维算法与框架综述

    目录​​​​​​​ 综述 一.介绍 二. 降维算法回顾 1.KNN 1.1 KNN核心思想 1.2 KNN算法流程 1.3 KNN算法优缺点 2.线性降维 (1)PCA 2.1.1 PCA简介 2.1 ...

  9. 什么是维度诅咒?如何评估降维算法在当前任务数据集上的效果?

    什么是维度诅咒?如何评估降维算法在当前任务数据集上的效果? 什么是维度诅咒? 随着维数(或特征)个数的增加,任意两个样本或者实例之间的平均距离也会增加,换句话说,在高维空间中,实例往往位于空间的边缘. ...

  10. 维度打击,机器学习中的降维算法 ISOMAP MDS

    降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用. 一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习 ...

最新文章

  1. 东华计算机学院常珊,常姗 - 东华大学 - 计算机科学与技术学院
  2. NOI入门级:算法之动态规划
  3. 计算机视觉 | Python OpenCV 3 使用背景减除进行目标检测
  4. 手写数字阅读器用户界面
  5. 音频处理入门笔记(技术英文缩写)
  6. 创建数据账号只有个别表的权限_创建MySQL用户 赋予某指定库表的权限
  7. 卫星轨道的估计问题(Matlab)(一):理论基础
  8. 多功能笔记工具Notability创建甜甜圈图案的趣味教程
  9. windows以G为单位整数分区公式(精准)
  10. 牛课-跳跃游戏1,2,3
  11. C#实现的基于SMTP协议的E-MAIL电子邮件发送客户端软件
  12. python 分词 词性_分词及词性标注
  13. 编程题a ~ y的25个字母,从1位到4位的编码,输出这个编码对应的Index
  14. 中国医疗器械行业需求态势及未来前景趋势预测报告(2022-2027年)
  15. Recurrent Filter Learning for Visual Tracking(RFL)论文笔记
  16. easyui之combo控件分析
  17. matlab常见符号运算(计算导数,积分、符号求和等))
  18. c# 计算圆锥的体积_求帮忙写一道c#题目 :编写一个c#程序计算球、圆柱和圆锥的表面积和体积。...
  19. Java小游戏——贪吃蛇
  20. 判断三极管是否是NPN与PNP,并判断EBC

热门文章

  1. Tcpdump源码分析系列4:main函数继续研究
  2. 一个用python写的从数字高程格式文件(DEM)中提取水系的模块
  3. Glib实例学习(1)单链表
  4. 【超参数】深度学习中 number of training epochs,iteration,batch-size
  5. Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇)
  6. double类型数据保留四位小数的另一种思路
  7. IE11 0x2ee4 bug 以及类似问题解决方法
  8. 【机器学习笔记之八】使用朴素贝叶斯进行文本的分类
  9. 【BZOJ 1491】 [NOI2007]社交网络
  10. 配置Outlook连接Exchange