拓端tecdat|R语言 PCA(主成分分析),CA(对应分析)夫妻职业差异和马赛克图可视化
原文链接:http://tecdat.cn/?p=22762
原文出处:拓端数据部落公众号
主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目,与因子分析类似。
所谓降维,就是把具有相关性的变量数目减少,用较少的变量来取代原先变量。如果原始变量互相正交,即没有相关性,则主成分分析没有效果。
对应分析(CA)是适用于分析由两个定性变量(或分类数据)形成的大型应变表的主成分分析的扩展。本文通过析取主成分来分析夫妻职业的个别差异。
夫妻职业数据
考虑以下数据,对应于一对夫妻中的职业。我们有以下的频数表
read.table(data.csv",header=TRUE)
传统上,对于这种数据,我们习惯于使用卡方检验,卡方距离,以及卡方贡献来查看数据的差异性
chisq.test(M)
马赛克图
Mosaic plot常常用来展示Categorical data(分类数据)(关于不同的数据类别,mosaic plot 强大的地方在于它能够很好的展示出2个或者多个分类型变量(categorical variable)的关系. 它也可以定义为用图像的方式展示分类型数据。
当变量是类别变量时,且数目多于三个的时候,可使用马赛克图。马赛克图中,嵌套矩阵面积正比于单元格频率,其中该频率即多维列联表中的频率。颜色和阴影可表示拟合模型的残差值。
我们可以将其结果用马赛克图来形象化。
plot(tM)
丈夫在行中,妻子在列中。重要的联系是蓝色或红色,这两种颜色分别对应于 "正 "联系(比独立情况下的联合概率高)或 "负 "联系(比独立情况下的联合概率低)。
在另一个方向
plot(M)
但结论与之前一样:对角线上有很强的蓝色数值。
换句话说,这些夫妻在职业方面是相对相似和单一的。
主成分分析和对应分析
在对应分析中,我们查看概率表,在行或列中。例如,我们可以定义行,它是概率向量
N/apply(N,1,sum)
注意到 ,我们可以写出
我们的线向量的重心在这里
同样,注意到 , 我们可以用矩阵的方式来写, .
L0=(t(L)-Lbar)
对于每一个点,我们都将(相对)频率作为权重进行关联,这相当于使用矩阵 。为了测量两点之间的距离,我们将通过概率的倒数对欧氏距离进行加权, 。两条线之间的距离是
然后我们将用这些不同的权重做主成分分析。从矩阵的角度来看
我们注意到特征向量,我们定义了主成分
对线条的前两个成分的投影,在此给出了
PCA(L0,scal=FALSE
我们的想法是将对应于行的个体进行可视化。在第二步中,我们做相同的事情,在列中
N/apply(N,2,sum))
中心:
C0=C-Cbar
主成分分析
然后我们可以做一个主成分分析
PCA(matC0
看个人的可视化。
对应分析
对应分析的奇妙之处在于,我们 "可以 "在同一平面上表示个人的两个投影。
> plot(C[,1:2])
结果如下
> afc=CA(N)
最受欢迎的见解
1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)
2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析
3.主成分分析(PCA)基本原理及分析实例
4.基于R语言实现LASSO回归分析
5.使用LASSO回归预测股票收益数据分析
6.r语言中对lasso回归,ridge岭回归和elastic-net模型
7.r语言中的偏最小二乘回归pls-da数据分析
8.r语言中的偏最小二乘pls回归算法
9.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
拓端tecdat|R语言 PCA(主成分分析),CA(对应分析)夫妻职业差异和马赛克图可视化相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- R语言PCA主成分分析(Principle Component Analysis)实战2
R语言PCA主成分分析(Principle Component Analysis)实战2 目录 R语言PCA主成分分析(Principle Component Analysis)实战2 #案例分析
- R语言PCA主成分分析(Principle Component Analysis)与线性回归结合实战
R语言PCA主成分分析(Principle Component Analysis)与线性回归结合实战 目录 R语言PCA主成分分析(Principle Component Analysis)与线性回归 ...
- R语言PCA主成分分析(Principle Component Analysis)实战1
R语言PCA主成分分析(Principle Component Analysis)实战1 目录 R语言PCA主成分分析(Principle Component Analysis)实战1 #案例分析
- R语言 PCA 主成分分析
1.关键点 综述:主成分分析 因子分析 典型相关分析,三种方法的共同点主要是用来对数据降维处理的从数据中提取某些公共部分,然后对这些公共部分进行分析和处理. #主成分分析 是将多指标化为少数几个综合指 ...
- 解决R语言PCA主成分分析的cor()函数错误:Error in cor() : ‘x‘必需为数值
简单记录 将读取的excel文件转化为csv文件,再次读取后成功运行. 改为csv文件,再次进行复制后:
- canoco5主成分分析步骤_R语言 PCA主成分分析
微信公众号:生信小知识 关注可了解更多的教程及生信知识.问题或建议,请公众号留言; R语言 PCA主成分分析 前言统计学背景知识协方差相关系数函数总结实例讲解1.载入原始数据2.作主成分分析3.结果解 ...
最新文章
- 数码管字体属于什么字体_photoshop里这方法就能知道图片上文字使用的是什么字体...
- Android反编工具的使用-Android Killer
- php扩展调试,5分钟学会PHP扩展开发与断点调试
- 还在为垃圾太难分类而烦恼么?AI算法来帮您!
- 【虚拟主机篇】asp页面实现301重定向方法
- 比亚迪定薪后多久给offer_比亚迪车主给爱车做四门隔音,没想到两年后肠子都悔青...
- 世界经济论坛正式成立AI委员会,李开复任联席主席,Bengio李飞飞在列
- 给金额字符串加逗号,例如:30000000000.50-30,000,000,000.50
- 第一百六十天 how can I 坚持
- PatterNodes for Mac(创建图形模式)
- 教师计算机知识培训内容,新学期教师计算机培训方案
- MSDC 4.3 接口规范(11)
- 等了15年,这本编程巨著终于出版了!
- Apache Griffin+Flink+Kafka实现流式数据质量监控实战
- BUUCTF·[AFCTF2018]Vigenère·WP
- 【C++】公积金贷款计算器
- 磕磕碰碰三个月,终进字节
- 70道Dubbo面试题及答案(最新整理)
- “心脏出血”漏洞可导致密码泄露
- 次世代游戏美术模型的特性和制作流程
热门文章
- ASIHttpRequest没更新,MKNetWorKit更优越
- GCC的gcc和g++区别,本质而言,gcc和g++并不是编译器,也不是编译器的集合,它们只是一种驱动器,根据参数中要编译的文件的类型,调用对应的GUN编译器而已
- 安装cuda10.1
- 数据--第46课 - 图算法课后练习
- Mysql优化(出自官方文档) - 第三篇
- spring boot task实现动态创建定时任务
- Spring Ioc之初始化
- DreamWeaver CS3中的SPRY的自定义验证
- 关于智能家居的四大思维误区 并非你想的那样
- JSP+JavaBean+Servlet+Oracle新增功能中对Date类型的字段的处理