python进行对应分析_机器学习算法---对应分析
--------仅用于个人学习知识整理和sas/R语言/python代码整理
--------该文章首发于csdn 正在迁移优化文章中
1.前言
对应分析,主要适用于有多个类别的分类变量,可以揭示同一个变量各个类别之间的差异,以及不同变量各个类别之间的对应关系(简介摘录自:https://www.jianshu.com/p/77a0d15f0336)
以下通过实际例子 使用sas及r语言 进行实现,以及附上对应分析图的解读方式(没有找到python的实现方式,如果有,请不吝赐教!)
2.sas实现
2.1 源数据准备
以下数据全为测试虚构数据,只用来说明数据格式及辅助图的解读
输入数据集为以下交叉表格式,每一个数据代表该组别该变量的人数,假设这里要看五组人群和变量之间的关系,得到交叉表如下:
2.sas对应分析
sas对应分析主要使用proc corresp过程步,在进行对应分析是var参数需要输入所有变量名,所以先将所有变量放入宏变量中,实现代码如下:
proc contents data=rawdata out=cont noprint;run;
proc sql noprint;
select kcompress("'"||name||"'")||"n " into : name3 separated by ' ' from cont where name^='CLUSTER' and
name^='cluster' and name^='class' and name^='right';
quit;
/*打印宏变量*/
%put &name3.;
/*进行对应分析*/
proc corresp data=rawdata print=percent observed cellchi2 rp cp
short outc=data_out plot(flip);
var &name3;
id class;
run;
%plotit(data=duiying.data_out,datatype=corresp,plotvars=Dim1 Dim2,color=black,href=0,vref=0)
/*绘制对应分析图; %plotit中指定的参数分别是输入数据集名称、数据类型、绘图的变量名,坐标轴的颜色
和参考线。用前面的输出数据集results中两个变量Dim1 Dim2绘图*/
run;
3.对应分析图解读
首先可以看到,第一维度解释了65.41%,第二维度解释了24.92%,说明在两个维度上,能够说明数据的90.33%
对应分析图有很多种解读的方法,附上一篇很详细的对应分析图详解:
我们一般会使用向量分析,即看和这个人群比较关联的产品是哪些,在下图中,如果要看和a人群比较关联的label,会从原点出发,向a的方向画一个向量(原点到a的方向作为向量正向),然后每个产品点向这条直线做垂线,垂足和a点的正向越近,表示和a越关联
3.r语言实现
r语言主要使用ca包中的ca函数
ca_data
ca_data2
row.names(ca_data2)
library(ca)
plot(ca(ca_data2),dim = c(1,2),xlim=c(-1,1),ylim=c(-1,1), pch = c(16, 1, 17, 24))
文章一开始发在了csdn上,会有水印,之后的文章都会在知乎发表
python进行对应分析_机器学习算法---对应分析相关推荐
- python svm核函数_机器学习算法实践-SVM核函数和软间隔
前言 上文中简单总结了对于线性可分数据的SVM的算法原理,本文对于非线性可分以及有噪声存在的时候我们需要对基本SVM算法的改进进行下总结其中包括: 核函数在SVM算法中的使用 引入松弛变量和惩罚函数的 ...
- python预测足球比赛_机器学习算法预测足球赛事的模型比较(一)
本文是作者前一段时间关注足球赛事时做的一点分析,内容涉及基于足球数据进行描述性统计分析.基于机器学习建模与传统的泊松模型建模三大部分,由于文章较长,将分两部分进行展现. 第一部分为前言与述性分析部分1 ...
- python回归算法_机器学习算法之回归详解
导语 回归:从一组数据出发,确定某些变量之间的定量关系式:即建立数学模型并估计未知参数. 回归的目的是预测数值型的目标值,它的目标是接受连续数据,寻找最适合数据的方程,并能够对特定值进行预测.这个方程 ...
- 机器学习系列(9)_机器学习算法一览(附Python和R代码)
转载自:http://blog.csdn.net/longxinchen_ml/article/details/51192086 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电 ...
- 转机器学习系列(9)_机器学习算法一览(附Python和R代码)
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更 ...
- python 隐马尔科夫_机器学习算法之——隐马尔可夫(Hidden Markov ModelsHMM)原理及Python实现...
前言 上星期写了Kaggle竞赛的详细介绍及入门指导,但对于真正想要玩这个竞赛的伙伴,机器学习中的相关算法是必不可少的,即使是你不想获得名次和奖牌.那么,从本周开始,我将介绍在Kaggle比赛中的最基 ...
- python算法的缺陷和不足_机器学习算法优缺点及其应用领域
决策树 一. 决策树优点 1.决策树易于理解和解释,可以可视化分析,容易提取出规则. 2.可以同时处理标称型和数值型数据. 3.测试数据集时,运行速度比较快. 4.决策树可以很好的扩展到大型数据库中 ...
- 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)
编译 | 林椿眄 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在G ...
- 机器学习系列(4)_机器学习算法一览,应用建议与解决思路
作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出 ...
最新文章
- iOS多线程全套:线程生命周期,多线程的四种解决方案,线程安全问题,GCD的使用,NSOperation的使用(下)
- oracle构造过程实例
- Python 循环中的陷阱
- sed/awk与unix命令等价代码[转]
- 哎,最近心情非常烦乱!
- 万物皆可爬系列查看翻页翻到最后是什么
- 设计模式笔记十七:迭代器模式
- linux下声卡的安装
- 【图像修复】基于matlab GUI三维图像复原【含Matlab源码 963期】
- 图灵奖得主Alan Kay如何读书
- 奇葩!小米手机自带浏览器css兼容问题,强制屏蔽、隐藏类名为 top_box 的元素。
- 淘宝新手开店怎么做才能破零
- ceph monitor 选举leader和peon的过程
- [Wpf] . [Theme] 重构/Themes/Generic.xaml 创建一个Custom Control的典型做法
- 5G时代金融服务如何升级?网易云信助力银行数字化建设
- STOTEN | 生态中心庄绪亮-群体感应在植物根际促生菌中的重要性
- Wifi Direct 修改群组名称特别注意
- k8s使用nfs持久化存储
- 用桌面图标模拟FlappyBird游戏
- 「洗脑」利用了哪些心理学原理?人脑发生了哪些生理变化?