概念
列联分析解决的问题:
两个分类之间是否存在相关性
例:不同性别对颜色的喜好是否显著不同

属性变量类型(分类变量:只有有限个值)(连续型变量取值较少时也可以做属性变量使用,变量的类型不是绝对不变的.)
普通变量 (无次序)
有序变量 (距离无意义)
区间变量(连续型变量转换得来,距离有意义,无绝对0点:比率无意义)
比率变量(连续型变量转换得来,距离有意义,有绝对0点:比率有意义)

属性数据分析(Categorical data analysis): 是当目标变量为属性记录时的数据分析,不管 问题的 ***预测变量(自变量) 是否为属性或连续的。属性变量的结果通常反映属性分类的信息。
连续数据分析(Continuous data analysis):是当目标变量为连续记录时的数据分析,也不论它的预测变量是属性的或连续的。

对属性数据进行分析,将达到以下几方面的目的:
1、产生汇总分类数据----列联表;
2、检验属性变量间的独立性(无关联性) ;
3、计算有序的属性变量间的关联性统计量;
4、对高维数据进行分层分析和建模。

简单随机抽样(两个变量都随机):无关联:两变量分布独立
分层简单随机抽样(一个变量控制):无关联:男女作肯定回答的比例相等
pearson:X2 -检验法:H0: 无关联性 (观测频数=期望频数)

***x2统计量及相应的p-值大小并不度量关联程度的强弱(c2统计量依赖样本容量);
x2检验法的p-值是根据其大样本分布确定的。
当有20%或更多的单元格期望频数小于5时,使用它并不一定有效,应改用精确 p-值.

小样本:精确卡方
有序变量:Mentel Haenszel检验法就是针对以下假设的一种检验方法:
H0:行列变量无有序关联,
H1:行列变量存在有序关联
(xi-xj)(yi-yj)>0, 称为一致对(concordant)
(xi-xj)(yi-yj)<0, 称为不一致对(discordant)
(xi-xj)(yi-yj)=0, 称为平分对(tied)

***对有序变量,列联表中变量各测量水平必须按顺序排列,否则有序关联性的度量是不准确的.

两变量均有序:
统计量大于0,则一致(正相关),小于0则不一致(负相关),等于0,则基本无相关性

不要求两变量均有序:

对2*2列联表,还有相对风险优比率两个关联性度量.

***RR相对风险:前瞻性研究:组的选择在获得响应之前
0 < RR < 无限大
RR = 1 无关联

***优比率:回顾性研究:按得到的结果分组后再考察其预测变量
OR(1)=1, 组别与结果发生的可能性大小无关联;
OR(1) > 1, A组更可能发生结果1;
OR(1) < 1, B组更可能发生结果1.

属性变量取值的频数表
PROC    FREQ   DATA=CLASS;tables  age;
run;

多个属性变量取值的交叉表
data statclas;input student sex $ major $ @@;cards;
1  男 是  2 男 非  3 女 是  4 男 非  5 女 是  6 女 是  7 男 非
8  男 非  9 男 是 10 女 是 11 男 非 12 女 是 13 男 是 14 男 是
15 男 非 16 女 是 17 男 是 18 男 非 19 女 非 20 男 是
;
proc freq data=statclas;tables sex*major;title ′统计课程中学生的专业和性别′;
run;

有些情况下,已经汇总并得出表格中每个单元有多少个观测.在收集数据时,也许是先建立一张表,然后将观测个数记到每个单元中,这样得到的信息.或许是使用以表格形式发表的数据.如:

在这种情况下,没有给出样本中每一个个体的观测数据.为了由这种类型的数据生成一张列联表,首先建立一个包含所有单元观测个数的数据集,然后使用带有WEIGHT语句的FREQ过程.

由现有的汇总表生成列联表
已经形成双向表如何输出
data penalty;input decision $ defrace $ numcell @@;cards;
是  白人  19  是  黑人  17  否  白人  141  否  黑人  149
;
proc freq data=penalty;tables decision*defrace;weight numcell;title ′死刑数据的列联表′;
run;

多层叠加数据结构读取:

PROC FREQ  DATA=数据集名 order=… noprint;      TABLES  分层变量*行变量*列变量.../nocol  norow  nocum  nofreq    nopercentmissing  list  out=数据集;WEIGHT  变量名; %按照已经统计好的表格按照统计频数进行说明BY  变量名; %分组变量(性别、二元变三元)RUN;

order=data|internal|freq|formatted
1、按照数据集中的顺序进行统计
2、按照大小顺序
3、按照频数多少进行统计
4、按照自定义格式数据排列

列联表设计:从内到外为从左到右从下到上的分类关系(收入——性别——购买价值)

例2.3 下表记录了某公司在过去6个月中的顾客信息.其中包括顾客的性别(GEN:0=男和1=女),顾客的年龄(AGE),顾客的年收入(INCLEV:1=低,2=中和3=高)和购买价值(PURCHASE:0=小于100元,1=大于等于100元),共记录了431位顾客的资料.试用“分析员应用”或编程来生成PURCHASE(购买价值)与GEN(性别)或INCLEV(收入)的双向列联表,并进行分析.

DATA步读取数据
从最内层往最外层分解
***
data salesa;do purchase=0,1;do gen=0,1;do inclev=1 to 3;input numcell @@;output;end;end;end;cards;
35 58 37 55 40 44 8 15 38 34 31 36以下SAS程序生成二个双向列联表
proc freq data=salesa;tables purchase*(gen inclev);weight numcell;
run;

分析purchase*gen表,可以得出:
(1)查看purchase=1所在行的两个单元格中的行百分比(分别为37.65%和62.35%)可以得出:高消费(指购买100元以上者)的人群中,女性占的比例明显高于男性。而低消费(指购买100元以下者)的人群中,女性和男性所占的比例相差不大。
(2)查看gen=0(男)所在列的两个单元格中的列百分比(分别为68.06%和31.94%)可以得出:男性人群中,高消费(指购买100元以上者)的比例明显小于低消费。 而女性人群中,高消费(指购买100元以上者)的比例稍微小于低消费。

检验无关联性

大样本检验(卡方)
PROC  FREQ  DATA=数据集 ;TABLES  行变量*列变量/chisq cellchi2 /*chisq 卡方关键词 expected;
RUN;                     (ch05_04.sas)chisq: 进行无关联性的c2检验和生成基于c2统计量的关联性度量;
cellchi2: 打印单元格的c2贡献;
expected: 打印无关联时单元格的期望频数.
小样本检验(精确p值)
PROC  FREQ  DATA=数据集 ;
TABLES  行变量*列变量/exact;
EXACT pchi ;
RUN ;                                  选项exact:要求计算精确的Fisher检验统计量. 对于2×2表系统自动计算.
语句 exact  pchi :要求给出c2统计量的精确p-值及其它有关的关联性.

libname mylib ‘C:\Users\caida\Desktop\ex3’;
data mydata;
infile ‘C:\Users\caida\Desktop\ex3\dataset for experiment 3.txt’;
input country $20. birthrat deathrat inf_mort life_exp popurban perc_gnp lev_tech civillib;
run;

proc format;
value infantmt
low-<24 = 1
24-73 = 2
74-high = 3;
value levelmt
low-<24 = 1
24-high = 2;
value degreemt
1,2 = 1
3,4,5 = 2
6,7 = 3;
run;

data mylib.world;
set mydata;
infgrp = inf_mort;
techgrp = lev_tech;
civilgrp = civillib;
format infgrp infantmt. techgrp levelmt. civilgrp degreemt.;
run;

/*
proc means data=mylib.world P33.3 P66.7;
var birthrate deathrate popurban;
output out=stats;
run;
*/

proc univariate data=mylib.world noprint;
var birthrat;
output out=mylib.s1 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var deathrat;
output out=mylib.s2 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var popurban;
output out=mylib.s3 pctlpts=33.3 66.7 pctlpre = p
run;

data stats;
set mylib.s1 mylib.s2 mylib.s3;
run;

data mylib.world2;
set mylib.world;
do i=1 to 3

某咖啡店在2017年9-12月期间四类咖啡(cap, esp, ice, kon)的销量数据如下,其中window变量为顾客的代步类型(d为开车;w为步行)。

Obs date Coffee Window amount Obs date Coffee Window amount
1 2017-09 cap d 106 17 2017-11 cap d 133
2 2017-09 cap w 159 18 2017-11 cap w 147
3 2017-09 esp d 87 19 2017-11 esp d 78
4 2017-09 esp w 96 20 2017-11 esp w 130
5 2017-09 ice d 31 21 2017-11 ice d 68
6 2017-09 ice w 42 22 2017-11 ice w 42
7 2017-09 kon d 82 23 2017-11 kon d 118
8 2017-09 kon w 120 24 2017-11 kon w 66
9 2017-10 cap d 64 25 2017-12 cap d 142
10 2017-10 cap w 156 26 2017-12 cap w 109
11 2017-10 esp d 101 27 2017-12 esp d 141
12 2017-10 esp w 194 28 2017-12 esp w 142
13 2017-10 ice d 137 29 2017-12 ice d 75
14 2017-10 ice w 68 30 2017-12 ice w 71
15 2017-10 kon d 160 31 2017-12 kon d 98
16 2017-10 kon w 187 32 2017-12 kon w 114

请完成以下步骤:
(1)按月分组,并按咖啡品种和代步类型作两级分组绘制咖啡销量的直方图;
(2)分析四个月的总销量中,顾客消费的咖啡品种与代步类型是否存在关联。

关于收入水平(Income)和糖尿病的调查数据如下:

              糖尿病

收入水平 是(Y) 否(N)
低收入(low) 40 100
中等收入(moderate) 33 145
高收入(high) 10 60

检验糖尿病和收入水平两者之间是否存在关联性?()


***无关联性检验(无关联:?_ij=p_(i+) * p_(+j))
大样本:卡方:freq过程 var ab/ chisq(卡方检验) cellchi2(单元格卡方贡献) expected(单元格期望)
小样本(单元格样本<5):精确卡方:freq过程 exact chisq pchi(exact与var并列)
两有序变量关联:Mentel Haenszel检验法(比卡方对有序敏感):var /chisq measures
(有序关联需要先进行排序 proc freq data= order=)
(判断有序关联,先看MH统计p值,再看gamma统计量与0比较)
配对变量检验(打针前后):freq过程 var a
b/agree

freq 过程中 var的选项
输出类型/nopercent norow nocol nocum nofreq missing list
统计量&检验/chisq cellchi2 measures riskdiff expected deviation agree
***对于2×2列联表默认做Fisher检验,而超过2×2的表需要添加exact选项(并且没有高亮)。
***只有2*2的列联表能输出riskdiff

SAS——列联表(复习3)相关推荐

  1. SAS期末复习知识点总结(应用多元统计实验笔记)

    SAS复习目录 一.数据集的建立.存储.导出.导入和编辑: 二.统计数据的描述性分析 三.一元线性回归分析 四.多元线性回归分析与残差分析 五.主成分分析 六.因子分析 七.判别分析 八.聚类分析 一 ...

  2. SAS概念知识点 (复习1)

    概念部分 作业一: g) SAS语句通常以一个关键字开头.每一个SAS语句都以分号结尾.可以使用 contents过程查看SAS 数据集的描述部分.字符型变量长度最多能有 32767 字符长,并且每个 ...

  3. R语言期末复习资料----助力高绩点

    多元统计分析及R语言建模(第四版) R语言期末复习资料 第一章 多元统计分析概述 1.列出常用的统计软件,说明其使用范围和各自的优缺点 解: (1)SAS:组合软件系统,入门比较困难 (2)SPSS: ...

  4. r语言t检验输出检验统计量_数据统计的理解和运用(四)列联表之卡方检验

    前面几期我们介绍了参数检验,t检验和方差分析: 临度科研:数据统计的理解和运用(三)方差分析​zhuanlan.zhihu.com 临度科研:数据统计的理解和运用(二)t检验的应用​zhuanlan. ...

  5. 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

    跑完分类模型(Logistic回归.决策树.神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix.ROC.Lift.Gini.K-S之类(这个单子可以列很长),往往 ...

  6. python处理excel的优势-SAS、R、SPSS、python、excel五大软件的比较优势分析

    SAS.R.SPSS.python.excel五大软件的比较优势分析 一.SAS软件 SAS是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件.SAS把 ...

  7. sas table将缺失值计入百分比_SAS系列28:SAS宏语言(一)

    导读 前面我们介绍了应用SAS实现数据集的创建.数据整理和清洗.数据的统计描述和简单的统计推断方法.在写这一期文章之前一直在纠结,是否要把SAS宏语言放在这一期开始介绍?考虑到宏语言可以实现代码的重复 ...

  8. 数据挖掘期末复习01-02

    数据挖掘期末复习 题型 选择题:单选7 + 多选7(上课认真听课) 每道3分 解答 6道 概念性:什么是数据挖掘啊之类的 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 ...

  9. SAS实验04 ——回归分析

    实验04 回归分析 一.实验目的 通过实验进行对回归分析的学习,并有效掌握回归分析数据样本的解读和整理并从SAS输出结果中得到相关结论 二.实验内容 ①我近些日子复习英语单词的个数和每天的单词学习时间 ...

最新文章

  1. Rocket - diplomacy - AddressAdjuster
  2. db2查看表结构_作为后端开发如何设计数据库系列文章(一)设计传统系统表结构(Java开发)...
  3. Android媒体解码MediaCodec,MediaExtractor
  4. SpringBoot 使用 Caffeine 本地缓存
  5. JdbcTemplate使用小结
  6. 多线程学习笔记二 - 多线程与单例模式
  7. 微课|中学生可以这样学Python(8.3节):递推算法例题讲解
  8. 备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具
  9. 【背包问题】基于matlab遗传算法求解多背包问题【含Matlab源码 122期】
  10. python能编译成exe文件吗_python编译成exe文件
  11. BIM二开获取CAD信息必备Teigha库,TD_Mgd_3.09.dll下载和使用操作步骤
  12. 领域(学科)知识图谱构建心得
  13. 语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】
  14. Vue和SuperSlide做轮播效果
  15. 上海科学家研制出新型“耐火宣纸”
  16. 用友 你侮辱了谁? --转自
  17. 立即报名!安全大咖连麦解读银行信息数据安全难题
  18. php background,background什么意思
  19. Android 11 微信,QQ ,微博 分享适配
  20. fh511小风扇主控芯片 便携式小风扇专用8脚IC 三档小风扇升压芯片sop8

热门文章

  1. LVS-DR模式部署实战!!个人整理,.......
  2. 报名 | 大数据、AI在中国金融保险业的应用案例分享讲座
  3. 英语中表语从句的概念及其用法,例句(不断更新)
  4. ShardingSphere系列之Sharding JDBC实现原理
  5. Latex 把图片1跨两栏放到论文开头的一种方法
  6. 洛谷 [P2575] 高手过招
  7. Windows7 下QQ频繁掉线的解决方法
  8. realme x2 深度测试打不开_realme X2 Pro手机使用深度对比实用评测
  9. Apache配置文件httpd.conf的理解
  10. git上传代码至远程仓库(超详细)