SAS——列联表（复习3）

概念
列联分析解决的问题：
两个分类之间是否存在相关性
例：不同性别对颜色的喜好是否显著不同

属性变量类型（分类变量：只有有限个值）（连续型变量取值较少时也可以做属性变量使用，变量的类型不是绝对不变的.）
普通变量（无次序）
有序变量（距离无意义）
区间变量（连续型变量转换得来，距离有意义，无绝对0点：比率无意义）
比率变量（连续型变量转换得来，距离有意义，有绝对0点：比率有意义）

属性数据分析(Categorical data analysis)：是当目标变量为属性记录时的数据分析，不管问题的 ***预测变量(自变量) 是否为属性或连续的。属性变量的结果通常反映属性分类的信息。
连续数据分析(Continuous data analysis)：是当目标变量为连续记录时的数据分析，也不论它的预测变量是属性的或连续的。

对属性数据进行分析，将达到以下几方面的目的：
1、产生汇总分类数据----列联表；
2、检验属性变量间的独立性(无关联性) ；
3、计算有序的属性变量间的关联性统计量;
4、对高维数据进行分层分析和建模。

简单随机抽样（两个变量都随机）：无关联：两变量分布独立
分层简单随机抽样（一个变量控制）：无关联：男女作肯定回答的比例相等
pearson:X2 -检验法：H0: 无关联性（观测频数=期望频数）

***x2统计量及相应的p-值大小并不度量关联程度的强弱（c2统计量依赖样本容量）;
x2检验法的p-值是根据其大样本分布确定的。
当有20%或更多的单元格期望频数小于5时，使用它并不一定有效，应改用精确 p-值.

小样本：精确卡方
有序变量：Mentel Haenszel检验法就是针对以下假设的一种检验方法：
H0：行列变量无有序关联，
H1：行列变量存在有序关联
(xi-xj)(yi-yj)>0, 称为一致对(concordant)
(xi-xj)(yi-yj)<0, 称为不一致对(discordant)
(xi-xj)(yi-yj)=0, 称为平分对(tied)

***对有序变量,列联表中变量各测量水平必须按顺序排列,否则有序关联性的度量是不准确的.

两变量均有序：
统计量大于0，则一致（正相关），小于0则不一致（负相关），等于0，则基本无相关性

不要求两变量均有序：

对2*2列联表，还有相对风险和优比率两个关联性度量.

***RR相对风险：前瞻性研究：组的选择在获得响应之前
0 < RR < 无限大
RR = 1 无关联
***优比率：回顾性研究：按得到的结果分组后再考察其预测变量
OR(1)=1, 组别与结果发生的可能性大小无关联;
OR(1) > 1, A组更可能发生结果1;
OR(1) < 1, B组更可能发生结果1.

属性变量取值的频数表
PROC    FREQ   DATA=CLASS;tables  age;
run;

多个属性变量取值的交叉表
data statclas;input student sex $ major $ @@;cards;
1  男 是  2 男 非  3 女 是  4 男 非  5 女 是  6 女 是  7 男 非
8  男 非  9 男 是 10 女 是 11 男 非 12 女 是 13 男 是 14 男 是
15 男 非 16 女 是 17 男 是 18 男 非 19 女 非 20 男 是
;
proc freq data=statclas;tables sex*major;title ′统计课程中学生的专业和性别′;
run;

有些情况下,已经汇总并得出表格中每个单元有多少个观测.在收集数据时,也许是先建立一张表,然后将观测个数记到每个单元中,这样得到的信息.或许是使用以表格形式发表的数据.如：

在这种情况下,没有给出样本中每一个个体的观测数据.为了由这种类型的数据生成一张列联表,首先建立一个包含所有单元观测个数的数据集,然后使用带有WEIGHT语句的FREQ过程.

由现有的汇总表生成列联表
已经形成双向表如何输出
data penalty;input decision $ defrace $ numcell @@;cards;
是  白人  19  是  黑人  17  否  白人  141  否  黑人  149
;
proc freq data=penalty;tables decision*defrace;weight numcell;title ′死刑数据的列联表′;
run;

多层叠加数据结构读取：

PROC FREQ  DATA=数据集名 order=… noprint;      TABLES  分层变量*行变量*列变量.../nocol  norow  nocum  nofreq    nopercentmissing  list  out=数据集;WEIGHT  变量名; %按照已经统计好的表格按照统计频数进行说明BY  变量名; %分组变量（性别、二元变三元）RUN;

order=data|internal|freq|formatted
1、按照数据集中的顺序进行统计
2、按照大小顺序
3、按照频数多少进行统计
4、按照自定义格式数据排列

列联表设计：从内到外为从左到右从下到上的分类关系（收入——性别——购买价值）

例2.3 下表记录了某公司在过去6个月中的顾客信息.其中包括顾客的性别(GEN:0=男和1=女)，顾客的年龄(AGE),顾客的年收入(INCLEV：1=低,2=中和3=高)和购买价值(PURCHASE：0=小于100元,1=大于等于100元)，共记录了431位顾客的资料.试用“分析员应用”或编程来生成PURCHASE(购买价值)与GEN(性别)或INCLEV（收入）的双向列联表，并进行分析.

DATA步读取数据
从最内层往最外层分解
***
data salesa;do purchase=0,1;do gen=0,1;do inclev=1 to 3;input numcell @@;output;end;end;end;cards;
35 58 37 55 40 44 8 15 38 34 31 36以下SAS程序生成二个双向列联表
proc freq data=salesa;tables purchase*(gen inclev);weight numcell;
run;

分析purchase*gen表，可以得出：
（1）查看purchase＝1所在行的两个单元格中的行百分比（分别为37.65%和62.35%)可以得出：高消费（指购买100元以上者）的人群中，女性占的比例明显高于男性。而低消费（指购买100元以下者）的人群中，女性和男性所占的比例相差不大。
（2）查看gen＝0（男）所在列的两个单元格中的列百分比（分别为68.06%和31.94%)可以得出：男性人群中，高消费（指购买100元以上者）的比例明显小于低消费。而女性人群中，高消费（指购买100元以上者）的比例稍微小于低消费。

检验无关联性

大样本检验（卡方）

PROC  FREQ  DATA=数据集 ;TABLES  行变量*列变量/chisq cellchi2 /*chisq 卡方关键词 expected;
RUN;                     (ch05_04.sas)chisq: 进行无关联性的c2检验和生成基于c2统计量的关联性度量;
cellchi2: 打印单元格的c2贡献;
expected: 打印无关联时单元格的期望频数.

小样本检验（精确p值）

PROC  FREQ  DATA=数据集 ;
TABLES  行变量*列变量/exact;
EXACT pchi ;
RUN ;                                  选项exact:要求计算精确的Fisher检验统计量. 对于2×2表系统自动计算.
语句 exact  pchi :要求给出c2统计量的精确p-值及其它有关的关联性.

libname mylib ‘C:\Users\caida\Desktop\ex3’;
data mydata;
infile ‘C:\Users\caida\Desktop\ex3\dataset for experiment 3.txt’;
input country $20. birthrat deathrat inf_mort life_exp popurban perc_gnp lev_tech civillib;
run;

proc format;
value infantmt
low-<24 = 1
24-73 = 2
74-high = 3;
value levelmt
low-<24 = 1
24-high = 2;
value degreemt
1,2 = 1
3,4,5 = 2
6,7 = 3;
run;

data mylib.world;
set mydata;
infgrp = inf_mort;
techgrp = lev_tech;
civilgrp = civillib;
format infgrp infantmt. techgrp levelmt. civilgrp degreemt.;
run;

/*
proc means data=mylib.world P33.3 P66.7;
var birthrate deathrate popurban;
output out=stats;
run;
*/

proc univariate data=mylib.world noprint;
var birthrat;
output out=mylib.s1 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var deathrat;
output out=mylib.s2 pctlpts=33.3 66.7 pctlpre = p
run;
proc univariate data=mylib.world noprint;
var popurban;
output out=mylib.s3 pctlpts=33.3 66.7 pctlpre = p
run;

data stats;
set mylib.s1 mylib.s2 mylib.s3;
run;

data mylib.world2;
set mylib.world;
do i=1 to 3

某咖啡店在2017年9-12月期间四类咖啡（cap, esp, ice, kon）的销量数据如下，其中window变量为顾客的代步类型（d为开车；w为步行）。

Obs date Coffee Window amount Obs date Coffee Window amount
1 2017-09 cap d 106 17 2017-11 cap d 133
2 2017-09 cap w 159 18 2017-11 cap w 147
3 2017-09 esp d 87 19 2017-11 esp d 78
4 2017-09 esp w 96 20 2017-11 esp w 130
5 2017-09 ice d 31 21 2017-11 ice d 68
6 2017-09 ice w 42 22 2017-11 ice w 42
7 2017-09 kon d 82 23 2017-11 kon d 118
8 2017-09 kon w 120 24 2017-11 kon w 66
9 2017-10 cap d 64 25 2017-12 cap d 142
10 2017-10 cap w 156 26 2017-12 cap w 109
11 2017-10 esp d 101 27 2017-12 esp d 141
12 2017-10 esp w 194 28 2017-12 esp w 142
13 2017-10 ice d 137 29 2017-12 ice d 75
14 2017-10 ice w 68 30 2017-12 ice w 71
15 2017-10 kon d 160 31 2017-12 kon d 98
16 2017-10 kon w 187 32 2017-12 kon w 114

请完成以下步骤：
（1）按月分组，并按咖啡品种和代步类型作两级分组绘制咖啡销量的直方图；
（2）分析四个月的总销量中，顾客消费的咖啡品种与代步类型是否存在关联。

关于收入水平（Income）和糖尿病的调查数据如下：

              糖尿病

收入水平是（Y）否（N）
低收入（low） 40 100
中等收入（moderate） 33 145
高收入（high） 10 60

检验糖尿病和收入水平两者之间是否存在关联性？（）

***无关联性检验(无关联：?_ij=p_(i+) * p_(+j))
大样本：卡方：freq过程 var ab/ chisq（卡方检验） cellchi2（单元格卡方贡献） expected（单元格期望）
小样本（单元格样本<5）：精确卡方：freq过程 exact chisq pchi（exact与var并列）
两有序变量关联：Mentel Haenszel检验法（比卡方对有序敏感）：var /chisq measures
（有序关联需要先进行排序 proc freq data= order=)
（判断有序关联，先看MH统计p值，再看gamma统计量与0比较）
配对变量检验（打针前后）：freq过程 var ab/agree

freq 过程中 var的选项
输出类型/nopercent norow nocol nocum nofreq missing list
统计量&检验/chisq cellchi2 measures riskdiff expected deviation agree
***对于2×2列联表默认做Fisher检验，而超过2×2的表需要添加exact选项（并且没有高亮）。
***只有2*2的列联表能输出riskdiff