一些多元逐步回归的注意事项

下面内容主要来自统计课的ppt，觉得还不错，便修改后转载至我的blog啦

目的是让自己消化一遍信息，基于自己的一些已有知识做了一些修改，也希望能给有需要的朋友们看到。

比较组间差异的注意事项：
1.1 在对数据做简单的组间比较时，得到的差异不一定真实存在。
1.2 多组比较时，不可直接进行两两比较，需要通过。beferonni矫正来缩小阈P值，降低一类错误的概率。
1.3 若是配对资料，需要做配对的统计方法。
变量间的相关性分析
2.1 个人认为这一步如果是为了探索变量间共线性会更有意义，因为上一步的多组比较若存在差异已可以提示各协变量与自变量之间的相关性。
多因素分析
3.1 目的是建立一个解释模型，纳入合理的混杂因素，同时保证模型的可靠性，对相关性进行探索。
3.2 多元线性回归，logistic逐步回归，Cox回归。
多因素回归对数据的要求
4.1 样本例数至少为变量数的10-15倍。如果是线性回归，这里的样本例数指的就是样本量；若为logistics回归或Cox回归，样本例数指的是发生目标结局的例数。设置哑变量后，自变量数会增加，此时应该根据设置哑变量后的变量数来计算样本例数。
4.2 数据不能有Na
4.3 对分类变量需要进行恰当编码和哑变量设置。
4.3.1 对于二分类变量，如性别，可以设置男性为1 女性为0
4.3.2 对于多分类有序变量，应按序赋值后当连续变量用（死亡0、有效1、痊愈2），但需符合LINE：或者转为哑变量
4.3.3 对于多分类无序变量，设哑变量。

经验法判断偏态、方差不齐
正态者：一般mean >3SD
S> mean 必为偏态

一些模型参数的判读

R平方（R2），是预测变量能解释结果变量变异的百分比例，范围为0到1。R2是观察到的实际结果与模型构建的预测值之间的相关系数的平方。R平方越高，模型越好。模型的决定系数=0.294：
校正决定系数Rad2=0.256即甘油三酯与总胆固醇一起决定了空腹血糖Y变异的25.6%.
F值：对整个方程作统计意义检验，判断是否Xi，一Xk与y有数量关系，即检验无效假设。
模型有意义（F=7.694，P=0.002）·P<0.05，
偏回归系数 partial regression coefficient/coefficients：
偏回归系数是多元回归问题出现的一个特殊性质。设自变量x1，x2，…，xm与因变量y都具有线性关系，可建立回归方程：ŷ=b0+b1x1+b2x2+…+bmxm。式中b1，b2，…，bm为相应于各自变量的偏回归系数。表示当其他的各自变量都保持一定时，指定的某一自变量每变动一个单位，因变量y增加或减少的数值。
可以对各个偏回归系数进行检验，分别看x对y的影响是否显著。
标准化偏回归系数 Standard partial regression coefficient。由于x的单位不同，无法直接用偏回归系数比较各x的重要性，故对偏回归系数进行标准化，去掉单位。

最优回归方程选择
选择 Radj2最大的：反映了模型拟合度，也综合考虑了进入模型的自变量个数（自变量个数并非越多越好）
进入方程的自变量个数越多，R2必然越大，而adjR2反而变小

模型假定：LINE原则

line 线性
independence 独立
normality 正态
equal variance 方差齐

L 线性：
可以通过绘制x和y之间的散点图来进行评估
I 无共线性：
进行共线性诊断，如制作变量间相关性矩阵后，对存在共线性的变量对进行留一取一处理，或者对一组多重共线性的变量进行合并处理。共线性的处理方法并不唯一，选择合理的, 更容易实现批处理的为妙。
N 残差满足正态分布。
残差在数理统计中是指实际观察值与 **估计值（拟合值）**之间的差
E 残差方差相等
这里指的是残差方差相等。可以通过残差图来判断。（即从每个x与残差的散点图看残差的离散是否与各个x无关）

逐步回归与多元回归的区别：
自变量逐步进入模型，基于一些筛选原则筛选对Y作用大的X。比如矫正R2，AIC
多元回归，一次纳入全体自变量，可能会纳入没有意义的X。
需要注意：建立模型时，有些变量的偏回归系数可能没有显著性，但对模型的效能有提升作用。
变量筛选的方法并不止逐步法一个，还是那句话
合理且更容易实现自动化为佳。

交互作用

数据科学就是这样，一开始看文章，觉得这几张表很简单啊，一下子就画出来了，其实背后看不见的分析思路，建模的细节才是大学问。

一些多元逐步回归的注意事项相关推荐

r语言electricity数据集_R语言多元逐步回归模型分析房价和葡萄酒价格：选择最合适的预测变量...
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价.确实, 对于样本大小 ,在线性模型中可以考虑的预测变量最大数量为 p .或等效地,使用 ...
matlab 多元逐步回归详解(stepwise使用指南)
一.问题某种水泥在凝固时放出的热量 Y(单位:卡/克)与水泥中 4 种化学成品所占的百分比有关:在生产中测得 12 组数据,见下表,试建立 Y 关于这些因子的"最优"线性回归方程 ...
spss练习数据_动手练习SPSS因子分析啦，会不会做一动手就知道了
SPSS训练营:就是要动手练习数据介绍收集到24家商业银行(上市公司)的信用风险指标数据,这些指标由12个财务比率构成,可以全面完整反映银行风险状况.由于指标多,且指标间相关性强,现在希望看到少数 ...
Python数据处理课程设计-房屋价格预测
注:可能有些图片未能成功上传,可在文档处进行下载链接:Python数据处理课程设计-房屋价格预测-机器学习文档类资源-CSDN下载课程设计报告课程名称 Python数据处理课程设计项目名称房 ...
高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域应用
在高光谱影像中,结合纹理.表面粒度.风化程度.作物密度等辅助信息,能估计出多种地物及其上覆作物的状态参量,提高遥感高定量分析的精度和可靠性.如何通过构建遥感光谱反射信号与地表参数之间的关系模型来实现数 ...
高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域中的应用
高光谱遥感(Hyperspectral Remote Sensing)又叫成像光谱遥感,是将成像技术和光谱技术相结合的多维信息获取技术(Goetz,1985年).高光谱遥感数据中包含了丰富的空间.辐射 ...
高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域应用技术
高光谱遥感(Hyperspectral Remote Sensing)又叫成像光谱遥感,是将成像技术和光谱技术相结合的多维信息获取技术(Goetz,1985年).高光谱遥感数据中包含了丰富的空间.辐射 ...
R语言线性回归和时间序列分析北京房价影响因素可视化案例
原文链接:http://tecdat.cn/?p=21467 目的房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策:如何影响房子的几何 ...
基于sentinel湿地_基于Sentinel数据的滇池湖滨湿地地上生物量反演
湿地植被是以湿生和水生植物为主的植被群类型,是湿地生态系统的重要组成部分,在维持生态系统结构和功能方面有十分重要的作用[.传统的生物量(AGB)测算方法主要通过样方调查.采集.称重等手段进行,不但费时 ...

一些多元逐步回归的注意事项

一些多元逐步回归的注意事项相关推荐

最新文章

热门文章