统计模型中各检验分布及判断共线性方法
假设检验:
两类错误:弃真存伪;阿尔法表示犯第一类错误(弃真)概率
P值:如果原假设为真,则这个样本值发生的概率最大为多少
对于匹配样本的检验,可以用匹配样本的差值来进行检验他们的显著水平
匹配样本:同一个样本在不同时间点的状态
F分布:两个分布的方差之比;检验两个分布方差的差异程度
曲线相关:只存在数据挖掘;统计学只研究直线相关
相关分析
相关系数大于0.8:高度相关
相关系数大于等于0.5,小于0.8:中度相关
相关系数在0.3到0.5之间,视为低度相关
相关系数小于0.3,视为不相关
各相关系数区别:
皮尔逊相关系数:一般用来计算两个连续型变量的相关系数
肯德尔相关系数:一个连续一个分类(最好是定序变量)
斯皮尔曼相关系数:需要进行排序,排序后再进行相关分析;2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用
相关系数容易受到离散值影响
最小二乘法:只能用于回归模型的方法;优点是能用最小二乘法,则计算的结果就是最优线性无偏;缺点是只能用于回归模型
偏回归系数的贡献
回归模型调优
高斯马尔科夫假定:
1. 线性于参数
2. 随机抽样(残差无序列相关)
3. 不存在完全共线性
4. 误差条件均值为0
遗漏重要变量的时候特别容易出现内生性问题,因为重要变量会跑到残差变量中;出现内生性问题时,模型预测一定有偏
5. 误差的同方差性
6. 误差的正态性
如果满足前5条,模型就是理论最优的
只要学会爬虫,基本互联网数据都是半公开了
标准误:标准差的无偏估计量
SST=SSE+SSR
SSE(explained variable)
R^2=SSE/SST
R^2能达到70%-80%已经非常不错了
不要建立无截距模型,否则模型一定有偏
F分布来检验多元回归模型
F=(SSE/p)/(SSR/(n-p-1))
模型调优:
1. 让计算机画分布图(QQ plot)
2. 分类变量:处理多分类数据,即因子变量转换
3. 对模型增加交互项:可改变斜率
4. 对模型增加高次项:即用平方的形式将直线变曲线,
判断共线性的方法:
方差膨胀因子(VIF)
VIF>10,一般要删变量
VIF>7,需要对x进行调整
变量选择:
逐步回归法:前项选择+后项剔除 结合
如果有100个x,则每个x先和因变量一一跑一个相关系数,再按照相关系数从大到小进行排序来建立回归模型;
如果第一个显著是x1,将x1放入后,再加上第二高相关系数的x2,如果x2的加入导致x1不显著,那么剔除x1,且加上x3,如果x3显著的话,那么再次放入x1,如此不断加入相关系数最高的进行删减
建立回归模型:
0. 明确需求(Y)
1. 数据清洗(缺失值,异常值(3倍标准差),分类变量)
2. 相关分析(相关系数,散点图)
3. 分割测试集训练集(3/7分,或2/8分)
4. 回归(F检验,t检验, R^2)
5. 模型调优(残差是正态性,同方差,不能有内生性,不能有共线性,序列相关性(时间))
6.模型精修(交互项,高次项,时间趋势,季节趋势…)
7. 逐步回归,交叉验证
8. 模型测试(从第三项拿出来的剩余数据进行检测)
验残差是否符合正态分布,可以通过画QQplot来检验,或者用SW检验和KS检验
SW检验和KS检验使用环境:
SW检验(样本数小于5000),KS检验(样本数大于5000)
如果残差不符合正态分布,最有效的方法是对因变量Y取自然对数
同方差性检验:BP检验和white检验
white检验的精确度更高,缺点是消耗大量自由度,所以white检验只适用于样本量足够大的时候
如果残差出现异方差性:第一种方法依然是对因变量Y取自然对数;如果无效,则第二种方法是加权最小二乘
内生性:商业上一般直接忽略该影响;如果实在需要,可以使用工具变量
共线性解决:使用VIF值
如果变量之间存在共线性,但是共线性的影响又不大时,首先可以考虑使用主成份分析(奇异值分解),但是主成份分析会改变变量的属性,所当我们不需要考虑后续变量输入新的属性时,可以考虑主成份分析,否则,我们可以考虑使用另一种方法,岭回归法或Lasso法,岭回归是用绝对值计算权重,而lasso是用平方来计算权重;岭回归和Lasso的优点是适用于任何共线性的情况,缺点是只要使用了这两种方法,那么模型一定是有偏的
序列相关性:高弗雷检验(Godfrey)
统计模型中各检验分布及判断共线性方法相关推荐
- 详解网页中的关键词分布技术
谈到SEO策略中的关键词分布技术,就不得不提到SEOWHY的SEO工程师夫唯老师.在2009年6月的谷歌优化指南广州讨研会上,夫唯老师提出了"四处一词"这个关键词分布技术.这个理论 ...
- 本周AI热点回顾:机器人写稿同样拥有著作权、大脑中竟存在“分布强化学习”
01 中国AI写作第一案宣判,机器人写稿同样拥有著作权 一秒出快讯,一分钟内出分析文章,只要有需求,一年写出几十万篇文字作品都不在话下,这就是 AI 写作机器人,目前被广泛应用在一些媒体.金融.分析机 ...
- C语言坐标绘制小黑点,求网格中的黑点分布
2015-10-22 06:30:01 阅读( 134 ) 求网格中的黑点分布.现有6*7的网格,在某些格子中有黑点,已知各行与各列中有黑点的点数之和,请在这张网格中画出黑点的位置.(这是一网友提出的 ...
- 如何使用Leangoo看板统计中的任务分布?
之前已经为大家介绍了"如何使用Leangoo自动生成燃尽图" 今天介绍,"如何使用Leangoo看板统计中的任务分布" Leangoo看板统计中的"任 ...
- php 判断是不是前一天,PHP开发中,定时执行如何判断之前的脚本是否跑完?
本篇讲讲在PHP开发中,定时执行如何判断之前的脚本是否跑完? 在PHP开发中,有时我们有这样一种需求 一个脚本 定时每两分钟执行一次 可是在下一个脚本循环执行时 上面一个脚本还没跑完 我们就应该取消当 ...
- php两个按钮左右怎么做,css布局两个button在同父标签中左右两侧分布的方法
本文主要介绍了css布局两个button在同父标签中左右两侧分布的方法,分享给大家,具体如下: 效果图 布局代码 提交 重置 style="float:right;width:50%&quo ...
- elif在python中啥意思_python中elif 结构语句怎么判断?
if语句最基本的知识,相信小伙伴们已经学会了.有的小伙伴想挑战更高阶的使用,小编就考考大家,elif是什么呢?知道答案的小伙伴又会使用elif吗?当然,在if的基础上扩展,elif肯定是稍微难一点的. ...
- 在用户控件中用户登录后台脚本判断
在用户控件中用户登录后台脚本判断写法 if (!IsPostBack) { imagelogin.Attributes.Add(&qu ...
- java 从数据库取值_JAVA操作数据库--从一张表中取值,经过判断,然后插入另一张表中。...
JAVA操作数据库-->从一张表中取值,经过判断,然后插入另一张表中. SQL语句如下:两张表 weather 和 weather_process. id均为自动增长.Oracle中采用序列 S ...
最新文章
- 2021年大数据Flink(十二):流批一体API Transformation
- 华人团队用Transformer做风格迁移,速度快、可试玩,网友却不买账
- jittor和pytorch生成网络对比之acgan
- html中js添加或删除activex,JS:操作样式表2 :用JS实现添加和删除一个类名的功能(addClass()和removeClass())...
- 大数据WEB阶段(八)Tomcat服务器安装与详解、HTTP协议详解
- C#线程调用带参数的方法,给控件赋值
- 海量网络存储系统原理与设计(三)
- (转)C# 控制蜂鸣器发声
- 计算机的组成 —— VGA
- everedit选择_【EverEdit怎么用】EverEdit好不好_使用技巧-ZOL软件百科
- mysql所选路径已经存在_5分钟安装好MySQL数据库(建议收藏)
- 由购物论测试的重要性:桃子测试了,很好;糖没测试,竟然都有虫子
- 极坐标格式下的二维傅里叶变换与逆变换推导
- 有道智云实时语音翻译服务全新上线,86+语言实时翻译!
- Java 拾遗补阙 ----- 深入解析多态
- mammothJs解析docx文件
- Deepin 系统安装NVIDIA
- 经济学文章---巨量人口对政经的加速减速效应、
- 2分钟定制自己的专属桌面——win10仿Mac os风格美化!
- 10.2-控制单元CU的微程序设计
热门文章
- Python:带你走进哈利波特的魔法世界
- CSS高度铺满全屏的方法
- 外接显示屏 HDMI线连到台式或者笔记本后,没有声音了!
- ChatGPT的主要应用场景例子
- 千万级别以上的地图兴趣点(POI)的快速查找测试
- 超级简单!Android旧手机也能搭建http服务器ksweb
- I - Monthly Expense POJ - 3273
- [拜读系列]SEC'' 2018: ACM/IEEE Symposium on Edge Computing 总结(二)
- 欢迎大家加入Linux Mobile Research圈子
- 新书榜第一的《图解产品》,帮助内卷中的产品经理实现跨越式发展!