假设检验:
两类错误:弃真存伪;阿尔法表示犯第一类错误(弃真)概率
P值:如果原假设为真,则这个样本值发生的概率最大为多少

对于匹配样本的检验,可以用匹配样本的差值来进行检验他们的显著水平
匹配样本:同一个样本在不同时间点的状态

F分布:两个分布的方差之比;检验两个分布方差的差异程度

曲线相关:只存在数据挖掘;统计学只研究直线相关

相关分析

相关系数大于0.8:高度相关
相关系数大于等于0.5,小于0.8:中度相关
相关系数在0.3到0.5之间,视为低度相关
相关系数小于0.3,视为不相关

各相关系数区别:
皮尔逊相关系数:一般用来计算两个连续型变量的相关系数
肯德尔相关系数:一个连续一个分类(最好是定序变量)
斯皮尔曼相关系数:需要进行排序,排序后再进行相关分析;2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用

相关系数容易受到离散值影响

最小二乘法:只能用于回归模型的方法;优点是能用最小二乘法,则计算的结果就是最优线性无偏;缺点是只能用于回归模型

偏回归系数的贡献


回归模型调优
高斯马尔科夫假定:
1. 线性于参数
2. 随机抽样(残差无序列相关)
3. 不存在完全共线性
4. 误差条件均值为0

遗漏重要变量的时候特别容易出现内生性问题,因为重要变量会跑到残差变量中;出现内生性问题时,模型预测一定有偏
5. 误差的同方差性
6. 误差的正态性

如果满足前5条,模型就是理论最优的

只要学会爬虫,基本互联网数据都是半公开了

标准误:标准差的无偏估计量

SST=SSE+SSR
SSE(explained variable)

R^2=SSE/SST
R^2能达到70%-80%已经非常不错了

不要建立无截距模型,否则模型一定有偏

F分布来检验多元回归模型
F=(SSE/p)/(SSR/(n-p-1))

模型调优:
1. 让计算机画分布图(QQ plot)
2. 分类变量:处理多分类数据,即因子变量转换



3. 对模型增加交互项:可改变斜率

4. 对模型增加高次项:即用平方的形式将直线变曲线,

判断共线性的方法:
方差膨胀因子(VIF)


VIF>10,一般要删变量
VIF>7,需要对x进行调整

变量选择:
逐步回归法:前项选择+后项剔除 结合
如果有100个x,则每个x先和因变量一一跑一个相关系数,再按照相关系数从大到小进行排序来建立回归模型;
如果第一个显著是x1,将x1放入后,再加上第二高相关系数的x2,如果x2的加入导致x1不显著,那么剔除x1,且加上x3,如果x3显著的话,那么再次放入x1,如此不断加入相关系数最高的进行删减

建立回归模型:
0. 明确需求(Y)
1. 数据清洗(缺失值,异常值(3倍标准差),分类变量)
2. 相关分析(相关系数,散点图)
3. 分割测试集训练集(3/7分,或2/8分)
4. 回归(F检验,t检验, R^2)
5. 模型调优(残差是正态性,同方差,不能有内生性,不能有共线性,序列相关性(时间))

6.模型精修(交互项,高次项,时间趋势,季节趋势…)
7. 逐步回归,交叉验证
8. 模型测试(从第三项拿出来的剩余数据进行检测)

验残差是否符合正态分布,可以通过画QQplot来检验,或者用SW检验和KS检验
SW检验和KS检验使用环境:
SW检验(样本数小于5000),KS检验(样本数大于5000)
如果残差不符合正态分布,最有效的方法是对因变量Y取自然对数

同方差性检验:BP检验和white检验
white检验的精确度更高,缺点是消耗大量自由度,所以white检验只适用于样本量足够大的时候
如果残差出现异方差性:第一种方法依然是对因变量Y取自然对数;如果无效,则第二种方法是加权最小二乘

内生性:商业上一般直接忽略该影响;如果实在需要,可以使用工具变量

共线性解决:使用VIF值
如果变量之间存在共线性,但是共线性的影响又不大时,首先可以考虑使用主成份分析(奇异值分解),但是主成份分析会改变变量的属性,所当我们不需要考虑后续变量输入新的属性时,可以考虑主成份分析,否则,我们可以考虑使用另一种方法,岭回归法或Lasso法,岭回归是用绝对值计算权重,而lasso是用平方来计算权重;岭回归和Lasso的优点是适用于任何共线性的情况,缺点是只要使用了这两种方法,那么模型一定是有偏的

序列相关性:高弗雷检验(Godfrey)

统计模型中各检验分布及判断共线性方法相关推荐

  1. 详解网页中的关键词分布技术

    谈到SEO策略中的关键词分布技术,就不得不提到SEOWHY的SEO工程师夫唯老师.在2009年6月的谷歌优化指南广州讨研会上,夫唯老师提出了"四处一词"这个关键词分布技术.这个理论 ...

  2. 本周AI热点回顾:机器人写稿同样拥有著作权、大脑中竟存在“分布强化学习”

    01 中国AI写作第一案宣判,机器人写稿同样拥有著作权 一秒出快讯,一分钟内出分析文章,只要有需求,一年写出几十万篇文字作品都不在话下,这就是 AI 写作机器人,目前被广泛应用在一些媒体.金融.分析机 ...

  3. C语言坐标绘制小黑点,求网格中的黑点分布

    2015-10-22 06:30:01 阅读( 134 ) 求网格中的黑点分布.现有6*7的网格,在某些格子中有黑点,已知各行与各列中有黑点的点数之和,请在这张网格中画出黑点的位置.(这是一网友提出的 ...

  4. 如何使用Leangoo看板统计中的任务分布?

    之前已经为大家介绍了"如何使用Leangoo自动生成燃尽图" 今天介绍,"如何使用Leangoo看板统计中的任务分布" Leangoo看板统计中的"任 ...

  5. php 判断是不是前一天,PHP开发中,定时执行如何判断之前的脚本是否跑完?

    本篇讲讲在PHP开发中,定时执行如何判断之前的脚本是否跑完? 在PHP开发中,有时我们有这样一种需求 一个脚本 定时每两分钟执行一次 可是在下一个脚本循环执行时 上面一个脚本还没跑完 我们就应该取消当 ...

  6. php两个按钮左右怎么做,css布局两个button在同父标签中左右两侧分布的方法

    本文主要介绍了css布局两个button在同父标签中左右两侧分布的方法,分享给大家,具体如下: 效果图 布局代码 提交 重置 style="float:right;width:50%&quo ...

  7. elif在python中啥意思_python中elif 结构语句怎么判断?

    if语句最基本的知识,相信小伙伴们已经学会了.有的小伙伴想挑战更高阶的使用,小编就考考大家,elif是什么呢?知道答案的小伙伴又会使用elif吗?当然,在if的基础上扩展,elif肯定是稍微难一点的. ...

  8. 在用户控件中用户登录后台脚本判断

    在用户控件中用户登录后台脚本判断写法  if (!IsPostBack)         {                         imagelogin.Attributes.Add(&qu ...

  9. java 从数据库取值_JAVA操作数据库--从一张表中取值,经过判断,然后插入另一张表中。...

    JAVA操作数据库-->从一张表中取值,经过判断,然后插入另一张表中. SQL语句如下:两张表 weather 和 weather_process. id均为自动增长.Oracle中采用序列 S ...

最新文章

  1. 2021年大数据Flink(十二):流批一体API Transformation
  2. 华人团队用Transformer做风格迁移,速度快、可试玩,网友却不买账
  3. jittor和pytorch生成网络对比之acgan
  4. html中js添加或删除activex,JS:操作样式表2 :用JS实现添加和删除一个类名的功能(addClass()和removeClass())...
  5. 大数据WEB阶段(八)Tomcat服务器安装与详解、HTTP协议详解
  6. C#线程调用带参数的方法,给控件赋值
  7. 海量网络存储系统原理与设计(三)
  8. (转)C# 控制蜂鸣器发声
  9. 计算机的组成 —— VGA
  10. everedit选择_【EverEdit怎么用】EverEdit好不好_使用技巧-ZOL软件百科
  11. mysql所选路径已经存在_5分钟安装好MySQL数据库(建议收藏)
  12. 由购物论测试的重要性:桃子测试了,很好;糖没测试,竟然都有虫子
  13. 极坐标格式下的二维傅里叶变换与逆变换推导
  14. 有道智云实时语音翻译服务全新上线,86+语言实时翻译!
  15. Java 拾遗补阙 ----- 深入解析多态
  16. mammothJs解析docx文件
  17. Deepin 系统安装NVIDIA
  18. 经济学文章---巨量人口对政经的加速减速效应、
  19. 2分钟定制自己的专属桌面——win10仿Mac os风格美化!
  20. 10.2-控制单元CU的微程序设计

热门文章

  1. Python:带你走进哈利波特的魔法世界
  2. CSS高度铺满全屏的方法
  3. 外接显示屏 HDMI线连到台式或者笔记本后,没有声音了!
  4. ChatGPT的主要应用场景例子
  5. 千万级别以上的地图兴趣点(POI)的快速查找测试
  6. 超级简单!Android旧手机也能搭建http服务器ksweb
  7. I - Monthly Expense POJ - 3273
  8. [拜读系列]SEC'' 2018: ACM/IEEE Symposium on Edge Computing 总结(二)
  9. 欢迎大家加入Linux Mobile Research圈子
  10. 新书榜第一的《图解产品》,帮助内卷中的产品经理实现跨越式发展!