UA MATH571A R语言回归分析实践 一元回归2 NBA球员的工资

  • 方差分析
  • 相关性分析

上一讲完成了解释NBA球员工资的一个简单的一元线性回归模型的估计、分析,展示了一下简单的预测,这一讲我们的问题是一元线性回归模型够好了吗?上一讲做出来的结果所反映的主要的问题是系数是显著不为0的(非常小的p值),但模型的解释力不高(只有18%多一点的解释力)。这一讲我们希望先验证一下球员Draft Number和工资之间的负向关系是不是真的存在,如果真的存在的话,我们希望解释为什么名次对工资的解释力会很低,是因为数据并非线性关系还是正态假设不成立?

方差分析

首先我们用方差分析看看工资的信息都到哪里去了,对回归用ANOVA分析我们只需要用R语言的anova函数输入模型对象就可以了,

> anova(ureg01.lm)
Analysis of Variance TableResponse: YDf     Sum Sq    Mean Sq F value    Pr(>F)
X           1 6.0811e+15 6.0811e+15  150.12 < 2.2e-16 ***
Residuals 649 2.6290e+16 4.0508e+13
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

我们这个回归模型解释变量是X,它占一个自由度,一共651个样本,也就是650个自由度,所以残差占649个自由度,这是第一列df告诉我们的信息。第二列是平方和的分解,第一个数是回归平方和,第二个数是残差平方和,平方和也可以理解成被解释变量,也就是球员工资的信息,很显然在这个一元线性回归中,解释变量X能解释的信息比残差中的信息少一个数量级,大部分信息模型都解释不了,都在残差中了。第三列就是第二列除以对应的第一列,是自由度调整以后的平方和,第四列是F统计量,这个F统计量就是上一讲回归结果中最后那一行的F统计量,只是ANOVA给出了这个统计量的计算细节,它等于第三列的第一个数除以第二个数。最后一列是F统计量的p值。方差分析的结果是对R方告诉我们的信息,即名次对工资的解释力不足的更细致的说明。

相关性分析

相关性分析与回归的逻辑不一样,相关性分析把两个变量都看成随机变量,分析他们的相关性系数。

> alpha <- .05
> N <- length(Y)
> r12 <- cor(X,Y)
> r12
[1] -0.4334236
> t <- r12*sqrt(N-2)/sqrt(1-r12^2)
> t
[1] -12.25232
> t < -qt(1-alpha/2,N-2)
[1] TRUE
> p <- pt(t,N-2)
> p
[1] 1.70131e-31

先用PPMCC来分析,第一行定义显著性水平,r12给出了相关性系数的值是-0.4334236,这说明名次和工资之间的确是存在负相关的,这个相关性系数的t统计量是-12.25232,它比5%的显著性水平要求的判别值更小,并且p值非常的小,说明我们可以拒绝这个t检验的原假设,认同相关性系数是显著异于0的。但PPMCC有一个缺陷,他需要正态分布假设,我们尚且对残差是否是正态的存疑,这里又用需要正态假设的检验显然不太合理。因此一个更好的选择是Spearman秩相关检验,这个检验不需要某种具体的分布形式,所以得出的结果会比PPMCC更合理。在R语言中,用cor.test,选择method为spearman就可以做这个检验:

> cor.test(X,Y,method = "spearman",exact = F)Spearman's rank correlation rhodata:  X and Y
S = 72838840, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:rho
-0.5840626

S是Spearman秩相关检验的统计量,对应的p值是非常小的,所以可以拒绝相关性为0的原假设,认同名次与工资之间存在相关性,最后一个数-0.5840626告诉我们他们之间的相关性为负。这两个检验进一步说明了名次和工资之间是存在相关性的,之所以模型解释力不足可能是模型假设不成立或者模型设定不合理。

UA MATH571A R语言回归分析实践 一元回归2 NBA球员的工资相关推荐

  1. UA MATH571A R语言回归分析实践 一元回归4 NBA球员的工资

    UA MATH571A R语言回归分析实践 一元回归4 NBA球员的工资 Box-Cox变换 Full Model 模型再诊断 总结 上一讲对一元线性回归模型进行了诊断,发现模型主要存在三个问题: 工 ...

  2. UA MATH571A R语言回归分析实践 一元回归3 NBA球员的工资

    UA MATH571A R语言回归分析实践 一元回归3 NBA球员的工资 残差分析 正态性.同方差性的检验 欠拟合检验 前两讲已经完成了大致的分析了,我们已经明确了NBA球员名次与工资的负相关关系,接 ...

  3. UA MATH571A R语言回归分析实践 一元回归1 NBA球员的工资

    UA MATH571A R语言回归分析实践 一元回归1 NBA球员的工资 基础回归分析 571A另一个系列的文章介绍了回归分析的理论,这个系列的文章介绍R语言做回归分析的实践,但不会涉及R语言编程,只 ...

  4. UA MATH571A R语言回归分析实践 多元回归2 医疗费用的决定

    UA MATH571A R语言回归分析实践 多元回归2 医疗费用的决定 系数的推断与模型预测 模型诊断 这一讲展示一下一元回归中的模型诊断的手段怎么用在多元回归中,同时介绍一下多元回归做推断和预测的方 ...

  5. UA MATH571A R语言回归分析实践 多元回归1 医疗费用的决定

    UA MATH571A R语言回归分析实践 多元回归1 医疗费用 基础回归分析 这一讲开始讨论多元回归,这里选择的例子是寻找家庭医疗费用的决定因素.家庭医疗费用由哪些因素决定是卫生经济学.保险精算等领 ...

  6. UA MATH571A QE练习 R语言 多重共线性与岭回归

    UA MATH571A QE练习 R语言 多重共线性与岭回归 QE回归2017年1月的第4题目的是通过高中成绩排名(X1X_1X1​)与ACT分数(X2X_2X2​)预测大学第一年的GPA(YYY). ...

  7. R语言回归分析-改进异常值

    R语言回归分析 回归分析可以说是统计学的核心,它其实是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来 ...

  8. 基于R语言的主成分回归(PCR)与Lasso回归在水稻基因组预测中的对比(生信数基实验作业)

    基于R语言的主成分回归(PCR)与Lasso回归在水稻基因组预测中的对比 0 引言 全基因组选择是 21 世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分 ...

  9. R语言回归分析-回归诊断

    R语言回归分析 回归分析可以说是统计学的核心,它其实是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来 ...

最新文章

  1. php 二维数组排序,多维数组排序
  2. 算法导论 第六章 堆排序 习题6.5-8 k路合并排序
  3. MySQL主从同步(复制)
  4. zoj-3471 Most powful
  5. java取出连续子串_JAVA :在给定一个数组中,可以取得多个连续的子串。在众多子串中,求各元素和为最大值的连续子串...
  6. Flutter之导url_launcher包提示 A dependency may only have one source.
  7. c语言词典课程设计报告,C语言课程设计英语词典排版系统
  8. buildroot 下载和make nconfig
  9. Linux 修改静态 IP
  10. Unity3D VS UE4
  11. 基于raspbian+motion的家庭监控网络
  12. 解决VMware虚拟机宿主机与虚拟机通讯慢
  13. 文本识别OCR浅析:特征篇
  14. linux启用dcb步骤,DCB文件擴展名: 它是什麼以及如何打開它?
  15. java生成指定范围的随机数(太屌了)
  16. 刚刚过去的六一,OPPO Find新机让一些“大孩子”忍不住落泪!
  17. ubuntu 18.04 安装caffe
  18. 游戏辅助制作核心--植物大战僵尸逆向之阳光生产加速实现满天星(四)1
  19. 【转】获取用户移动方向,指南针原理
  20. 上位机开发——数据库系列问题一网打尽

热门文章

  1. Receiver ED、Link quality indicator (LQI)、Clear channel assessment (CCA)究竟是什么?802.15.4标准
  2. 字符串之数字子串求和
  3. 美国-5大牛校--8条小牛--14好校--18很不错的大学
  4. 箭头函数参数和返回值
  5. 创建Vue实例传入的options||Vue的生命周期
  6. JSON数据和Java对象的相互转换
  7. Eclipse 代码提示功能设置
  8. Python 技术篇-不使用os模块判断指定路径是文件还是文件夹,使用pathlib库判断文件和文件夹
  9. Netty基本使用流程代码
  10. 制作简易的LED闪烁测试工具