第七章  相关和回归分析

统计可以根据目前所拥有的信息来建立人们所关心的变量和其他有关变量的关系,这种关系一般称为模型。加入用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量,则需要建立一个函数关系Y=f(X),这里Y称为因变量或响应变量,X称为自变量也叫解释变量或协变量,建立这种关系的过程就叫做回归。

    怎样发现定量变量有没有关系?最简单直观的办法就是画出它们的散点图(废话......),如果要在数量上描述相关的话,可以有一些相关程度的度量方法。
  • 相关性度量
    Pearson系数:又叫相关系数或线性相关系数,一般用字母r表示,是一个描述线性相关强度的量,取值于-1和1之间,当两个变量有很强的线性相关时,相关系数接近于1或-1,接近于1是正相关,接近于-1是负相关,当两个变量的线性相关性不强时,相关系数接近于0。在总体正态性假设下,假定共有p个变量,相关矩阵是一个p*p的矩阵,其第ij个元素为第i个变量与第j个变量的相关系数。
    Kendall τ相关系数:把所有样本点配对,例如每一个样本点由x和y组成(x,y),配对就是一对点对(x1,y1)(x2,y2),看每一对中的x和y的观测值是否同时增加或减少,一对样本点同时增加或同时下降,称这两点协同,否者就是不协同。如果样本中协同的点数目多,两个变量就更加正相关一些,如果样本中不协同的点数目多,两个变量就更加负相关一些。不用假设总体的分布,是一个非参数的度量,其值也在-1与1之间,越接近于1和-1 就越相关,而接近0就不相关(不是线性的了?)。
    Spearman秩相关系数:和Pearson相关系数定义类似,不过将点的坐标换成了各自样本的秩,取值在-1到1之间,不依赖总体分布。
    注意:在做与Pearson相关系数有关的检验及以后关于回归的各种检验中,都要假定变量的正态性,p值才有意义。
  • 回归结果检验
    线性模型的一般形式是Y=β0+βX+ε,X是自变量向量,X={x1,x2,......,xn},β是参数向量对应于每一个自变量,里面的每一个β都称为回归系数,ε是误差项,不能被该线性关系描述的y的变化都由这个误差项来承担。这里面的β都是根据样本对总体的估计,所以是随机变量,也可以构造检验统计量来检验是否显著。对于β的检验需要符合一些条件,这些条件是关于误差项ε的:(1)ε位均值为零的随机变量;(2)ε的方差对所有的x的值不变;(3)ε的值相互独立;(4)ε为正态分布随机变量。一般情况下,前三个条件成立,第四个条件也就成立。
    除了对参数的假设检验以外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数,用R²表示,意思是自变量可以解释R²的因变量的变化,R²越接近1,回归越成功。因为R²有可能随着变量数目的增加而增大,所以对其进行修改,计算一个修正的R²(adjusted R square),意义和R²是一样的。
    此外,计算机还计算一个零假设下有F分布的检验统计量,用来检验回归拟合的好坏,其零假设是因变量和自变量没有关系。
    也就是说,如果用统计软件例如SPSS、SAS、R等来做回归分析的话,一般会有三个检验量,一个是对参数的假设检验,用p值来衡量,如果显著,则认为回归有意义;第二个是修正的R²,R²越接近1,说明回归越成功;最后是F统计量检验,如果显著,认为因变量和自变量有关系。
    最小二乘法:使用来做线性回归的最常用方法,寻找一条直线使得所有点到该直线的竖直距离,也就是按因变量方向的距离的平方和最小。
 
    当选定一个模型时,不应所有的变量都显著,这时有一种逐步回归的方法,一边回归,一边检验。
    
  • 自变量中有定性变量的回归
    会有那种定性的变量,非连续的,比如低、中、高,如果用1、2、3来代表的话,这些数字实际上没有什么意义,这种称为虚拟变量或者哑元。
    以上述定性变量取值为低、中、高,为例,其模型可以描述为:
    
    其中α1、α2和α3位三种定性的变量导致的截距β0的变化,其本身只有相对的意义,只能在某些约束条件下才能够得到估计,一种约束条件是把一个参数设为0,例如α3=0,这样就能计算出与其有相对意义的α1和α2了。
  • Logistic回归
    因变量是取两个值的定性变量,用Logistic回归来做拟合。

【读书笔记】统计学:从数据到结论 第七章相关推荐

  1. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  2. 大数据之路读书笔记-09阿里巴巴数据整合及管理体系

    大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...

  3. 关于数据治理的读书笔记 - 什么是数据治理?

    <关于数据治理的读书笔记 - 数据治理.数据管理和数据管控的理解>我们了解了有关数据治理.数据管理和数据管控,这几个名词之间的区别和联系,回到数据治理的话题上,数据治理究竟是什么? 站在不 ...

  4. 读书笔记:《流畅的Python》第五章 一等函数

    # 一等对象/一等函数 ''' 1.在运行时创建 2.能赋值给变量或数据结构中的元素 3.能作为函数的参数传给函数 4.能作为函数的返回值返回结果 '''# 函数对象本身时function对象的实例d ...

  5. 读书笔记——《深入理解计算机系统》第三章_程序的机器级表示(一)

    前言:已经大四,没有去找工作,选择了保研,之所以这样选择,有三个原因,一.刚进校时,听说保研都是牛人才能行的事,所以一心努力保研:二.2008年开始,经济危机比较严重,工作不好找,虽然软件专业要找一份 ...

  6. 读书笔记(九)--三分做事,七分做人

    读书笔记--第9篇--<三分做事,七分做人>    1.享受孤独,享受痛苦.    2.有时是狮子,有时是狐狸.    3.真朋友:志同道合.雪中送炭.感言过失...    4.大树底下好 ...

  7. 小曾曾读书笔记 ||《大数据实践之路》

    <大数据实践之路>这本书,是由多位数据产品和分析师,根据自己的工作经验和个人总结,汇总而来. 类似这种合著作品的例子,现在越来越普遍,优点是可以发挥所长.精心雕刻,缺点也较为明显,就是章节 ...

  8. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY1

    学习内容及时间2022.06.01: 第一章[初识数据产品经理](p1-p24) 1.1为什么要有数据产品经理 1.1.1大数据行业现状: {什么是大数据?}: 1.目前没有一个统一准确的定义,因为不 ...

  9. 读书笔记之大数据计算模式

    1.大数据计算模式:根据大数据的不同特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,传统的并行计算方法主要从体系结构和编程语言层面定义了一些较为底层的并行计算抽象和模型 ...

  10. OCA读书笔记(9) - 管理数据同步

    9.Managing Data Concurrency 描述锁机制以及oracle如何管理数据一致性 监控和解决锁冲突 管理数据的并发--管理锁 数据的不一致: 脏读 更改丢失 幻影读 脏读: 数据是 ...

最新文章

  1. PE 文件格式 .text .data .idata .rsrc
  2. openmediavault 4.1.3 插件开发
  3. python编程基础知识体系_最新版 17 幅思维导图:Python 编程之核心知识体系
  4. inventor应用程序错误---解决方法
  5. postman使用介绍
  6. linux路由修改密码,Linux中修改Mysql root用户密码的方法
  7. halcon区域腐蚀膨胀算子_Halcon算子
  8. [渗透测试]扫目录,Sqlmap利用均超时,利用dirb扫描
  9. python的matplotlib库polar_【Python】matplotlib库
  10. CNN看清世界——浅谈四个经典网络的差异
  11. CentOS 安装OciLib 4.2.1 (Linux)
  12. python中的记录指针_使用Python向C语言的链接库传递数组、结构体、指针类型的数据...
  13. 工作流的ReplicatorActivity
  14. python项目“内存泄漏”的调试过程
  15. 【渝粤教育】电大中专电商运营实操 (7)作业 题库
  16. JFrame的层次结构究竟是什么样的,什么又是ContentPane()
  17. java 手写数字识别_10 行代码,实现手写数字识别
  18. 安卓手机模拟路由器 测试WIFI信道遍历
  19. linux下dft计算标准函数,FFT/DFT计算方法
  20. 万亿产业进化论,装备企业的机会在哪里?

热门文章

  1. 3dmax渲染计算机内存不足怎么办,解决3dmax渲染内存不够导致渲染失败的三种方法...
  2. epson连接计算机后无法打印,如何解决连接到Epson打印机后计算机无法打印的问题...
  3. java基础考试_Java基础试题及其答案
  4. 软考中级软件设计师--11.结构化开发
  5. Hive 计算 yyyyMMdd 之间的时间差
  6. NBU-备份系统盘和数据盘
  7. orbslam2稠密版建图
  8. Smobiler 窗体
  9. 二进制和格雷码之间的转换
  10. 计算机基础知识和运用2作图,2020年9月统考《计算机应用基础》基础知识试题及答案2...