第十六章:回归分析:建立模型

1、一般线性模型,式中每一个自变量zj(j=1,2…,p)都是x1,x2,……xk的函数。

被称为具有一个预测变量的简单一阶模型;被称为具有一个预测变量的二阶模型。

注:“一般线性模型”仅指的是β0、β1…,βp全是一次幂,并不意味着y和这些xi之间存在线性关系

当两个变量之间存在交互作用时,我们不可能独立于其他变量之外,单独地考察一个变量对响应变量y的影响。

涉及变量之间的变换:①、比例变换:如非常数方差存在时用“取对数”来修正;②、倒数变换:用1/y作应变量来代替y。

③、指数模型的变换:形如的指数模型可变换成

指数模型属于内线型的非线性模型(参数(β0、β1、…、βp)的幂次超过一次的模型)。

2、如何确定应该增加或者删减一个变量:F检验或者t检验。

原多元回归模型:,现增加p-q个自变量,

变成:

为了检验增加的自变量是否在统计上是显著的,提出原假设和备择假设。

给出F统计量:

将计算得到的F统计量的值与【分子自由度:p-q,分母自由度:n-p-1的】F分布表的上侧分位数Fα比较。

若:F>Fα,则拒绝H0,结论:增加的这组自变量在统计上是显著的。

3、

4、变量选择方法:①、逐步回归②、前向选择③、后向消元④、最佳子集回归。

前3种方法通过“反复迭代”,每一步只增加or删除一个自变量(选择自变量的准则就是“F统计量”),不断对新的回归模型进行评价;这种迭代过程会一直持续下去直到找不到一个更好的模型为止。

例如:考虑增加x2到包含x1的模型中或从包含x1和x2的模型中删除x2,为了检验增加/删除x2在统计上是否显著,假设如下:

,相应的F统计量应为:

可以利用这个统计量来确定x2的存在是否会引起误差平方和有一个显著的减少。

对应这个F统计量的p-值也可以用来拒绝:如果p-值≤α,则拒绝H0。

第4种方法(最佳子集回归)不是单变量一次性方法,是要对包含不同的自变量子集的回归模型进行评价。

①、逐步回归:逐步回归法可以认为是向前引入法与向后剔除法的综合。逐步回归法克服了向前引入法与向后剔除法的缺点,吸收两种方法的优点。逐步回归法是以向前引入为主,变量可进可出的变量选取方法。它的基本思想是,当被选入的变量在新变量引入后变得不重要时,可以将其剔除,而被剔除的变量当它在新变量引入后变得重要时,又可以重新选入方程。

②、前向选择:从模型中没有自变量开始,一次增加一个变量,一旦一个自变量进入模型中,将不允许删除。

③、后向消元:从包含所有自变量的模型开始。一次删除一个,一旦一个自变量从模型中删除,将不允许再次进入。

前向选择与后向消元是建模过程的两个极端,两种方法可能得到同样的估计回归方程,也可能得到不同的。

④、最佳子集回归:可以借助软件实现。

5、序列相关性/自相关性:yt表示y在时期t的值,而yt的值又依赖y在以前时期的值——这样的一种现象。

一阶自相关性:y在t时期的值依赖于y在t-1时期的值【t时期的误差项也依赖于t-1时期的误差项】。

当数据存在自相关性时,如果根据假设的回归模型进行统计显著性检验,就有可能发生严重错误。【因此重点是:检测出自相关性的存在并作出适当修正】。用杜宾-瓦特森统计量来检验一阶自相关性。

假设误差项的值不独立,相互依赖关系为:式中,-1<ρ<1,称为自协方差系数/一阶自相关系数,Zt是一个均值为0、方差为σ2的独立的正态分布随机变量。【如果ρ=0,误差项之间不相关,回归模型的假定被满足;ρ>0,正自相关;ρ<0,负自相关。】

杜宾-瓦特森统计量式中,表示第i个残差。【如果残差相邻值较小(正自相关性)则杜宾-瓦特森检验统计量值比较小;反之,则比较大。】

杜宾-瓦特森统计量的取值介于【0,4】,并且在0~4之间有两个值(dL和dU)表示了不存在自相关性的范围。

第十七章:时间序列分析及预测

使用被预测变量的过去历史数据值进行预测未来值的方法称为时间序列法,历史数据即称为时间序列。时间序列分析的目的是在历史资料或时间序列中发现规律性的模式,然后将这个模式外推到未来。这种预测仅仅依赖于变量的过去值和(或)过去的预测误差。

因果预测法:假定一个因果关系,将想要预测的时间序列的值作为应变量,其它相关的变量作为自变量。如预测销售量(Y)和广告支出(X)的关系。

时间序列法:将时间视为自变量,时间序列视为应变量。时间序列回归是指自变量是时间的回归分析应用。

1、时间序列的模式:水平模式、趋势模式、季节模式、趋势季节模式、循环模式。

2、朴素预测法:用当前周的数据作为下一周的预测值;

过去数值平均数法:所有历史数据的均值作为下一期的预测值;

预测误差:预测误差=实际值-预测值(有正有负,可能相互抵消);

百分数误差:预测误差/实际值*100%

平均绝对误差MAE(mean absolute error):预测误差绝对值的平均数【注:如果有12组数据,则除以11】。

均方误差MSE(mean squared error):预测误差平方和的平均数。

平均绝对百分数误差MAPE(mean absolute percentage error):百分数误差的绝对值的平均数。

3、水平模式时间序列的三种预测方法:移动平均法、加权移动平均法、指数平滑法。

①、移动平均法:使用时间序列中最近k期数据值的平均数作为下一时期的预测值。

②、加权移动平均法:一般地,最近时期的观测值有较大的权重,较远时期的观测值则权重较小。

③、指数平滑法:t+1期的预测值是t期的实际值&预测值的加权平均。

对公式进行变形,得到:【若时间序列包含大量随机波动,则选择较小平滑常数α;大的α的优点是迅速调整预测,使得预测对改变的条件反应更迅速;大多数预测误差由随机波动引起的,一般不希望对预测做出过度的反应和过快的调整。确定α合理值的准则:选择MSE达到最小的α值

4、趋势模式时间序列的预测方法

①、用简单线性模型预测具有线性趋势的时间序列:

②、Holt线性指数平滑:

③、非线性趋势回归:a)、二次趋势方程:    b)、指数趋势方程:

5、季节模式时间序列的预测方法:

①没有趋势的季节性:

②、季节性&趋势:将季节性的虚拟变量方法和处理线性趋势的回归方法结合起来。

比如:

6、时间序列分解法:将一个时间序列分隔huo分解出季节、趋势和不规则成分。

加法模型适用于季节影响不依赖于时间序列水平的情形【前期季节影响的规模和后期季节影响的规模相同】;

乘法模型适用于季节影响随时间发生改变的情形【如长期线性趋势随着销售量的增加逐渐增大】

乘法模型:①、计算季节指数;②、消除季节影响的时间序列;③、利用消除季节影响的时间序列确定趋势【方法同4点】;④、用季节指数调整消除季节影响的趋势推测值【趋势值*相应的季节指数】。

第十八章:非参数方法

(前几章)统计推断的参数方法:先假定总体的概率分布服从正态分布,基于这个假定,得到用于推断一个或多个总体参数【如总体均值μ、总体标准差σ】的抽样分布,【第九章中,介绍了假定总体服从正态分布,其参数μ和σ未知的情况下对总体均值进行统计推断的方法。用样本标准差s来估计总体标准差σ,对总体均值进行推断的统计量服从t分布。因此,对正太总体均值可以用t分布确定置信区间和进行检验。】

对总体推断的非参数方法,对总体概率分布形式的假定没有要求,也称为无分布方法。用于非参数方法的计算一般与分类型数据有关,即使数据是数值型的,为进行非参数检验,也要讲其转化为分类型数据。

1、符号检验(提供了检验总体中位数假设的非参数方法):将每个样本观测值与总体中位数的假设值进行比较,,用+表示;,用-表示;如果观测值=中位数,则剔除该数据

+/-的分配符合二项分布,且试验是独立的, 令p表示加号的概率, 如果H0成立,则p=0.5,因此可将假设转化为二项概率p的假设。

①、对总体中位数假设检验:a)、建立假设:转化为关于二项概率p的假设

b)、对于样本容量n≤20时,可以查到二项分布的概率值,此时如果观测到的加号的个数为q,则计算(在n,p=0.5下)加号≥q的概率:。又因为是双侧检验,所以将计算得到的概率值*2,最终若p-值<α,则拒绝H0。

如果遇到单侧检验【如H0:中位数≤450,Ha>450,则p-值等于样本中加号个数≥某个值的二项概率;】。

当样本容量比较大时(一般>20),二项分布近似正态分布。

∵二项分布是离散型的,而正态分布是连续形的,∴用一个区间(q-0.5,q+0.5)上的正态概率计算个数为q的二项概率(0.5称为连续性校正因子)。最后利用正态概率分布表计算得到p-值。

②、匹配样本的假设检验:非参数符号检验分析分类性数据(如偏好的差异),加号用来表示对A的偏好,负号表示对B的偏好。

2、威尔科克森符号秩检验:检验使用数量型数据,但不要求配对观测值之差(一个人用两种方法的差)服从正态分布,只需要假定配对观测值之差具有对称的分布。

【第10章中,介绍的匹配样本实验设计,n个实验单位中的每一个提供一对观测值(1个人既用方法1又用法2),其中一个来自总体1,另个来自总体2。要求数据为数量型,且假定了配对观测值之差服从正态分布,利用t分布对两个总体均值之差进行推断。】

①、建立假设:剔除差异为0的数据。

②、计算差的绝对值,再计算秩:将差的绝对值由低到高排序,最低为1,最高为n(样本容量)。【注:如果出现相同的值,则秩为他们的平均(比如有两个值相等,原来的秩应该是10和11,实际上要统一都为10.5)】

③、将秩赋值(+/-):原来的差值为负值,则秩为-,差为正值,则秩为+。、

检验统计量: (指正的秩之和)

:如果总体满足对称分布,那么威尔科克森符号秩检验时总体中位数的首选非参数检验;

但是,如果总体是偏斜分布,则首选1中的符号检验。】

3、曼-惠特尼-威尔科克森检验:

4、克鲁斯卡尔-沃利斯检验:对来自k个总体的k个独立随机变量进行非参数方法的假设检验。既可使用顺序性数据也可使用数量型数据,并且不需要假定总体服从正态分布。

假设的一般形式: 利用卡方分布表来确定检验的p-值。(H值要介于两个之间)

5、斯皮尔曼秩相关系数:

第十九章:质量管理的统计方法

控制图对确定 产品中的质量变异是来源于一般原因(在控)还是来源于一般原因(失控),提供了一个做出决策的基础。

1、均值控制图:

①、过程均值和标准差已知的期望为总体均值μ,对于容量为n的样本,的标准差为,当x服从正太分布时,对于任何容量的样本,的抽样分布也服从正态,即的抽样分布服从均值为μ,标准差为的正态分布。

此时的控制限:

②、过程均值和标准差未知:实践中,因为极差容易计算,且可以提供过程标准差很好的估计,常用来代替标准差监测过程的变异性。

定理:过程标准差σ的一个估计量为平均极差除以是一个依赖于样本容量n的常数。

,其中平均极差

此时:中心线:

控制限:【注:A2是仅依赖于样本容量的常数】

2、极差控制图/R控制图:将样本的极差看做一个有均值(平均极差)和标准差(,d2、d3仅依赖于样本容量的常数)的随机变量。

此时,

3、p控制图:利用有缺陷项目的比例构造的控制图。

的抽样分布可以用来确定值所期望的变异性。对于容量为n的样本,的标准差(又称比例的标准误差)为

当样本容量充分大(满足np≥5,n(1-p)≥5即可)时,的抽样分布近似正态分布。

此时的控制限:

4、np控制图:当样本容量充分大(满足np≥5,n(1-p)≥5即可),在一个容量为n的样本中观测到有缺陷项目数的分布可以近似服从均值为np,标准差为的正态分布。

5、接受抽样:不同于百分百检测;费用少、搬运少,损害小、人员少,且是破坏性检验的唯一方法。

接收准则c:在可以接受的样本批次中发现有缺陷项目的最大数量。

第二十章:指数

选择商品要有代表性,基期选择不应与报告期太远,删除因品质改变而导致价格上涨的部分。

《商务与经济统计》(四)相关推荐

  1. 关于《那些年啊,那些事——一个程序员的奋斗史》——24提到的鼻炎治疗方法

    在<那些年啊,那些事--一个程序员的奋斗史>--24中有提到用清水治疗鼻炎的方法,很多朋友在留言或email都有问到这问题,在此一并做个回答.         简单说说norains的鼻炎 ...

  2. 《那些年啊,那些事——一个程序员的奋斗史》十四(完结)

    125 距离离职交接的一个月时间还剩几天,本来应该是平淡无事的,却没想到最后还是波澜四起.昨天下班前,公司突然停了电.这本是件普通得不能再普通的事情,可没想到过了一会来电了,或许是波峰电压太大,或许是 ...

  3. 《那些年啊,那些事——一个程序员的奋斗史》——128 (终章)

    周五,如约而至.张文香果然没有被邀请,武总自然也是被排除之列,来的都是平时大家谈得比较来的.几个月不见,小黑和小蓝还是老样子,但精神相比以前是好多了:麦吉则没什么太大的变化,倒是陈莉胖了不少,颇有一番 ...

  4. 关于 那些年啊,那些事——一个程序员的奋斗史 ——24提到的鼻炎治疗方法

    分享一下我老师大神的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow 在<那些年啊 ...

  5. 关于 那些年啊 那些事 一个程序员的奋斗史 24提到的鼻炎治疗方法

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 在< ...

  6. 《那些年啊,那些事——一个程序员的奋斗史》——79

    旧的4.3'主板是废弃了,新的带CMMB的板子开始了.对于新的板子来说,其实只是在旧的板子上做改动,比如删掉蓝牙模块啊,去掉视频输入啊等:最大的不同,只是根据Telechips的原理图增加CMMB部分 ...

  7. 那些年啊,那些事——一个程序员的奋斗史 ——23

    分享一下我老师大神的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow "开会咯 ...

  8. 《那些年啊,那些事——一个程序员的奋斗史》——23

    "开会咯!"黄华中在研发部嚷了一下,让大家到外面的会议桌去.说起来,自从段伏枥来到这公司以来,已经差不多有好几个月,却连一个会都没有开过,甚至是小一点的内部会议都没有.为什么突然间 ...

  9. 《那些年啊,那些事——一个程序员的奋斗史》——117

    这段时间段伏枥在折腾.NET Micro Framework的时候,终于体会到什么叫举步维艰了.因为这玩意没有操作系统做支撑,直接是操作硬件,有时候出问题了,根本就不知道是如何引起的. 比如说,在移植 ...

  10. 《那些年啊,那些事——一个程序员的奋斗史》——38

    自从会见了律师之后,时间又过了一周,期间还是和往常没什么两样,段伏枥依然还是赶最后一班公交,周六还是依然需要加班.不过,经过王健的努力,这板子终究还是跑起来了.不过,这跑起来的概念也就是能够进入Win ...

最新文章

  1. 宏基因组学习交流4群成立
  2. java中类加载机制、类加载过程和类加载器层次
  3. scrapy使用笔记
  4. linux内核打开文件数,放开Linux内核对用户进程可打开文件数和TCP连接的限制
  5. C++生成指定范围内的随机数
  6. SonarQube代码质量管理平台C++插件sonar-cxx的安装
  7. 运行shell脚本报错:“syntax error near unexpected token fi 的解决方法
  8. python对投标_batterytender-为Python del API投标-Jason Kölker Module
  9. 黄章钦点的魅族大将,为什么会引发群嘲?
  10. 设备密码的设置以及遗忘重设置
  11. 第一次面试总结--中国电子科学研究院
  12. react-native 解决“Could not get BatchedBridge...” 的问题
  13. 数据库课设 - 机票预订系统
  14. 谷歌小恐龙PHP代码,Chrome小恐龙前端修改代码代码总结
  15. 第三届算法设计与编程挑战赛(冬季赛)G题
  16. 【开源】发卡程序/会员/分站/三级分销/对接易码/免签支付/完美运营
  17. PADS VX2.8 原理图图页的添加与名称修改的方法
  18. MySQL部署OGG
  19. 利用计算机网络实现OA的功能,oa系统是什么,oa系统功能介绍
  20. 不一样的蓝牙连接方式——C#程序实现蓝牙通信

热门文章

  1. python通讯卡_如何使用树莓派连接EM-18RFID阅读器模块 并通过Python脚本从一些RFID卡访问信息...
  2. 汽车数字化零售优化全渠道体验
  3. 打开word时显示microsoft visual basic运行时错误没有注册类怎么解决?
  4. QT应用之透明背景_嵌入式freambuffer_QWS背景淡绿色问题
  5. [汇编] 在屏幕中央显示时钟
  6. 只可顺守不可逆取书法_关于如何练字,分享给想练好书法的人
  7. MIPI DSI之DBI DPI含义和区别(3-1)
  8. windows生产力提升-装机必备
  9. RGMII_PHY测试笔记1 基于开发板MiS603-X25
  10. CSDN学霸课表——把Word的默认背景颜色由白色改为绿色