零膨胀回归模型简介及其R语言实现
概念
- 零膨胀现象:在计数数据中,若0的个数明显多于泊松、负二项等标准离散分布随机产生的个数,称此现象为零过多现象(zero-inflated, ZI)
- 零膨胀模型:伯努利分布与普通计数分布(泊松等)的混合分布,分为零数据部分及非零计数部分。
- 结构零&抽样零:零膨胀模型零数据部分一部分来自于普通计数分布产生的抽样零,另一部分来自于额外得到的结构零。实际上,结构零可以看成由取值为零的退化总体产生,抽样零则是由非退化总体(Poisson分布等)产生。
例如:在调查一种药物的吸食状况数据时,且该药物吸食数据已经通过Poisson分布检验,则可以认为,抽样零表示Poisson分布中产生的零数据,结构零表示在调研过程中吸食过该类药物却表示从未吸食过的受访者所产生的额外零数据。
常用零膨胀回归模型
零膨胀泊松回归模型
Lambert(1992)描述了零膨胀泊松(ZIP)混合分布,
记为Y~ZIP(Ф,λ)
当Ф=0时,ZIP分布退化为标准的Poisson分布;当0<Ф<1时,Ф越大,说明数据中的零膨胀现象越明显。
ZIP 数学期望与方差分别为:
在ZIP模型中,方差大于期望,这是由于模型中额外产生的结构零所致,从而可以解决事件发生数次零聚集所导致的过度离散现象。
为了讨论ZI数据中的因变量与自变量之间的关系,Lambert在ZI参数部分和泊松参数部分分别引入协变量,从而得到ZIP回归模型。
其中,X为非零计数部分协变量,W为零数据部分协变量,β为非零计数部分回归系数,γ为零数据部分回归系数。
R语言实现:
library(pscl)az1<-zeroinfl(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12)summary(az1)
运行结果会出现两个模块,“Count model”表示非零计数部分,“Zero-inflation model”表示零数据部分。
零膨胀负二项回归模型
将ZIP中涉及的Poisson分布改为负二项分布形式,即可得到零膨胀负二项分布模型,记为ZINB,其相应的混合分布为:
其中,δ=1/κδ=1/κδ=1/κ 为散度参数。
当散度参数δ→0δ→0δ→0时,ZINB模型退化为ZIP模型。于是ZINB混合分布的回归模型与ZIP回归模型一致,即为:
R语言实现代码:
library(pscl)
az2<-zeroinfl(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12,dist
= "negbin")
summary(az2)
实例分析
Y表示某类药物吸食状况数据,协变量有年龄、性别等12个指标。用ZIP进行模型拟合。
模型结果为:
在零数据部分,Ф表示的是零膨胀结构比例,在未吸食过该类药物的人群中,Ф越大,说明吸食该类药物的可能性越高。在非零计数部分,在已经吸食过该类药物的人群中,λ表示该类药物吸食频率均值,λ越大,说明吸食频率越高。
参考文献
- 解锋昌,韦博成,林金官.零过多数据的统计分析及其应用[M].科学出版社,2013
- 吴喜之.复杂数据统计方法–基于R的应用[M].中国人民大学出版社,2015
零膨胀回归模型简介及其R语言实现相关推荐
- 零膨胀负二项回归模型的使用 R语言
简介 近期,需要使用零膨胀负二项回归模型.因此,找到R语言中的一个包:pscl. 首先,使用Rstudio下载此包. install.packages("pscl") 该软件发表于 ...
- r语言svr模型_使用R语言建立一个决策树回归模型
决策树是一种简单但使用广泛的分类算法,根据目标变量的类型,决策树分为分类决策树(目标变量为因子型)与回归决策树(目标变量为连续数值型).在这里,我们使用R建议一个回归决策树模型. 决策树简单介绍 对于 ...
- 门槛回归模型_门限回归汇总与空间门槛回归模型简介
来源 | 数量经济学综合整理 转载请联系 进行回归分析,一般需要研究系数的估计值是否稳定.很多经济变量都存在结构突变问题,使用普通回归的做法就是确定结构突变点,进行分段回归.这就像我们高中学习的分段函 ...
- 数据挖掘-二项逻辑斯蒂回归模型算法的R实现
本次为学生时期所写的实验报告,代码程序为课堂学习和自学,对网络程序有所参考,如有雷同,望指出出处,谢谢! 基础知识来自教材:李航的<统计学习方法> 本人小白,仍在不断学习中,有错误的地方恳 ...
- 线性回归模型(最小二乘法模型)诊断--R语言
回归诊断 回归诊断技术向你提供了评价回归模型适用性的必要工具 8.3.1标准方法 对lm()函数返回的对象使用plot()函数,生成评价模型拟合情况的四幅图形 例子 fit <- lm(weig ...
- 计数数据分析模型:零膨胀负二项(ZINB)回归模型
1.计数统计模型 4.4 计数数据模型 - 百度文库https://wenku.baidu.com/view/2b488e62561252d380eb6eac.html2.python中df.desc ...
- R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
原文链接:http://tecdat.cn/?p=21444 逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选.概率预测.分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问 ...
- R语言无序多分类Logistic回归模型实战
R语言无序多分类Logistic回归模型实战 目录 R语言无序多分类Logistic回归模型实战 #导入包 #加载数据数据编码
- R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
全文下载链接:http://tecdat.cn/?p=11974 R2WinBUGS软件包提供了从R调用WinBUGS的便捷功能.它自动以WinBUGS可读的格式写入数据和脚本,以进行批处理(自1.4 ...
最新文章
- mysqldump和xtrabackup备份原理实现说明
- 8.8线段树和树状数组
- 100G内存下,MySQL查询200G大表会OOM么?
- qcolor文字生成颜色
- php字符串从a到z排序,js怎么实现中文按照A-Z排序
- C++笔记------模版
- python学习(十七) 扩展python
- 2015-12-01 SQL查询语句基础
- Begin using git (Part1) - Git的安装与配置
- java中chl列表_Java 同步框架 AQS 深入分析
- 用 Maven来管理java项目
- 5G适合py还是java,5G比4G到底有啥好处?看完就彻底明白了
- WSN基于自适应网格的多目标定位算法
- 【网站集合】【Windows】程序员常用网站一览
- 新浪微博应用开发者协议真坑爹啊!
- 巧用 import.meta 实现热更新
- 【Python】官方文档中文版
- Coco2d-x 3.x : Cocos Studio 制作的UI无法正确显示,出现绿色或白色底
- aria2c rpc php,Aria2(aria2c)
- esxi突然启动不起来了!显示:Error loading /sb.v00