向前logistic回归与向后筛选出一样的变量_什么泊松分布?泊松回归又能做什么?...
之前的文章中我们介绍过最常用的——线性回归;数据不满足线性关系时可以使用的——曲线回归;当Y为定类数据时使用的——Logistic回归等。还有一些专门用来解决回归分析中出现的种种问题的回归方法,如解决多重共线性问题的岭回归、自动筛选变量的逐步回归、中介调节效应中用于对模型比较的分层回归等。
除了上述提及的,事实上还有很多回归分析方法,它们适用于不同类型的数据以及不同应用场景,正是这些分析方法组成了我们熟知的回归分析大军。
接下来,本文将要介绍的这个回归模型是专门针对计数数据的泊松回归。
说到泊松回归,首先要了解,什么是泊松分布?
试想一下,你现在就站在一个人流密集的马路旁,打算收集闯红灯的人群情况(?)。首先,利用秒表和计数器,一分钟过去了,有5个人闯红灯;第二分钟有4个人;而下一分钟有4个人。持续记录下去,你就可以得到一个模型,这便是“泊松分布”的原型。
除此以外,现实生活中还有很多情况是服从泊松分布的:
- 10分钟内从ATM中取钱的人数
- 一天中发生车祸的次数
- 每100万人中患癌症的人数
- 每天1万人中丢手机的人数
- ......
泊松回归模型
Poisson模型用于描述单位时间、单位面积或者单位容积内某事件发现的频数分布情况,通常用于描述稀有事件(即小概率)事件发生数的分布。
上述例子中明显的一个特点在于:低概率性,以及单位时间(或面积、体积)内的数量。通常情况下,满足以下三个条件时,可认为数据满足Poisson分布:
(1) 平稳性:发生频数的大小,只与单位大小有关系(比如1万为单位,或者100万为单位时患癌症人数不同);
(2) 独立性:发生频数的大小,各个数之间没有影响关系,即频数数值彼此独立没有关联关系;比如前1小时闯红灯的人多了,第2小时闯红灯人数并不会受影响;
(3) 普通性:发生频数足够小,即低概率性。
如果数据符合这类特征时,而又想研究X对于Y的影响(Y呈现出Poisson分布);此时则需要使用Poisson回归,而不是使用常规的线性回归等。
判断数据服从Poisson分布的方法
检验数据是否符合Poisson分布,共有两种方法:一种是通过特征判断;另外一种是通过Poisson检验。
特征判断即是要数据符合上面提到的三个条件;而如果用Poisson检验可在SPSSAU中【医学研究→Poisson检验】进行检验。
在现实研究中,可能更多会通过特征进行判断是否基本符合Poisson分布。
案例应用
(1)背景
当前有一份数据是从10个城市进行抽样获取的,用于研究影响患皮肤癌的影响因素,共有两个研究因素,分别是性别和年龄;被影响项为‘是否皮肤肺癌’。由于Y为‘是否皮肤肺癌’,而且明显的,‘是否皮肤肺癌’这个数据满足平稳性、独立性和普通性这三个特征;因而使用Poisson回归进行研究。
(2)操作步骤
性别为定类数据,分析前需要先进行哑变量处理再纳入模型,本例中以“男性”为参照项,因此放入“性别_女”。下图为哑变量设置步骤:
并且由于每个城市的人口基数不一样,分析时还有考虑人口基数这一数据,最终放置如下:
(3)结果分析
针对Poisson回归分析,SPSSAU共输出2个表格,分别是:似然比检验结果表以及Poisson回归分析结果汇总表。
①Poisson回归模型似然比检验表
上表用于模型检验,模型检验的原定假设为“是否放入X模型质量均一样”。根据上表可知,此处放入2个X分别是性别_女,年龄。而且P值为0.000 <0.05,意味着放入2个自变量后,模型质量有明显的提升,因而拒绝原定假设,本次模型构建有意义。卡方值和df值均为中间过程值可忽略。
AIC和BIC这两个指标值,可用于多个模型对比(AIC和BIC越小越好),当前放入2个自变量可记录下AIC和BIC值,如果多放一个自变量(即3个时),AIC和BIC值有着明显的下降,则可以选择3个自变量时的模型作为最终模型。
②Poisson回归分析结果汇总表
上表用于研究X对于Y的影响关系情况,表格中有意义的指标信息包括:P值,回归系数和R Pseudo R²。其它指标包括标准误,Z值,95%CI值意义相对较小。
从上表可知,模型伪R平方值(Pseudo R平方)为0. 900,意味着性别, 性别和年龄可以解释皮肤癌患病的90.0%变化原因。
模型公式为:log(u)=log(人口基数) -9.952-0.035*性别_女 + 0.643*年龄(其中u代表期望均数)。
具体分析,年龄一项回归系数为0.643,P值(P=0.000<0.01),说明年龄对患皮肤癌有着正向的影响,随着年龄的增长,患皮肤癌的可能性也提高。而性别对皮肤癌没有产生影响。
其他说明
Poisson分布是指单位时间/面积/体积内的发生数,因而如果基数不一致时,spssau分析时,一定要放入基数这个数据。
更多干货内容可登录SPSSAU官网查看
SPSSAU:回归分析超实用总结
SPSSAU:19种回归分析你知道几种呢?
SPSSAU:解决多重共线性之岭回归分析
向前logistic回归与向后筛选出一样的变量_什么泊松分布?泊松回归又能做什么?...相关推荐
- 向前logistic回归与向后筛选出一样的变量_了解逻辑回归系数
或者以更好的方式根据证据考虑概率 Photo by Franki Chamaki on Unsplash Logistic回归存在一个普遍的挫败感:系数难以解释. 如果您使用Logistic回归模型, ...
- 向前logistic回归与向后筛选出一样的变量_风控建模之特征筛选与建模(python)...
特征筛选 在建模之前的一步就是将特征工程做好的变量进行筛选,在风控项目中筛选分为两步:初步筛选.逐步回归筛选以及稳定性筛选. 初步筛选 通常评分卡模型的特征筛选主要从以下4个角度出发: 缺失率(一般变 ...
- RFE筛选出的特征变量竟然是Boruta的4倍之多
机器学习第21篇 - 特征递归消除RFE算法 理论 RFE算法实战 rfe函数有 4 个关键参数: x: 训练集数值矩阵 (不包含响应值或分类信息) y: 响应值或分类信息向量 sizes: 一个整数 ...
- matlab泊松回归程序,R - 泊松回归( Poisson Regression)
R - 泊松回归( Poisson Regression) 泊松回归涉及回归模型,其中响应变量是计数而不是分数的形式. 例如,足球比赛系列中的出生人数或获胜次数. 此外,响应变量的值遵循泊松分布. 泊 ...
- R语言泊松回归模型案例:基于AER包的affair数据分析
R语言泊松回归模型案例:基于AER包的affair数据分析 目录 R语言泊松回归模型案例基于AER包的affair数据分析 #数据加载
- thinkcmf 横向排列数据_Excel横向筛选出销量靠后的月份数据,你知道如何实现吗...
生来骨相本酸寒,天遣沙头把钓竿.但称山人擫耳帽,敢希楚客切云冠. ---[宋]陆游<即事> 常用Excel的小伙伴应该知道,我们在进行数据筛选的时候,只能进行竖向的筛选,却不能实现横向的筛 ...
- 根据更新量筛选出揽收后开始转运的单号
商家发出快递后都希望快点到站签收,那如何快速查询出快递物流信息,筛选出揽收后开始转换运的单号呢?这里分享一个小技巧.根据更新量来筛选第一站中转的单号,下面一起来看操作步骤. 先来查询出多个快递单号的物 ...
- R笔记:全子集回归 | 最优子集筛选变量挑选
R笔记:全子集回归 | 最优子集筛选 AIC 最优子集筛选(Best Subset Selection) 一统浆糊 2021-05-05 18:58 变量筛选中常用方法解释 R语言| 16. 预测模型 ...
- java服务器面试_如何面试筛选出动手能力强的Java服务端程序员
最近要招一名中高级程序员, 有位同学的面试表现我们几位面试官都觉得不错: 思维很活跃, 知识面也还挺广, 尤其是主动提及最近还在研究Disruptor这个高性能框架, 并说出了基本实现原理, 表现出喜 ...
最新文章
- 技嘉主板bios设置键盘不能用_BIOS不再硬梆梆、全新技嘉主板BIOS设置就算不是玩家也能轻松搞定...
- NetBeans 时事通讯(刊号 # 55 - May 06, 2009)
- java mysql jsp分页代码_JAVA/JSP学习系列之六(MySQL翻页例子)
- 孙鑫VC学习笔记:第一讲 Windows程序内部运行原理
- Sql不区分大小写查询
- AX2012/D365 批处理如何创建
- python jupyter notebook下载_Jupyter notebook 安装
- pythontiff怎么设置_在python中使用tiff文件
- 医学软件项目开发(二):医学图像的显示及相关操作
- Hibernate表间映射时HHH000142异常
- 2021-2027全球与中国Al2O3氧化铝陶瓷基板白板市场现状及未来发展趋势
- linux中ctrl+c、ctrl+z、ctrl+d、ctrl+l快捷键的使用
- roslaunch的.launch文件的标签总结
- 威廉玛丽学院计算机专业,威廉玛丽学院专业设置有哪些?
- CSS学习笔记之练习 2.25
- FA 镜头 工作距离 焦距及视野计算和结果
- 大数据可视化课程笔记 6
- 国产操作系统Office哪个好用?6款工具推荐!
- 光学字符识别(OCR,Optical Character Recognition)
- 如何在JPG照片尺寸不变的情况下压缩大小?
热门文章
- html5 mp4转换ogv格式,如何把OGV转换为MP4?用它,轻松转换视频文件!
- android引入开源项目方法,和解决android-support-v4.jar冲突问题
- 数组小案例(求数组最大最小值、反转数组中元素、指定元素第一次出现的索引)
- vue v-for循环动态获取_快速、简洁讲明Vue中vfor循环key的作用
- python函数控制词典_Python 基础之集合相关操作与函数和字典相关函数
- 修改oracle的表空间文件scn,分享:bbed修改数据文件头推进scn与其他数据文件相同...
- mysql currentuser_MySQL中DATABASE()和CURRENT_USER()函数的示例详解
- 软件测试常见笔试面试题(二)
- python网站用什么数据库_使用python读取mysql数据库并进行数据的操作
- robot framework好的学习网址