python拟合离散数据_Logit模型拟合实战案例（Python）—

前言：本文详细介绍如何在Python中拟合Logit模型，包括数据准备、哑变量的处理、参数拟合结果解读等内容。

本文为系列离散选择模型(Discrete

Choice Model, DCM)系列文章的第6篇。更多文章请关注公众号：蜂蜂Eric。

在掌握Logit模型的基本理论框架之后，可以通过多种方法进行模型的拟合——SAS、R、MATLAB、Stata、Python都可以。在DCM系列文章的第5篇中，我们用SAS软件去拟合Logit模型(更多介绍请参照：Logit模型拟合实战案例(SAS)——离散选择模型之五)；本篇尝试用Python去拟合同样的模型，并对结果进行解读。

案例介绍：

这里仍然使用和上一篇中相同的数据。我们要研究的问题是：在申请的研究生的时候，什么样的学生更容易被录取。

原始数据保存在名为“Application.csv”的文件中(文件格式为csv格式)，每一行代表一条申请者的记录：

原始数据中包含3个自变量：

申请者的GRE成绩，用变量gre表示；

申请者的平均绩点，用变量gpa表示；

申请者所在的本科院校的排名，用变量rank表示。

变量gre和gpa都是连续变量。rank为离散变量，只能取1、2、3、4中的某一个值；rank=1对应的学校排名最高，而rank=4对应的排名最低。

申请的结果只有两种情形：“录取”或者“拒绝”。我们用变量admit表示申请结果，显然，admit是一个二分类的变量——admit=1表示“申请者被录取”，admit=0表示“申请者被拒绝”。

软件准备：

本例需要调用下面这几个包：

numpy：Python中用于数值计算的包，可以方便地进行数组和矩阵的相关计算；

pandas：利用pandas可以高效地对数据进行操作和管理；

statsmodels：Python中用于统计建模和计量经济学的包，可以进行描述性统计、统计模型估计和推断等操作；

pylab：本例中用于绘图。

运行Python代码之前，请确保已经正确安装相应的软件包。

建模准备：

正式建模之前，可以先做一些描述性分析(Descriptive analysis)——看一看样本中各变量的均值、方差等等，以加强对数据的理解。具体实现步骤如下。

在Python中导入相应的包：

用pandas的read_csv()

函数读取原始数据文件，并展示前5行：

由于pandas的DataFrame数据结构也有一个方法的名称为rank，这容易与原始数据表中的列名rank产生混淆。将原始数据表中的列名rank更改为sch_rank：

用describe() 函数对样本中的各变量做描述性分析，结果如下面所示。我们可以得到每一个变量的出现的频数(count)、均值(mean)、标准差(std)、最大/小值(min/max)、百分位数(25%，50%，75%)等信息。这一步相当于SAS中的Proc

Means和Proc Freq。

当然，还可以做一下交叉频数分析，粗略地观察(离散的)自变量和因变量之间关系。例如，根据下图我们就可以看出：在样本中，当申请者所在的学校排名越高时(’sch_rank=1’)，申请者被录取的比例也就越大。

还可以利用直方图来可视化数据：

(P.S. Python新手一枚，这图中间有点挤，各位有什么方法可以增加中间的间距么？谢谢！)

数据准备：

在Python中拟合Logit模型的过程非常简单，直接调用statsmodels库中的Logit() 函数即可。调用Logit() 函数的基本格式：

Logit() 函数有两个输入参数：

endog代表和因变量(Y)对应的数据，通常为一维的数组；本例中就是原始数据中和变量admit相对应的那一列数据：

exog代表和自变量(X)对应的数据；本例中就是变量gre、gpa、rank(后更名为sch_rank)相对应的那一部分数据：

问题在于——

(1)变量sch_rank是一个分类变量，需要对其进行哑变量处理。在SAS中，分类变量的哑变量化是通过 class 语句实现的(如下图)，而在Python中这一步需要手动实现。

(2)Logit()函数不会自动添加常数项[1]，因此我们在准备数据的时候，需要手动添加常数项。

可见，知道了Python中利用Logit() 函数就可以拟合Logit模型后，剩余工作的难点在于数据的准备。

利用pandas中的get_dummies()

函数对分类变量sch_rank进行哑变量化操作，其结果是得到sch_rank_1、sch_rank_2、sch_rank_3、sch_rank_4四个0-1变量：

由于sch_rank_1+ sch_rank_2 + sch_rank_3 + sch_rank_4=

1, 所以不能直接把这四个变量同时放到模型(否则会有共线性的问题)，我们选取sch_rank_4作为基变量(和上一篇的SAS案例保持一致)，把sch_rank_1、sch_rank_2、sch_rank_3和其它两个自变量gre、gpa的数据拼到一起：

手动添加常数项：

至此，数据准备工作已经完成！

模型拟合：

在拟合Logit模型的时候，只要从上面的data中提取出因变量、自变量(含常数项)相对应的列，然后放到Logit()函数中即可。

提取和自变量、常数项相对应的列名：

拟合Logit模型。拟合的结果存储于result对象中：

输出result对象中的拟合结果：

上表中输出了Logit模型的相关拟合结果。结果包含两部分：上半部分给出了和模型整体相关的信息，包括因变量的名称(Dep. Variable: admit)、模型名称(Model: Logit)、拟合方法(Method: MLE 最大似然估计)等信息；下半部分则给出了和每一个系数相关的信息，包括系数的估计值(coef)、标准误(std err)、z统计量的值、显著水平(P>|z|)和95%置信区间。

根据上表可以得到本例中Logit模型的具体形式：

由于哑变量sch_rank_3的值并不显著(0.591)，因此sch_rank_3没有包含在上面的模型中。

前文中说过(参见系列文章之：Logit究竟是个啥？–离散选择模型之三 – 知乎专栏)，在Logit模型中，变量的系数是指：自变量每变化一个单位，胜率(Odds)的对数的变化值。在本例中，以变量gre的系数为例，其解读方式为：

当其它变量保持不变时，申请者的GRE成绩每增加一分，其被录取的胜率的对数

增加0.0023。取对数后，可以得到胜率

变成原来的

倍(这一步的计算代码参见下图)。

求各系数的指数值(即相应的Odds)：

也可输出和Odds相对应的95%置信区间：

我们可以将Python中输出的结果和SAS中的结果(见下图)进行对比——二者的系数估计结果基本一致(一个细小的区别是：在检验单个变量是否显著时，statsmodels用的是z统计量，SAS用的是Wald Chi-Square 统计量)。

更多关于离散选择模型的文章，欢迎关注微信公众号：蜂蜂Eric。

参考资料：

更多相关文章请关注微信公众号：蜂蜂Eric

python拟合离散数据_Logit模型拟合实战案例（Python）——离散选择模型之六相关推荐

《Python金融大数据风控建模实战》第6章变量分箱方法
<Python金融大数据风控建模实战> 第6章变量分箱方法本章引言 Python代码实现及注释本章引言变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力.变量分箱方法主要 ...
Python提取pdf中的表格数据（附实战案例）
14天阅读挑战赛今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber. pdfplumber简介 pdfplumber是一款基于pdfmi ...
python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解
这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言喜马拉雅是专业的音频分享平台,汇集 ...
python数据分析实战案例-Python数据分析案例实战
原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授.软件的使用,案例只是辅助学习.然而很多学员反映,希望可以 ...
python自动化办公实战案例,python 自动化办公案例
推荐几个适合新手练手的Python项目谷歌人工智能写作项目:小发猫 python编程:输入一个自然数n,如果n为奇数,输出表达式1+1/3+-+1/n的值 def summ(n): if n%2: ...
【Pytorch神经网络实战案例】15 WGAN-gp模型生成Fashon-MNST模拟数据
1 WGAN-gp模型生成模拟数据案例说明使用WGAN-gp模型模拟Fashion-MNIST数据的生成,会使用到WGAN-gp模型.深度卷积GAN(DeepConvolutional GAN,DC ...
python文件审计系统_Python代码审计实战案例总结之CRLF和任意文件读取
介绍 Python代码审计方法多种多样,但是总而言之是根据前人思路的迁移融合扩展而形成.目前Python代码审计思路,呈现分散和多样的趋势.Python微薄研发经验以及结合实际遇到的思路和技巧进行总结 ...
Python函数练习题：通讯录管理程序实战案例
嗨害大家好鸭!我是小熊猫❤ 好久没有整实战案例类文章辽今天就来整一整~ 功能简介实现一个通讯录管理程序,使用函数来实现程序,采用模块化的程序设计方法: 划分通讯录程序的功能模块,使用函数实现相应的 ...
【Python】京东消费行为数据分析可视化实战案例
©️数据STUDIO投稿 · 作者|理智一.背景京东JD.COM-专业综合网上购物商城,销售超数万品牌,4020万种商品,囊括家电.手机.电脑.服装.居家.健康.母婴.美妆.个护.食品.旅游等品类 ...

python拟合离散数据_Logit模型拟合实战案例（Python）——离散选择模型之六

python拟合离散数据_Logit模型拟合实战案例（Python）——离散选择模型之六相关推荐

最新文章

热门文章