或者以更好的方式根据证据考虑概率

Photo by Franki Chamaki on Unsplash

Logistic回归存在一个普遍的挫败感:系数难以解释。 如果您使用Logistic回归模型,则可以尝试说"如果变量X上升1,则因变量发生的概率上升???",而" ???"是 有点难填写。

诀窍在于将"概率"一词更改为"证据"。在本文中,我们将了解如何量化证据。 借此,我们将讨论如何解释Logistic回归系数。

最后,我们将在这种情况下简要讨论多类Logistic回归,并与信息论建立联系。

这篇文章假设您具有解释线性回归系数的经验,并且至少曾经看过一次Logistic回归。

第1部分:另外两种考虑概率的方法

赔率和证据

我们习惯于将概率视为0到1(或等价的0到100%)之间的数字。 但这只是"合理程度"的特殊数学表示。

您熟悉的还有第二种表示"可信度"的方法:优势比。 例如,如果我告诉您"观察结果正确分类的几率是2:1",则可以检查正确分类的几率是三分之二。 同样,"偶数赔率"是指50%。

我的目标是说服您采用第三个:对数奇数或赔率的对数。 为了解释,我们将对数称为证据。 这是E.T. 杰恩斯(Jaynes)在其发表于2003年的巨著《概率论:科学逻辑》中。

通常,使用数学表示法时有两个注意事项。 首先,它应该是可解释的。 其次,数学性质应该方便。

解释证据:以哈特利计量

为了使您相信证据是可以解释的,我将为您提供一些数字量表,以校准您的直觉。

首先,可以用许多不同的单位来衡量证据。 我们将从哈特利(Hartley)一开始。 哈特利(Hartley)有许多名字:阿兰·图灵(Alan Turing)称其为"禁令",是布莱奇利公园附近一个城镇的名字。 它也被称为" dit",它是"十进制数字"的缩写。

查找Hartleys中概率为p的事件的证据的公式非常简单:

Computing the evidence, in Hartleys

其中赔率是p /(1-p)。 下表更容易解释。 请注意,已经聪明地使用了舍入以使概率看起来不错。 通过这种仔细的四舍五入,很明显1 Hartley大约是" 0.9"。

Table of Evidence, Odds, and Probability

注意1 Hartley是事件的充分证据。 一个更有用的措施可能是哈特利的十分之一。 " deci-Hartley"听起来很糟糕,因此更常见的名称是" deciban"或分贝。 这是另一个表格,使您可以了解分贝的数量。 希望您能看到这是衡量证据的一个不错的标准:不要太大也不能太小。

使用证据:贝叶斯法则

我还说过,证据应该具有便利的数学性质。 事实证明,证据自然出现在贝叶斯统计中。

假设我们希望将观察分类为True或False。 我们可以这样写:

Bayes' Law for Binary Classification

在贝叶斯统计中,每个等式的左侧称为"后验概率",是查看数据后分配的概率。 右侧的P(True)和P(False)都是我们看到数据之前的"先验概率"。 我们将这些概率视为信念状态,而贝叶斯定律则告诉我们如何从先前的信念状态转变为后继状态。 如果您不喜欢花哨的拉丁语单词,也可以将其称为"在←后"。

关于我们之前("之前")的信念状态后来的更多信息。 这里的标准方法是计算每个概率。 这可能只是一次尝试而已。 明智的方法是首先考虑赔率。 如果我们将前面的两个方程式相除,就会得到一个"后验几率"的方程式。

The Posterior Odds

然后,我们将考虑表示Ev的证据。 因此,Ev(True)是True分类的先验("之前")证据。 Ev(True | Data)是后验的(" after")。 我们以10的底数为单位,以Hartleys为单位得到此值:

The Data Science process, quantified

在二元分类的情况下,这告诉我们可以将数据科学过程解释为:收集数据,然后在假设中已有证据的基础上增加或减去。 通过量化证据,我们可以说得很直白:增加或减少金额!

其他单位系统

衡量证据有三种常见的单位惯例。 我们遇到了一个使用Hartleys / bans / dits(或decibans等)的文件。 当我们以10为底的对数时,就出现了单位的选择。

下一个单位是" nat",有时也称为" nit"。可以简单地通过以e为底的对数来计算。 回想一下e≈2.718是欧拉数。

最终的通用单位是"位",是通过以2为底的对数来计算的。在信息理论的传奇贡献者克劳德·香农(Claude Shannon)的传奇贡献之后,有时也称为香农。

在计算机发明之前,Hartley是最常用的证据和信息单位,因为它比其他两个要容易得多。 (请注意,信息与证据略有不同;更多信息请参见下文。)

对于出现的计算机,移动到位是有意义的,因为信息理论通常与在使用物理位的计算机上传输和存储信息有关。

最后,根据数学家的说法,自然对数是最"自然的"。 因此,这是许多软件包的默认选择。 在物理学中也很常见。

我相信,并鼓励您相信:

  • Hartley或deciban(以10为底)是最易解释的,应由对定量证据感兴趣的数据科学家使用。
  • 有兴趣量化信息的计算机科学家应使用该位。
  • nat应该由物理学家使用,例如在计算物理系统的熵时。

请注意,对于数据科学家而言,这涉及从默认选项nat转换模型输出。

最后,这是一个单位换算表。 我凭经验发现,很多人都知道头顶上的第一行。 0.69是金融中常见的72规则的基础。 3.01≈3.0是许多电气工程师所熟知的(" 3分贝是功率的两倍")。

Unit Conversion Table for Evidence

将证据转换为赔率和概率

刚刚说过,我们应该使用分贝而不是nat,我将在nat中进行本节操作,以便您以前已看过方程式。 让我们将证据表示为S。(公式为:

Formula for the Evidence S in nats

假设True的证据为S。则赔率和概率可以如下计算:

Converting evidence S to odds or a probability

如果最后两个公式看起来令人困惑,请计算出赔率是2:3的情况下您的马获胜的概率。 您将首先将2和3相加,然后将2除以它们的总和。

第2部分:了解逻辑回归

如果您相信我认为证据是思考事物的好方法,那么希望您开始看到一种非常干净的方法来解释逻辑回归。 首先,请记住逻辑S形函数:

希望您可以将其视为将信息转换为概率的函数,而不是复杂的符号混杂。 与上面的完全一样!

让我们将因变量视为0/1值指标。 因此,在以上语言中,0 = False和1 = True。 逻辑回归模型为

其中X是观测值(包括常数)的观测值向量,β是系数的向量,而σ是上面的S型函数。

这立即告诉我们,我们可以将系数解释为相关预测变量中每次更改提供的证据数量。

例如,假设我们对在线视频分类为"是否会传播病毒",而我们的预测指标之一是视频中包含猫咪的分钟数("猫咪")。

  • 如果该"猫"变量的系数为3.7,则表明我们每增加一分钟的猫出现时间,就会有3.7个nat(16.1分贝)的证据表明视频会传播病毒。
  • 将所有预测变量中的所有证据加起来(以及先前的证据-参见下文),您将获得总分。
  • 如果总证据为阳性,则分类为" True"或1,如果总证据为阴性,则分类为" False"或0。 但更重要的是,只需看看您有多少证据即可!

杂记

我选择了一些简短的要点。

The logit function is the inverse of the logistic function

  • 逻辑功能的逆函数是上述的logit。 许多作者根据logit定义了logistic回归。 当逻辑函数将证据转换为概率时,它的逆函数将概率转换为证据。此外,像往常一样,数学以纳特为单位进行,但是如果您想要不同的单位,那么您当然可以使用对数的不同底数。
  • 先验没什么可害怕的。 默认情况下,您选择"无任何证据"的先验,换句话说,选择0证据。 希望这似乎是合理的。 更改先验等同于更改分类阈值。 这是考虑如何构造ROC曲线的好方法。
  • 您可以检查交叉熵损失(也称为对数损失或偏差)可以描述如下。 让模型给出S证据以支持错误的预测。 那么,在S较大的极限中,损失为S。反之,如果S是支持正确预测的证据,则在S较大的极限中,交叉熵损失为exp(-S )。

第3部分:多类逻辑回归

鉴于以上讨论,在多类情况下要做的直观的事情是量化有利于每个类的信息,然后(a)分类为具有最有利信息的类; 和/或(b)预测每个类别的概率,以使任何两个类别之间的对数比值比是它们之间证据的差异。

我们可以通过softmax函数来实现(b)。 观察总共n个类别中的k类的概率为:

Softmax: Probability of observing class k out of n possibilities given the information in favor of e

将它们中的任意两个相除(例如k和ℓ)可得出适当的对数赔率。

我们如何估算有利于每个班级的信息? 有两个明显的选择:

  • (多项式)请注意,从数学上来说,将整个信息列表偏向每个类别都移动一定数量的Hartleys不会改变概率分布。 这是因为我们只关心类之间的信息差异。因此,我们不妨选择一个类(例如class类)并将其信息设置为0。然后估计相对于⭑类的每个其他类的证据。
  • (相对于其他的)对每个类别(例如k类),针对"是否为观察类k"运行简单的逻辑回归(二进制分类)。

在n = 2的情况下,方法1最明显地从上方再现了逻辑S型函数。 方法2也是等效的。

警告:对于n> 2,这些方法不相同。 (好消息是,在选项1中选择类别does不会改变回归的结果。)

在这里,我不会对此做深入探讨,因为我没有很多好的参考资料。 如果您想了解更多信息,请考虑从scikit-learn文档开始(该文档还讨论了1v1多类分类)。 如果您有/找到了很好的参考,请告诉我! 这里的重点更多是看证据的角度如何扩展到多类案件。

第四部分:信息论

这将是非常简短的,但是我想指出这与经典的信息理论相适应的方式。 信息理论从研究消息写下来需要多少位以及发送消息的属性开始。 1948年,克劳德·香农(Claude Shannon)能够得出概率为p的事件的信息(或熵或意外)是:

给定一个概率分布,我们可以计算每个样本的预期信息量,并获得熵S:

我选择省略对数的底数,该底数设置了单位(以位,小数为单位)。 从物理上讲,信息是这样实现的,即不可能无损地将消息压缩到其信息内容以下。

我们之间的联系有些松散,但在二进制情况下,True的证据是

负号是非常必要的,因为在信号分析中,经常发生的事情没有任何惊喜或信息内容; 对我们来说,经常发生的事情有很多证据。

结论

信息是不确定性的解决方案– Claude Shannon

概率是大多数人共享的一种通用语言,也是最容易交流的语言。但是,并不是每种情况都适用。 在这篇文章中:

  • 我们看到,证据的计算很简单:只需添加证据即可;
  • 我们针对"大量"证据(10至20分贝),"一些"证据(3至9分贝)或"不多"证据(0至3分贝)校准了您的感觉;
  • 我们看到了在解释逻辑回归系数时以及在贝叶斯环境中自然产生的证据。 和
  • 我们看到了它如何引导我们针对多分类案例进行正确考虑

我希望您养成将系数转换为分贝的习惯,并根据证据而非概率进行思考。

–拉维

参考/推荐

我强烈推荐E.T. 上面提到的杰恩斯的书。

就上下文而言 贾恩斯就是您所说的好战贝叶斯主义者。

  • 我在这里提出的"证据"的观点归因于他,并且正如所讨论的,在贝叶斯语境中自然而然地出现了。
  • 这本书的另一个重要特征是它从关于"合理程度"的定性考虑中得出(!!)概率定律。我从哲学上发现这很有趣。

另外:如果您不想获得纸质版本,那么Google上似乎有很多pdf的书。

(本文翻译自Ravi Charan的文章《Understanding Logistic Regression Coefficients》,参考:https://towardsdatascience.com/understanding-logistic-regression-coefficients-7a719ebebd35)

向前logistic回归与向后筛选出一样的变量_了解逻辑回归系数相关推荐

  1. 向前logistic回归与向后筛选出一样的变量_什么泊松分布?泊松回归又能做什么?...

    之前的文章中我们介绍过最常用的--线性回归:数据不满足线性关系时可以使用的--曲线回归:当Y为定类数据时使用的--Logistic回归等.还有一些专门用来解决回归分析中出现的种种问题的回归方法,如解决 ...

  2. 向前logistic回归与向后筛选出一样的变量_风控建模之特征筛选与建模(python)...

    特征筛选 在建模之前的一步就是将特征工程做好的变量进行筛选,在风控项目中筛选分为两步:初步筛选.逐步回归筛选以及稳定性筛选. 初步筛选 通常评分卡模型的特征筛选主要从以下4个角度出发: 缺失率(一般变 ...

  3. RFE筛选出的特征变量竟然是Boruta的4倍之多

    机器学习第21篇 - 特征递归消除RFE算法 理论 RFE算法实战 rfe函数有 4 个关键参数: x: 训练集数值矩阵 (不包含响应值或分类信息) y: 响应值或分类信息向量 sizes: 一个整数 ...

  4. 广义线性模型(Generalized Linear Model)之二:Logistic回归

    广义线性模型(Generalized Linear Model)之二:Logistic回归 一.引入:多元线性回归模型 二.Logistic回归模型 三.非条件logistic回归模型 (一)介绍 ( ...

  5. SPSS(八)logistic回归(图文+数据集)

    SPSS(八)logistic回归 我们之前的线性回归也好.线性回归衍生方法也好.非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量 lo ...

  6. R语言logistic回归的细节解读

    本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化. 文章目录 二项logistic回归 R语言中的 factor ...

  7. 6、spss做logistic回归

    前边我们用两篇笔记讨论了线性回归的内容.线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢?比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品, ...

  8. 乳腺癌细胞数据分析Logistic回归模型

    Breast_cancer_cells & Logistic_Regression 数据集以及源代码资源包: 链接:https://pan.baidu.com/s/1VIjTjtSa1Jngq ...

  9. logistic回归 如何_第七章:利用Python实现Logistic回归分类模型

    免责声明:本文是通过网络收集并结合自身学习等途径合法获取,仅作为学习交流使用,其版权归出版社或者原创作者所有,并不对涉及的版权问题负责.若原创作者或者出版社认为侵权,请联系及时联系,我将立即删除文章, ...

最新文章

  1. Java面试题-javaweb篇七
  2. 关于可扩展的web架构设计的探索-框架结构的描述文件
  3. erp系统方案书_一次ERP选型实施失败的血泪教训!
  4. 用户空间访问I2C设备驱动
  5. 使用NAT网关轻松为单台云服务器设置多个公网IP
  6. php mysql备份类_php MYSQL 数据备份类
  7. Linux就该这么学-使用实战
  8. 零散的JavaScript公用方法
  9. canvas需要gpu_提高HTML5 canvas性能的几种方法(转)
  10. 基于pt100的温度测量系统设计 c语言程序 四臂电桥,基于PT100热电阻传感器的温度采集系统设计资料...
  11. 微信小程序 import文件大小限制
  12. 中国马克思主义与当代——讨论课
  13. 期望和方差的定义与性质
  14. JAVA定义矩形类 方法二
  15. 一些基于 D3.js 的图表库
  16. 运维python要掌握到什么程度_运是什么意思 运字五行属什么
  17. 手持式水质监测仪在污水处理中的应用
  18. H5制作视频网页的架构
  19. 安装TensortFlow并配置到PyCharm中
  20. 软件界面设计原则(转)

热门文章

  1. DJI AirWorks|赛尔无人机携手大疆航测生态布局全球市场
  2. 最新版的快递单号生成查询工具 测试版
  3. android 京东收货地址,手机京东商城怎么添加收货地址?
  4. mybatis show sql 打印 SQL 语句到控制台
  5. Settings搜索栏界面绘制
  6. 51单片机(六)矩阵键盘和矩阵键盘密码锁
  7. Covenant利用分析
  8. MATLAB学习之数列极限(一)
  9. 利用docker+雨巷云打造私有网盘之安装mysql5.6(1)
  10. 信息论基础——信源熵及其性质研究