学习笔记——逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy）。都属于对数线性模型。

逻辑斯蒂回归模型

逻辑斯蒂分布：设\(X\)是连续随机变量，\(X\)服从服从下列分布函数和密度函数（分布函数是一条S形曲线）：\[F(x) = P(X \leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}\]\[f(x) = F^{'}(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}\]
二项逻辑斯蒂回归模型：
这里，\(x \in R^n\)是输入，\(Y\)是输出，为0或1，\(w \in R^n\)为权值向量，\(b \in R\)为偏置。
\[P(Y=1 | x) = \frac{\exp (w \cdot x + b)}{1 + \exp (w \cdot x + b)}\]\[P(Y=0 | x) = \frac{1}{1 + \exp (w \cdot x + b)}\]
为了方便，将\(w\)和\(x\)向量进行扩充，逻辑斯蒂回归如下：
\[P(Y=1 | x) = \frac{\exp (w \cdot x)}{1 + \exp (w \cdot x)}\]\[P(Y=0 | x) = \frac{1}{1 + \exp (w \cdot x)}\]
在逻辑斯蒂回归模型中，输出\(Y=1\)的对数几率（odds，\(p/(1-p)\)）是输入\(x\)的线性函数。
换个角度看，逻辑斯蒂回归模型将线性函数\(w \cdot x\)转换成概率，线性函数的值越接近正无穷，概率值越接近1；线性函数的值越接近负无穷，概率值约接近0。
模型参数估计：
给定数据集，使用极大似然估计法估计模型参数，推导如下：

设：\(P(Y=1|x) = \pi (x), P(Y=0|x) = 1-\pi (x)\)
那么似然函数为：\[\prod_{i=1}^N [\pi (x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i}\]求一下对数然后进行化简，得到对数似然函数为：\[L(w) = \sum _{i=1}^N [y_i (w \cdot x_i) - \log (1 + \exp (w \cdot x))]\]
对上面的式子\(L(w)\)求极大值，得到\(w\)的估计值，然后通常采用梯度下降法或拟牛顿法。
简单推广一下即可得到多项逻辑斯蒂回归模型（multi-nominal logistics regression model）。

最大熵模型

最大熵原理

最大熵原理：认为在所有可能的概率模型中，熵最大的模型就是最好的模型。
用约束条件来确定概率模型的集合，那么最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型。

直观地看，概率模型必须满足已有的事实（约束条件），在没有更多信息的情况下，那些不确定的部分都是”等可能的“，用熵的最大化来表示等可能性。
熵：\(H(P) = -\sum_x P(x) \log P(x)\)，熵满足\(0 \leq H(P) \leq \log |X|\)

最大熵模型的定义

给出一组训练数据集，它们是已有的信息，怎样将它们作为约束条件呢？

根据训练数据集，确定联合分布\(P(X,Y)\)的经验分布，和边缘分布\(P(X)\)的经验分布：\[\tilde{P} (X=x,Y=y) = \frac{v(X=x,Y=y)}{N}\] \[\tilde{P}(X=x) = \frac{v(X=x)}{N}\]其中\(v(\cdot)\)表示训练数据中统计的频数，\(N\)表示训练样本容量。

\(f(x,y)\)取值为0或1。
计算特征函数\(f(x,y)\)关于经验分布\(\tilde{P}(X,Y)\)的期望值：\[E_{\tilde{P}} (f) = \sum_{x,y} \tilde{P} (x,y) f(x,y)\]计算特征函数关于模型\(P(Y|X)\)与经验分布\(\tilde{P}(X)\)的期望值：\[E_p (f) = \sum_{x,y} \tilde{P}(x) P(y|x)f(x,y)\]如果模型能够获取训练数据中的信息，那么假设这两个期望值相等：\[E_{\tilde{P}} (f) = E_p (f) \]把这个作为约束条件。如果有n个特征函数\(f_i(x,y), i = 1,2,...,n\)，那么就有\(n\)个约束条件。
最大熵模型：

假设满足所有约束条件的模型集合为：\[\mathcal{C} = \{ P \in \mathcal{P} | E_p(f_i) = E_{\tilde{P}} (f_i), i =1,2,...,n\}\]定义在条件概率分布\(P(Y|X)\)上的条件熵为\[H(P) = -\sum_{x,y} \tilde{P} (x) P(y|x) \log P(y|x)\]则模型集合中条件熵最大的模型称为最大熵模型。

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程，形式化为约束最优化问题。

本章后续部分比较复杂，学习完凸优化以后再来补：

最大熵模型这个约束最优化问题的求解和如何使用
证明对偶函数的极大化等价于最大熵模型的极大似然估计
模型学习的最优化算法：
- 梯度下降法
- 改进的迭代尺度算法IIS
- 拟牛顿法BFGS算法

(注：本文为读书笔记与总结，侧重算法原理，来源为《统计学习方法》一书第六章)

作者：rubbninja
出处：http://www.cnblogs.com/rubbninja/
关于作者：目前主要研究领域为机器学习与无线定位技术，欢迎讨论与指正！

转载于:https://www.cnblogs.com/rubbninja/p/4959404.html

学习笔记——逻辑斯蒂回归与最大熵模型相关推荐

统计学习方法读书笔记（六）-逻辑斯蒂回归与最大熵模型（迭代尺度法（IIS））
全部笔记的汇总贴:统计学习方法读书笔记汇总贴逻辑斯谛回归 (logistic regression )是统计学习中的经典分类方法.最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(m ...
最大熵阈值python_第六章-逻辑斯蒂回归和最大熵模型
逻辑斯谛回归是统计学习中的经典分类方法,和最大熵模型相比,具有以下的共同点和区别:共同点都属于概率模型,该模型要寻找的是给定一个x,得到输出变量Y的概率分布P(Y|x),如果是二分类,Y取值为0或1, ...
逻辑斯蒂回归与最大熵模型---最大熵模型
为什么80%的码农都做不了架构师?>>> 最大熵原理最大熵模型的定义最大熵模型的学习极大似然估计转载于:https://my.oschina.net/liyangke/ ...
机器学习笔记——逻辑斯蒂回归(Logistic)
1.线性回归 1.1线性回归概念如果特征值之间存在线性关系就可以使用线性回归建模对其预测结果. 1.2最小二乘法求解何为最小二乘法,我们有很多的给定点,这时候我们需要找出一条线去拟合它,那 ...
李航统计学习方法 Chapter6 逻辑斯蒂回归
第6章逻辑斯蒂回归和最大熵模型逻辑斯谛回归(LR)是经典的分类方法 1．逻辑斯谛回归模型是由以下条件概率分布表示的分类模型.逻辑斯谛回归模型可以用于二类或多类分类. P(Y=k∣x)=exp⁡(w ...
Logistic Regression 逻辑斯蒂回归
文章目录 5.Logistic Regression 逻辑斯蒂回归 5.1 回归任务 5.1.1 MNIST Dataset 5.1.2 CIFAR-10 Dataset 5.2 Regression ...
逻辑斯蒂回归（logistic regression）原理小结
逻辑斯蒂回归(logistic regression)原理小结 1. 模型函数 2. 损失函数 3. 学习算法 4. 加正则项的逻辑斯蒂回归 5. 多项逻辑斯蒂回归 6. 模型综合评价 7. 二分类 ...
逻辑斯蒂回归 - 多项式回归
文章目录一.预期结果二.实验步骤 1)生成数据 2)算法实现算法步骤: 1.获取规格化数据(系数矩阵.标签) 2.梯度上升法拟合系数 3.画图,看看拟合的准不准结果完整代码实现: 一.预期结 ...
逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...
本文包括: 重要概念逻辑斯蒂回归和线性回归二项逻辑斯谛回归模型逻辑斯蒂回顾与几率模型参数估计多项逻辑斯谛回归其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...