逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy)。都属于对数线性模型。

逻辑斯蒂回归模型


  • 逻辑斯蒂分布:设\(X\)是连续随机变量,\(X\)服从服从下列分布函数和密度函数(分布函数是一条S形曲线):\[F(x) = P(X \leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}\]\[f(x) = F^{'}(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}\]

  • 二项逻辑斯蒂回归模型:
    这里,\(x \in R^n\)是输入,\(Y\)是输出,为0或1,\(w \in R^n\)为权值向量,\(b \in R\)为偏置。
    \[P(Y=1 | x) = \frac{\exp (w \cdot x + b)}{1 + \exp (w \cdot x + b)}\]\[P(Y=0 | x) = \frac{1}{1 + \exp (w \cdot x + b)}\]
    为了方便,将\(w\)和\(x\)向量进行扩充,逻辑斯蒂回归如下:
    \[P(Y=1 | x) = \frac{\exp (w \cdot x)}{1 + \exp (w \cdot x)}\]\[P(Y=0 | x) = \frac{1}{1 + \exp (w \cdot x)}\]

  • 在逻辑斯蒂回归模型中,输出\(Y=1\)的对数几率(odds,\(p/(1-p)\))是输入\(x\)的线性函数。
    换个角度看,逻辑斯蒂回归模型将线性函数\(w \cdot x\)转换成概率,线性函数的值越接近正无穷,概率值越接近1;线性函数的值越接近负无穷,概率值约接近0。

  • 模型参数估计:
    给定数据集,使用极大似然估计法估计模型参数,推导如下:

    设:\(P(Y=1|x) = \pi (x), P(Y=0|x) = 1-\pi (x)\)
    那么似然函数为:\[\prod_{i=1}^N [\pi (x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i}\]求一下对数然后进行化简,得到对数似然函数为:\[L(w) = \sum _{i=1}^N [y_i (w \cdot x_i) - \log (1 + \exp (w \cdot x))]\]
    对上面的式子\(L(w)\)求极大值,得到\(w\)的估计值,然后通常采用梯度下降法或拟牛顿法。

  • 简单推广一下即可得到多项逻辑斯蒂回归模型(multi-nominal logistics regression model)。

最大熵模型


最大熵原理

  • 最大熵原理:认为在所有可能的概率模型中,熵最大的模型就是最好的模型。
    用约束条件来确定概率模型的集合,那么最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型。

    直观地看,概率模型必须满足已有的事实(约束条件),在没有更多信息的情况下,那些不确定的部分都是”等可能的“,用熵的最大化来表示等可能性。
    熵:\(H(P) = -\sum_x P(x) \log P(x)\),熵满足\(0 \leq H(P) \leq \log |X|\)

最大熵模型的定义

  • 给出一组训练数据集,它们是已有的信息,怎样将它们作为约束条件呢?

    根据训练数据集,确定联合分布\(P(X,Y)\)的经验分布,和边缘分布\(P(X)\)的经验分布:\[\tilde{P} (X=x,Y=y) = \frac{v(X=x,Y=y)}{N}\] \[\tilde{P}(X=x) = \frac{v(X=x)}{N}\]其中\(v(\cdot)\)表示训练数据中统计的频数,\(N\)表示训练样本容量。

    \(f(x,y)\)取值为0或1。
    计算特征函数\(f(x,y)\)关于经验分布\(\tilde{P}(X,Y)\)的期望值:\[E_{\tilde{P}} (f) = \sum_{x,y} \tilde{P} (x,y) f(x,y)\]计算特征函数关于模型\(P(Y|X)\)与经验分布\(\tilde{P}(X)\)的期望值:\[E_p (f) = \sum_{x,y} \tilde{P}(x) P(y|x)f(x,y)\]如果模型能够获取训练数据中的信息,那么假设这两个期望值相等:\[E_{\tilde{P}} (f) = E_p (f) \]把这个作为约束条件。如果有n个特征函数\(f_i(x,y), i = 1,2,...,n\),那么就有\(n\)个约束条件。

  • 最大熵模型:

    假设满足所有约束条件的模型集合为:\[\mathcal{C} = \{ P \in \mathcal{P} | E_p(f_i) = E_{\tilde{P}} (f_i), i =1,2,...,n\}\]定义在条件概率分布\(P(Y|X)\)上的条件熵为\[H(P) = -\sum_{x,y} \tilde{P} (x) P(y|x) \log P(y|x)\]则模型集合中条件熵最大的模型称为最大熵模型。

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程,形式化为约束最优化问题。

本章后续部分比较复杂,学习完凸优化以后再来补:

  • 最大熵模型这个约束最优化问题的求解和如何使用
  • 证明对偶函数的极大化等价于最大熵模型的极大似然估计
  • 模型学习的最优化算法:
    • 梯度下降法
    • 改进的迭代尺度算法IIS
    • 拟牛顿法BFGS算法

(注:本文为读书笔记与总结,侧重算法原理,来源为《统计学习方法》一书第六章)

作者:rubbninja
出处:http://www.cnblogs.com/rubbninja/
关于作者:目前主要研究领域为机器学习与无线定位技术,欢迎讨论与指正!

转载于:https://www.cnblogs.com/rubbninja/p/4959404.html

学习笔记——逻辑斯蒂回归与最大熵模型相关推荐

  1. 统计学习方法读书笔记(六)-逻辑斯蒂回归与最大熵模型(迭代尺度法(IIS))

    全部笔记的汇总贴:统计学习方法读书笔记汇总贴 逻辑斯谛回归 (logistic regression )是统计学习中的经典分类方法.最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(m ...

  2. 最大熵阈值python_第六章-逻辑斯蒂回归和最大熵模型

    逻辑斯谛回归是统计学习中的经典分类方法,和最大熵模型相比,具有以下的共同点和区别:共同点都属于概率模型,该模型要寻找的是给定一个x,得到输出变量Y的概率分布P(Y|x),如果是二分类,Y取值为0或1, ...

  3. 逻辑斯蒂回归与最大熵模型---最大熵模型

    为什么80%的码农都做不了架构师?>>>    最大熵原理 最大熵模型的定义 最大熵模型的学习 极大似然估计 转载于:https://my.oschina.net/liyangke/ ...

  4. 机器学习笔记——逻辑斯蒂回归(Logistic)

    1.线性回归 1.1线性回归概念   如果特征值之间存在线性关系就可以使用线性回归建模对其预测结果. 1.2最小二乘法求解   何为最小二乘法,我们有很多的给定点,这时候我们需要找出一条线去拟合它,那 ...

  5. 李航统计学习方法 Chapter6 逻辑斯蒂回归

    第6章 逻辑斯蒂回归和最大熵模型 逻辑斯谛回归(LR)是经典的分类方法 1.逻辑斯谛回归模型是由以下条件概率分布表示的分类模型.逻辑斯谛回归模型可以用于二类或多类分类. P(Y=k∣x)=exp⁡(w ...

  6. Logistic Regression 逻辑斯蒂回归

    文章目录 5.Logistic Regression 逻辑斯蒂回归 5.1 回归任务 5.1.1 MNIST Dataset 5.1.2 CIFAR-10 Dataset 5.2 Regression ...

  7. 逻辑斯蒂回归(logistic regression)原理小结

    逻辑斯蒂回归(logistic regression)原理小结 1. 模型函数 2. 损失函数 3. 学习算法 4. 加正则项的逻辑斯蒂回归 5. 多项逻辑斯蒂回归 6. 模型综合评价 7. 二分类 ...

  8. 逻辑斯蒂回归 - 多项式回归

    文章目录 一.预期结果 二.实验步骤 1)生成数据 2)算法实现 算法步骤: 1.获取规格化数据(系数矩阵.标签) 2.梯度上升法拟合系数 3.画图,看看拟合的准不准 结果 完整代码实现: 一.预期结 ...

  9. 逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...

    本文包括: 重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...

最新文章

  1. 不知所“云”:小企业对云托管知之甚少
  2. C语言面试题(四)--------------------网上题目
  3. 源码时代php中级项目,PHP学科项目评比圆满结束
  4. MFC中字符间相互转换总结
  5. 使用PagedDataSource类实现分页
  6. bzoj 1643: [Usaco2007 Oct]Bessie's Secret Pasture 贝茜的秘密草坪(DP)
  7. 如何让Mac电脑在Finder窗口顶部显示文件路径?
  8. 拓端tecdat|用R对Twitter用户的编程语言语义分析
  9. gatedata graph digitier 基本使用
  10. 计算机无法访问桌面,桌面无法显示_电脑桌面显示:无法访问,你可能没有权限使用网络......
  11. 联想服务器修改ip地址,联想 lenove 3750 M4服务器更改启动项和管理口IP
  12. android----面试基础概括总结
  13. 智能视频抠图_黑科技 !人工智能抠图神器来了,抠图原来如此简单【918期】...
  14. 身为UI设计师,如何应对失业的恐慌
  15. 《高效团队待人技巧》的读书笔记
  16. 如何删除掉设备和驱动器下百度网盘的图标
  17. Linux系统资源查看
  18. 校园招聘之Offer、三方协议、两方协议、劳动合同都是什么?怎样避免被坑?...
  19. 2022-2027年中国电动汽车充电站及充电桩行业市场调研及未来发展趋势预测报告
  20. 从SQL出发,程序开发的必备大法

热门文章

  1. mysql always as_MySQL always returning BIT values as blank
  2. html中的数字选框,带有复选框和数字类型的HTML表单提交与PHP?
  3. Docker框架的使用系列教程(一)
  4. ddos攻击数据集_ddos攻击和cc攻击有什么区别?他们2个哪个更厉害?
  5. 详解javascript的bind方法
  6. ios html特殊符号转化,iOS HTML特殊字符转译
  7. Linux学习笔记---使用BusyBox创建根文件系统(二)
  8. 改了两天的bug,一个JWT解决了。。。
  9. JSP九大内置对象四大作用域
  10. 2n皇后问题(dfs)