1.定义
1.1逻辑斯谛分布
服从逻辑斯谛分布的X具有以下分布函数与密度函数
F(x)=P(X≤x)=11+e−(x−μ)γF(x)=P(X\leq x)=\frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}}F(x)=P(X≤x)=1+eγ−(x−μ)​1​
f(x)=F′(x)=e−(x−μ)γγ(1+e−(x−μ)γ)2f(x) = F'(x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma({1+e^{\frac{-(x-\mu)}{\gamma}}})^2}f(x)=F′(x)=γ(1+eγ−(x−μ)​)2eγ−(x−μ)​​
分布函数满足(μ\muμ,12\frac{1}{2}21​)为中心对称,密度函数轴对称

1.2 二项逻辑斯蒂回归模型
P(Y=1∣x)=exp(wx)1+exp(wx+b)P(Y=1|x)=\frac{exp(wx)}{1+exp(wx+b)}P(Y=1∣x)=1+exp(wx+b)exp(wx)​
P(Y=1∣x)=11+exp(wx)P(Y=1|x)=\frac{1}{1+exp(wx)}P(Y=1∣x)=1+exp(wx)1​
w为权重向量,b为偏置,w=(w1,w2...b).T,x=(x1,x2...1).T,wx内积w为权重向量,b为偏置,w=(w1,w2...b).T, x=(x1,x2...1).T,wx内积w为权重向量,b为偏置,w=(w1,w2...b).T,x=(x1,x2...1).T,wx内积

1.3参数估计,极大似然法
极大似然估计
估计参数www
已知P(Y=1∣x)=p1,P(Y=0∣x)=1−p1P(Y=1|x)=p1 ,P(Y=0|x)=1-p1P(Y=1∣x)=p1,P(Y=0∣x)=1−p1
即在已知参数未知x时,当前取值yi的概率为[p1]yi[1−p1]1−yi[p1]^yi[1-p1]^{1-yi}[p1]yi[1−p1]1−yi
则取得训练集结果的概率为累乘∏i=1[p1]yi[1−p1]1−yi\prod_{i=1}{[p1]^yi[1-p1]^{1-yi}}∏i=1​[p1]yi[1−p1]1−yi
已知当前结果概率最大,因此此时应取极大值,对数不影响极值且方便计算,因此通过对对数似然函数求导=0取得参数
回到公式:
L(w)=∑i=1(yiwxi−log(1+exp(wx)))L(w)=\sum_{i=1}{(y_iwx_i-log(1+exp(wx)))}L(w)=∑i=1​(yi​wxi​−log(1+exp(wx)))求极大值
问题转换为以L(w)为目标函数的最优化问题,在逻辑斯谛中通常采用梯度下降与拟牛顿法求解

1.4多分类及多项逻辑斯谛回归模型
即Y取值为{1,2,…k}
P(Y=K∣x)=exp(wkx)(1+∑k=1K−1exp(wkx)P(Y=K|x)=\frac{exp(w_kx)}{(1+\sum_{k=1}^{K-1}{exp(w_kx)}}P(Y=K∣x)=(1+∑k=1K−1​exp(wk​x)exp(wk​x)​

2.最大熵
H(P)=−∑P(x)log(P(x))H(P)=-\sum{P(x)log(P(x))}H(P)=−∑P(x)log(P(x))

2.1琴生不等式证明等概率分布时熵最大
琴生不等式对在[a,b]上的凸函数,存在p1,p2,...,pk∈[0,1]且∑pi=1,存在∑pif(xi)≤f(∑pixi)对在[a,b]上的凸函数,存在p1,p2,...,pk \in[0,1] 且\sum{pi}=1,存在\sum{pif(x_i) \le{f(\sum{pix_i)}}}对在[a,b]上的凸函数,存在p1,p2,...,pk∈[0,1]且∑pi=1,存在∑pif(xi​)≤f(∑pixi​)
−plogp为凸函数,可用琴生不等式-plogp为凸函数,可用琴生不等式−plogp为凸函数,可用琴生不等式
1kH(P)=∑1k(−plogp)≤(−(∑pk)log(∑pk))=(−1klog1k)=1klogk\frac{1}{k}H(P)=\sum{\frac{1}{k}(-plogp) \le (-(\sum{\frac{p}{k})log(\sum{\frac{p}{k}))}=(-\frac{1}{k}log\frac{1}{k})=\frac{1}{k}}log{k}}k1​H(P)=∑k1​(−plogp)≤(−(∑kp​)log(∑kp​))=(−k1​logk1​)=k1​logk
即H§ 在pi相等时最大

2.2最大熵原理与模型
最大熵原理认为,在满足条件的模型中,熵最大的模型最好。
模型:
已知:∑yP(y∣x)=1,Ep(fi)=Ep′(fi)已知:\sum_y{P(y|x)=1,E_p(f_i)=E_p'(f_i)}已知:∑y​P(y∣x)=1,Ep​(fi​)=Ep′​(fi​)
求maxH(P)=−∑P′(x)P(y∣x)logP(y∣x)求maxH(P)=-\sum{P'(x)P(y|x)logP(y|x)}求maxH(P)=−∑P′(x)P(y∣x)logP(y∣x)
即求给定x,y分布中最大熵分布
通常将约束最优化问题转换成无约束最优化的对偶问题
L(P,w)=−H(P)+w0(1−∑yP(y∣x))+∑iwi(Ep(fi)−Ep′(fi)L(P,w)=-H(P)+w_0(1-\sum_y{P(y|x)})+\sum_{i}wi(E_p(f_i)-E_p'(f_i)L(P,w)=−H(P)+w0​(1−∑y​P(y∣x))+∑i​wi(Ep​(fi​)−Ep′​(fi​)
Pw(y∣x)=1Zw(x)exp(∑wifi(x,y))P_w(y|x)=\frac{1}{Z_w(x)}exp{(\sum{w_if_i(x,y}))}Pw​(y∣x)=Zw​(x)1​exp(∑wi​fi​(x,y))
1Zw(x)=1∑wifi(x,y)\frac{1}{Z_w(x)}=\frac{1}{\sum{w_if_i(x,y)}}Zw​(x)1​=∑wi​fi​(x,y)1​
对数似然函数:
L(w)=∑x,yP(x,y)∑wifi(x,y)−∑(P(x)logZw(x))L(w)=\sum_{x,y}{P(x,y)\sum{wif_i(x,y)}-\sum(P(x)logZ_w(x))}L(w)=∑x,y​P(x,y)∑wifi​(x,y)−∑(P(x)logZw​(x))

3.模型学习的最优化算法
3.1改进的迭代尺度法
输入:特征函数fif_ifi​经验分布P′(X,Y)P'(X,Y)P′(X,Y)模型Pw(y∣x)P_w(y|x)Pw​(y∣x)
输出:最优参数值wi∗w_i^*wi∗​最优模型Pw∗P_w^*Pw∗​

  • 1.对所有i∈{1,2,...n}取wi=0\in\{1,2,...n\}取w_i=0∈{1,2,...n}取wi​=0
  • 2.对每个i,解方程∑P′(x)P(y∣x)fi(x,y)exp(σif#(x,y))=EP(fi)\sum{P'(x)P(y|x)fi(x,y)exp(\sigma_if^\#(x,y))}=E_P(f_i)∑P′(x)P(y∣x)fi(x,y)exp(σi​f#(x,y))=EP​(fi​)
  • f#(x,y)=∑fi(x,y)f^\#(x,y)=\sum{f_i(x,y)}f#(x,y)=∑fi​(x,y)
  • 更新wi=wi+σiw_i=w_i+\sigma_iwi​=wi​+σi​
  • 3.重复直到所有w收敛

3.2 拟牛顿法
输入:特征函数fif_ifi​经验分布P′(X,Y)P'(X,Y)P′(X,Y)目标函数f(w)f(w)f(w),梯度g(w)=f′(w)g(w)=f'(w)g(w)=f′(w)精度要求eee
输出:最优参数值wi∗w_i^*wi∗​最优模型Pw∗P_w^*Pw∗​

  • 1.选定w(0)w^{(0)}w(0),取B0B_0B0​为正定对称矩阵,k=0
  • 2.计算gk=g(wk)直到小于精度g_k=g(w^k)直到小于精度gk​=g(wk)直到小于精度得到w∗=wkw^*=w^kw∗=wk否则继续
  • 3.由Bkpk=−gkB_kp_k =-g_kBk​pk​=−gk​求出pkp_kpk​
  • 4.一维搜索,求λk\lambda_kλk​
  • f(wk+λkpk)=minλ≥0f(wk+λpk)f(w^k+\lambda_kp_k)=min_{\lambda\ge0}f(w^k+\lambda{p_k})f(wk+λk​pk​)=minλ≥0​f(wk+λpk​)
  • 5.wk+1=wk+λkpkw^{k+1}=w^k+\lambda_kp_kwk+1=wk+λk​pk​
  • 6.计算gk+1=g(wk+1),小于阈值停止,否则求Bk+1g_{k+1}=g(w^{k+1}),小于阈值停止,否则求B_{k+1}gk+1​=g(wk+1),小于阈值停止,否则求Bk+1​
  • Bk+1=Bk+ykykTykTσk−BkσkσkTBkσkTBkσkB_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\sigma_k}-\frac{B_k\sigma_k\sigma_k^TB_k}{\sigma_k^TB_k\sigma_k}Bk+1​=Bk​+ykT​σk​yk​ykT​​−σkT​Bk​σk​Bk​σk​σkT​Bk​​
  • yk=gk+1−gk,σk=wk+1−wky_k=g_{k+1}-g_k,\sigma_k=w^{k+1}-w^kyk​=gk+1​−gk​,σk​=wk+1−wk
  • 7.k=k+1,从3重复

逻辑斯谛回归logistic regression-最大熵相关推荐

  1. 逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)

    文章目录 1. Logistic Regression 模型 1.1 logistic 分布 1.2 二项逻辑斯谛回归模型 1.3 模型参数估计 1.4 多项逻辑斯谛回归 1.5 Python代码 2 ...

  2. 机器学习--逻辑斯谛回归(Logistic Regression)

    机器学习–逻辑斯谛回归(Logistic Regression) 基本概念 逻辑斯谛回归(Logistic Regression)虽然带回归,却是经典的分类方法.逻辑斯谛回归模型属于对数线性模型.它在 ...

  3. 在opencv3中实现机器学习之:利用逻辑斯谛回归(logistic regression)分类

    logistic regression,注意这个单词logistic ,并不是逻辑(logic)的意思,音译过来应该是逻辑斯谛回归,或者直接叫logistic回归,并不是什么逻辑回归.大部分人都叫成逻 ...

  4. 逻辑斯谛回归(Logistic Regression):函数、模型及其理论内涵

    逻辑斯谛回归(Logistic Regression)[又名逻辑回归,对率回归,对数几率回归]:函数.模型及其理论内涵 逻辑斯谛函数(logistic function)[即sigmoid函数]:函数 ...

  5. 【机器学习】Logistic Regression 的前世今生(理论篇)

    Logistic Regression 的前世今生(理论篇) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上 ...

  6. Logistic Regression (LR) 详解

    Logistic Regression (LR) 详解 最近忙着准备面试,偶然发现同学Q君在很认真地看LR(Logistics Regression),不由得心生蔑视,这么简单的模型有什么好研究的?结 ...

  7. 李弘毅机器学习笔记:第六章—Logistic Regression

    李弘毅机器学习笔记:第六章-Logistic Regression logistic回归 Step1 逻辑回归的函数集 Step2 定义损失函数 Step3 寻找最好的函数 损失函数:为什么不学线性回 ...

  8. 机器学习| 面试题:01、机器学习中LR(Logistic Regression)和SVM(Support Vector Machine)有什么区别与联系?

    问题 机器学习中LR(Logistic Regression)和SVM(Support Vector Machine)有什么区别与联系? 背景 LR和SVM的概念大家都有了解甚至很熟悉了,不过在面试中 ...

  9. 逻辑回归解释 (Logistic Regression)

    文章目录 什么是逻辑回归算法? 可视化曲线python 代码 最大似然估计 梯度下降法 Python代码简单实现(批量梯度下降法) 优缺点 什么时候用 多分类 应用场景 总结 什么是逻辑回归算法? L ...

  10. MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

    8.1 Introduction LR 是一个非常重要的模型,几乎所有的机器学习职位面试都会问到.因此这章是重点,一定要看懂. 8.2 Model specification 把线性回归的高斯分布,换 ...

最新文章

  1. 配置交换机etherchannel
  2. 中国有机玻璃市场竞争策略与投资前景建议报告2022-2028年
  3. i2c--insmod
  4. Java高并发程序设计前言
  5. 个人成长:2021年7月记
  6. 从网络IO看高性能框架
  7. Android内存泄漏分析及调试
  8. python通过解释器内置的open_Python 之 文件读写的学习
  9. 怎么用U盘安装ubuntu系统具体步骤图文详解
  10. 汉风西游辅助使用方法(此方法适用于红手指虚拟云手机和电脑雷电模拟器)
  11. matlab残差分析取离散点,matlab残差分析图
  12. 计算机关机 休眠睡眠有什么区别,电脑“关机”、“睡眠”、“休眠”三者区别是什么...
  13. Redux开发实用教程
  14. 博客园签名档图片圆角美化
  15. 5G基站耗电剑指4G基站水平,通过IMT-2020(5G)大会看5G发展趋势
  16. MySQL——Student、Course、Teacher、SC SQL查询练习题
  17. wordpress内容调用_WordPress网站的基本内容
  18. API常用类之Arrays类
  19. 函数与导数部分的题型梳理【中阶和高阶辅导】
  20. 三维动画制作软件测试指标,三维动画设计师需要具备哪些条件

热门文章

  1. 编写一个520表白网站并发布Web教程
  2. 网络邻居中打不开计算机,怎么解决Win7 64位旗舰版系统中网上邻居打不开
  3. excel转word_excel怎么转换成word格式手机?骨灰级方法确定不收藏吗?
  4. 涨跌的例题用C语言编辑,涨跌比率指标用法及源代码(ADR)
  5. 爬虫 登录开心网,登录人人网
  6. cmd的注释符号是什么?
  7. vs code 突然不能粘贴和复制
  8. Android Camera高级特性——手动对焦
  9. 早餐为啥不能吃大米粥?医生:不仅是米粥,这3物也最好少吃
  10. 程序员编程艺术第四十一章 四十二章 荷兰国旗 矩阵相乘Strassen算法