吴恩达深度学习 —— 2.18（选修）逻辑回归损失函数的解释

回想一下，在逻辑回归中，需要预测的结果y^\hat{y}y^可以表示为y^=σ(wTx+b)\hat{y}=\sigma(w^Tx+b)y^=σ(wTx+b)，其中σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1。

我们约定y^=P(y=1∣x)\hat{y}=P(y=1|x)y^=P(y=1∣x)，即算法的输出y^\hat{y}y^是给定训练样本x条件下y等于1的概率。换句话说，如果y=1，那么在给定x得到y=1的概率等于y^\hat{y}y^。反过来说，如果y=0，那么在给定x得到y=0的概率等于1−y^1-\hat{y}1−y^。因此y^\hat{y}y^表示的是y=1的概率，1−y^1-\hat{y}1−y^表示的就是y=0的概率。ify=1:p(y∣x)=y^if \space y=1: p(y|x)=\hat{y}if y=1:p(y∣x)=y^ify=0:p(y∣x)=1−y^if \space y=0: p(y|x)=1-\hat{y}if y=0:p(y∣x)=1−y^对于这两个式子，在y=1和y=0条件下定义了p(y∣x)p(y|x)p(y∣x)，我们可以将这两个公式合并成y一个公式。

需要指出的是，我们讨论的是二分分类问题的成本函数，因此y的取值只能是0或者1，上述两个条件概率公式可以合并成下面这样：p(y∣x)=y^y(1−y^)(1−y)p(y|x)=\hat{y}^y(1-\hat{y})^{(1-y)}p(y∣x)=y^y(1−y^)(1−y)由于log函数是严格单调递增的函数，最大化log(p(y∣x))log(p(y|x))log(p(y∣x))等价于最大化p(y∣x)p(y|x)p(y∣x)
logp(y∣x)=logy^y(1−y^)(1−y)=ylogy^+(1−y)log(1−y^)=−Loss(y^,y)log\space p(y|x)=log\space \hat{y}^y(1-\hat{y})^{(1-y)}=ylog\space \hat{y}+(1-y)log\space (1-\hat{y})=-Loss(\hat{y},y)log p(y∣x)=log y^y(1−y^)(1−y)=ylog y^+(1−y)log (1−y^)=−Loss(y^,y)最后一个公式中有一个负号是因为当训练学习算法时希望算法输出值的概率是最大的，然而在逻辑回归中，我们需要最小化损失函数，因此最小化损失函数就是最大化logP(y∣x)log\space P(y|x)log P(y∣x)。这就是单个训练样本的损失函数表达式。

整个训练集的成本函数是怎样表示的？探讨一下整个训练集中标签的概率P(labelsintargetset)P(labels in target set)P(labelsintargetset)，假设所有的训练样本服从同一分布且相互独立，也就是独立同分布，所有这些样本的联合概率，就是每个样本概率的乘积，即从1到m的p(y(i)∣x(i))p(y^{(i)}|x^{(i)})p(y(i)∣x(i))的概率乘积，可以表示为p(labelsintargetset)=∏i=1mp(y(i)∣x(i))p(labels\space in\space target\space set)=\prod_{i=1}^mp(y^{(i)}|x^{(i)})p(labels in target set)=i=1∏mp(y(i)∣x(i))如果你想做最大似然估计，需要寻找一组参数使得给定样本的观测值概率最大，令这个概率最大化，等价于令其对数最大化，在等式两边取对数logp(labelsintargetset)=log∏i=1mp(y(i)∣x(i))log\space p(labels\space in\space target\space set)=log\prod_{i=1}^mp(y^{(i)}|x^{(i)})log p(labels in target set)=logi=1∏mp(y(i)∣x(i))通过转化得到
logp(labelsintargetset)=∑i=1mlogp(y(i)∣x(i))log\space p(labels\space in\space target\space set)=\sum_{i=1}^mlog\space p(y^{(i)}|x^{(i)})log p(labels in target set)=i=1∑mlog p(y(i)∣x(i))前面讲到logp(y(i)∣x(i))=−Loss(y^(i),y(i))log\space p(y^{(i)}|x^{(i)})=-Loss(\hat{y}^{(i)},y^{(i)})log p(y(i)∣x(i))=−Loss(y^(i),y(i))在统计学里面，有一个方法叫最大似然估计，即求出一组参数，使这个式子取得最大值，公式可以写为logp(labelsintargetset)=−∑i=1mLoss(y^(i),y(i))log\space p(labels\space in\space target\space set)=-\sum_{i=1}^mLoss(\hat{y}^{(i)},y^{(i)})log p(labels in target set)=−i=1∑mLoss(y^(i),y(i))这样我们就推导出了前面给出的逻辑回顾的成本函数J(w,b)J(w,b)J(w,b)，由于训练模型时，目标是让成本函数最小化，所以我们不直接使用极大似然估计，因此把公式中的负号去掉。最后为了方便，可以对成本函数进行适当的缩放，在公式前面加一个额外的常数因子(1m)(\frac{1}{m})(m1)。其公式表示为J(w,b)=1m∑i=1mLoss(y^(i),y(i))J(w,b)=\frac{1}{m}\sum_{i=1}^mLoss(\hat{y}^{(i)},y^{(i)})J(w,b)=m1i=1∑mLoss(y^(i),y(i))总结一下，为了最小化成本函数J(w,b)J(w,b)J(w,b)，我们从逻辑回归模型的最大似然角度出发，假设训练集中的样本都是独立同分布的。

吴恩达深度学习 —— 2.18（选修）逻辑回归损失函数的解释相关推荐

吴恩达深度学习 —— 2.14 向量化逻辑回归的梯度输出
这一节将学习如果向量化计算m个训练数据的梯度,强调一下,是同时计算. 前面已经说过,在逻辑回归中,有dz(1)=a(1)−y(1)dz^{(1)}=a^{(1)}-y^{(1)}dz(1)=a(1)− ...
吴恩达深度学习L1W2——实现简单逻辑回归
文章目录一些笔记写作业导入数据取出训练集.测试集处理数据的维度标准化数据 sigmoid 函数初始化参数w.b 前向传播.代价函数.梯度下降优化预测函数模型整合使用模型绘制代价 ...
吴恩达深度学习笔记2.2 logistic回归
regression:回归 supervised:有监督的 logistic回归是一种学习算法被用于有监督学习问题,当y全都是0或1时例子:判断是否有猫给定一个由特征向量x代表的图像,那个算法将 ...
吴恩达深度学习 | (18) 卷积神经网络专项课程第二周学习笔记
课程视频第二周PPT汇总吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第四部分卷积神经网络专项的第二周课程:深度卷积网络:实例探究. 目录 1. 为什么要进行实例探究 2. 经典网络 3. ...
深度学习入门首推资料--吴恩达深度学习全程笔记分享
本文首发于微信公众号"StrongerTang",可打开微信搜一搜,或扫描文末二维码,关注查看更多文章. 原文链接:(https://mp.weixin.qq.com/s?__bi ...
吴恩达深度学习教程——中文笔记网上资料整理
吴恩达深度学习笔记整理内容为网上博主博文整理,如有侵权,请私信联系. 课程内容: Coursera:官方课程安排(英文字幕).付费用户在课程作业中可以获得作业评分,每门课程修完可获得结课证书:不付费 ...
吴恩达深度学习编程作业报错解决方法汇总
概述及资源分享大二结束后的暑假,学习吴恩达深度学习([双语字幕]吴恩达深度学习deeplearning.ai_哔哩哔哩_bilibili)的课程,在做编程作业的时候总是遇到一些报错,尤其是导入所需要 ...
[转载]《吴恩达深度学习核心笔记》发布，黄海广博士整理！
红色石头深度学习专栏深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课.该专项课程最大的特色就是内容全面.通俗易懂并配备了丰富的实战项目.今天,给大家推荐一份关于该专项课程的核心笔记 ...
737 页《吴恩达深度学习核心笔记》发布，黄海广博士整理！
点击上方"AI有道",选择"置顶"公众号重磅干货,第一时间送达深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课.该专项课程最大的特色就是内容 ...

吴恩达深度学习 —— 2.18（选修）逻辑回归损失函数的解释

吴恩达深度学习 —— 2.18（选修）逻辑回归损失函数的解释相关推荐

最新文章

热门文章