回想一下,在逻辑回归中,需要预测的结果y^\hat{y}y^​可以表示为y^=σ(wTx+b)\hat{y}=\sigma(w^Tx+b)y^​=σ(wTx+b),其中σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1​。

我们约定y^=P(y=1∣x)\hat{y}=P(y=1|x)y^​=P(y=1∣x),即算法的输出y^\hat{y}y^​是给定训练样本x条件下y等于1的概率。换句话说,如果y=1,那么在给定x得到y=1的概率等于y^\hat{y}y^​。反过来说,如果y=0,那么在给定x得到y=0的概率等于1−y^1-\hat{y}1−y^​。因此y^\hat{y}y^​表示的是y=1的概率,1−y^1-\hat{y}1−y^​表示的就是y=0的概率。ify=1:p(y∣x)=y^if \space y=1: p(y|x)=\hat{y}if y=1:p(y∣x)=y^​ify=0:p(y∣x)=1−y^if \space y=0: p(y|x)=1-\hat{y}if y=0:p(y∣x)=1−y^​对于这两个式子,在y=1和y=0条件下定义了p(y∣x)p(y|x)p(y∣x),我们可以将这两个公式合并成y一个公式。

需要指出的是,我们讨论的是二分分类问题的成本函数,因此y的取值只能是0或者1,上述两个条件概率公式可以合并成下面这样:p(y∣x)=y^y(1−y^)(1−y)p(y|x)=\hat{y}^y(1-\hat{y})^{(1-y)}p(y∣x)=y^​y(1−y^​)(1−y)由于log函数是严格单调递增的函数,最大化log(p(y∣x))log(p(y|x))log(p(y∣x))等价于最大化p(y∣x)p(y|x)p(y∣x)
logp(y∣x)=logy^y(1−y^)(1−y)=ylogy^+(1−y)log(1−y^)=−Loss(y^,y)log\space p(y|x)=log\space \hat{y}^y(1-\hat{y})^{(1-y)}=ylog\space \hat{y}+(1-y)log\space (1-\hat{y})=-Loss(\hat{y},y)log p(y∣x)=log y^​y(1−y^​)(1−y)=ylog y^​+(1−y)log (1−y^​)=−Loss(y^​,y)最后一个公式中有一个负号是因为当训练学习算法时希望算法输出值的概率是最大的,然而在逻辑回归中,我们需要最小化损失函数,因此最小化损失函数就是最大化logP(y∣x)log\space P(y|x)log P(y∣x)。这就是单个训练样本的损失函数表达式。

整个训练集的成本函数是怎样表示的?探讨一下整个训练集中标签的概率P(labelsintargetset)P(labels in target set)P(labelsintargetset),假设所有的训练样本服从同一分布且相互独立,也就是独立同分布,所有这些样本的联合概率,就是每个样本概率的乘积,即从1到m的p(y(i)∣x(i))p(y^{(i)}|x^{(i)})p(y(i)∣x(i))的概率乘积,可以表示为p(labelsintargetset)=∏i=1mp(y(i)∣x(i))p(labels\space in\space target\space set)=\prod_{i=1}^mp(y^{(i)}|x^{(i)})p(labels in target set)=i=1∏m​p(y(i)∣x(i))如果你想做最大似然估计,需要寻找一组参数使得给定样本的观测值概率最大,令这个概率最大化,等价于令其对数最大化,在等式两边取对数logp(labelsintargetset)=log∏i=1mp(y(i)∣x(i))log\space p(labels\space in\space target\space set)=log\prod_{i=1}^mp(y^{(i)}|x^{(i)})log p(labels in target set)=logi=1∏m​p(y(i)∣x(i))通过转化得到
logp(labelsintargetset)=∑i=1mlogp(y(i)∣x(i))log\space p(labels\space in\space target\space set)=\sum_{i=1}^mlog\space p(y^{(i)}|x^{(i)})log p(labels in target set)=i=1∑m​log p(y(i)∣x(i))前面讲到logp(y(i)∣x(i))=−Loss(y^(i),y(i))log\space p(y^{(i)}|x^{(i)})=-Loss(\hat{y}^{(i)},y^{(i)})log p(y(i)∣x(i))=−Loss(y^​(i),y(i))在统计学里面,有一个方法叫最大似然估计,即求出一组参数,使这个式子取得最大值,公式可以写为logp(labelsintargetset)=−∑i=1mLoss(y^(i),y(i))log\space p(labels\space in\space target\space set)=-\sum_{i=1}^mLoss(\hat{y}^{(i)},y^{(i)})log p(labels in target set)=−i=1∑m​Loss(y^​(i),y(i))这样我们就推导出了前面给出的逻辑回顾的成本函数J(w,b)J(w,b)J(w,b),由于训练模型时,目标是让成本函数最小化,所以我们不直接使用极大似然估计,因此把公式中的负号去掉。最后为了方便,可以对成本函数进行适当的缩放,在公式前面加一个额外的常数因子(1m)(\frac{1}{m})(m1​)。其公式表示为J(w,b)=1m∑i=1mLoss(y^(i),y(i))J(w,b)=\frac{1}{m}\sum_{i=1}^mLoss(\hat{y}^{(i)},y^{(i)})J(w,b)=m1​i=1∑m​Loss(y^​(i),y(i))总结一下,为了最小化成本函数J(w,b)J(w,b)J(w,b),我们从逻辑回归模型的最大似然角度出发,假设训练集中的样本都是独立同分布的。

吴恩达深度学习 —— 2.18(选修)逻辑回归损失函数的解释相关推荐

  1. 吴恩达深度学习 —— 2.14 向量化逻辑回归的梯度输出

    这一节将学习如果向量化计算m个训练数据的梯度,强调一下,是同时计算. 前面已经说过,在逻辑回归中,有dz(1)=a(1)−y(1)dz^{(1)}=a^{(1)}-y^{(1)}dz(1)=a(1)− ...

  2. 吴恩达深度学习L1W2——实现简单逻辑回归

    文章目录 一些笔记 写作业 导入数据 取出训练集.测试集 处理数据的维度 标准化数据 sigmoid 函数 初始化参数w.b 前向传播.代价函数.梯度下降 优化 预测函数 模型整合 使用模型 绘制代价 ...

  3. 吴恩达深度学习笔记2.2 logistic回归

    regression:回归  supervised:有监督的 logistic回归是一种学习算法被用于有监督学习问题,当y全都是0或1时 例子:判断是否有猫 给定一个由特征向量x代表的图像,那个算法将 ...

  4. 吴恩达深度学习 | (18) 卷积神经网络专项课程第二周学习笔记

    课程视频 第二周PPT汇总 吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第四部分卷积神经网络专项的第二周课程:深度卷积网络:实例探究. 目录 1. 为什么要进行实例探究 2. 经典网络 3. ...

  5. 深度学习入门首推资料--吴恩达深度学习全程笔记分享

    本文首发于微信公众号"StrongerTang",可打开微信搜一搜,或扫描文末二维码,关注查看更多文章. 原文链接:(https://mp.weixin.qq.com/s?__bi ...

  6. 吴恩达深度学习教程——中文笔记网上资料整理

    吴恩达深度学习笔记整理 内容为网上博主博文整理,如有侵权,请私信联系. 课程内容: Coursera:官方课程安排(英文字幕).付费用户在课程作业中可以获得作业评分,每门课程修完可获得结课证书:不付费 ...

  7. 吴恩达深度学习编程作业报错解决方法汇总

    概述及资源分享 大二结束后的暑假,学习吴恩达深度学习([双语字幕]吴恩达深度学习deeplearning.ai_哔哩哔哩_bilibili)的课程,在做编程作业的时候总是遇到一些报错,尤其是导入所需要 ...

  8. [转载]《吴恩达深度学习核心笔记》发布,黄海广博士整理!

    红色石头 深度学习专栏 深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课.该专项课程最大的特色就是内容全面.通俗易懂并配备了丰富的实战项目.今天,给大家推荐一份关于该专项课程的核心笔记 ...

  9. 737 页《吴恩达深度学习核心笔记》发布,黄海广博士整理!

    点击上方"AI有道",选择"置顶"公众号 重磅干货,第一时间送达 深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课.该专项课程最大的特色就是内容 ...

最新文章

  1. 配置EditPlus为汇编的编辑工具
  2. 4.1.2(3) 数据交换方式
  3. matlab 若当标准型,若当标准型求解.pdf
  4. 关于java中BufferedReader的read()及readLine()方法的使用心得
  5. 【转】谈谈c#中异步编程模型的变迁**
  6. 关于mysql中Join语句的几个问题
  7. 现代C++模板元编程基础
  8. vue中select的option默认选中项的问题解决方案
  9. 广度优先搜索算法1-已知若干个城市的路线,求从一个城市到另外一个城市的路径,要求路径中经过的城市最少。
  10. Python爬虫-QQ音乐下载(详解)
  11. Viddy上视频营销最成功的6家公司
  12. 词性标注英文简称及分类
  13. Java 动态代理,invoke() 自动调用原理,invoke() 参数
  14. 微信小程序-云数据库-嵌套数组的修改删除操作
  15. 科技驰援 攻坚战疫 | 用友助力武汉协和医院部署捐赠物资管理系统,保证“物尽其用”...
  16. 网页被劫持跳转怎么办?发布网修复方法
  17. 【今日CV 计算机视觉论文速览 第138期】Mon, 1 Jul 2019
  18. ffmpeg合并视频时的尺寸注意事项
  19. python 报错 invalid value 2_【python】错误解决经历
  20. NANDFLASH介绍(转)

热门文章

  1. Juniper Olive动态路由RIP配置案例
  2. [Java] Scanner(new File( )) 从文件输入内容
  3. 现代成功男人的硬指标:盖房,种树,写书
  4. Nginx的Gzip介绍之压缩和解压缩
  5. 在Spring项目中集成使用MongoDB
  6. 1292 - Incorrect datetime valuemysql插入非法的时间数据解决方案
  7. 【静态站点(三)】之 Gridsome + Strapi + Vercel + Pm2 部署案例
  8. python把函数作为参数的函数
  9. Pandas数据类型及操作
  10. 标星7000+,这个 Python 艺术二维码生成器厉害了!