转载自 https://www.zhihu.com/question/65288314/answer/849294209

交叉熵这东西你如果理解为两个概率分布会发现它就是nonsense,你得把对数里面那个分布理解为真实的随机变量分布,而将对数外面那个理解为观察到的频率。然后你就会发现它就是最最原始的MLE(最大似然估计)套了个时髦的壳而已。

比如说现在有一个真实分布为 P(x) 的随机变量,我们对它进行了N次独立同分布实验,对于每个可能的结果x观察到的次数为 N(x) ,那么它的似然值就可以写成

很好理解对吧,乘法公式,把每次实验的概率乘起来,然后合并相同的项写成幂次。这是个乘积的形式,取个对数可以得到求和的形式:

这个式子有两个缺点,第一它是个负数,第二它的数值跟样本数有关,样本越多数值越小,因此除以一下总的样本数归一化,再取个相反数,然后改用频率表示:
这就齐活了。因此可以看出,交叉熵最小实质上就是似然值最大。我们可以证明,在给定 Po 的情况下,使交叉熵最小的分布P一定有 P=Po ,只需要用拉格朗日乘子法就可以: 求偏导得到
即 Po 和 P 成比例,再根据归一化条件得到 P=Po 因此在有模型约束的条件下求交叉熵最小值,也就是让模型输出的分布尽量能接近训练数据的分布。

交叉熵的本质是极大似然估计相关推荐

  1. 逻辑回归(Logistic Regression)原理及损失函数、极大似然估计

    一.什么是逻辑回归 虽然名字是"回归",但解决的是"分类"问题. 模型学习的是E[y∣x;θ]E[y|x;\theta]E[y∣x;θ],即给定自变量和超参数后 ...

  2. LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

    首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...

  3. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

    参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...

  4. 千字讲解极大似然估计

    上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚.经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然估 ...

  5. 透彻理解机器学习中极大似然估计MLE的原理(附3D可视化代码)

    文章目录 相关资料 一.什么是概率,什么是似然 二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...

  6. 伽马分布极大似然估计_一文通俗解释极大似然估计

    我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...

  7. 机器学习笔记1.矩估计、极大似然估计。

    1.矩估计 1.1矩估计思想: 矩估计是基于一种简单的"替换"思想,即用样本矩估计总体矩 1.2矩估计理论: 矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶 ...

  8. 贝叶斯网专题11:参数学习之极大似然估计

    第一部分:贝叶斯网基础 1.1 信息论基础 1.2 贝叶斯网基本概念 1.3 变量独立性的图论分析 第二部分:贝叶斯网推理 2.1 概率推理中的变量消元方法 2.2 团树传播算法 2.3 近似推理 2 ...

  9. 干货 | 一文搞懂极大似然估计

    极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数 ...

最新文章

  1. 穿了个GUI马甲的PyInstaller
  2. Java程序员必备!Redis面试复习大纲在手面试不慌
  3. 洛谷——P1119 灾后重建
  4. 【LeetCode - 224】基本计算器(栈)
  5. 小优优(u盘歌曲顺序调整)_电脑从U盘启动,这三种方式你知道吗?
  6. Cannot resolve xxxx(依赖名):unknown
  7. 微商人赚钱的4个关键点
  8. AngularJs 入门系列-1 使用 AngularJs 搭建页面基本框架
  9. 计算机三级设计与应用题,计算机数据库三级设计与应用题.pdf
  10. 2017/4/27 morning
  11. websocket实时聊天(一)
  12. 记录10本关于开关电源的书
  13. shopify的前端开发教程
  14. 推导手机QQ聊天记录db文件加密IMEI值
  15. 揭秘微信红包:架构、抢红包算法、高并发和降级方案
  16. java实现的俄罗斯方块游戏--powered by dustin
  17. aso优化师是什么_【aso优化师赵星凯】简述为什么要做aso?
  18. 量子力学第七弹——中心力场问题
  19. ns2利用god获取邻居列表
  20. python课后题答案董付国_python习题01——董付国学习系列

热门文章

  1. 《架构之美》阅读笔记06
  2. Mac 升级 PHP 7
  3. 【c++】【转】C++ sizeof 使用规则及陷阱分析
  4. sql server数据表转换成xml
  5. 如何去掉UITableViewController中的分隔线setSeparatorStyle
  6. 用yeoman搭建react画廊项目笔记
  7. undefined reference to `main`
  8. 百度Android开发面试题
  9. 和yupeng的讨论
  10. IIS7下 【请求被中止: 未能创建 SSL/TLS 安全通道 】 解决方法