通俗易懂详解机器学习中的最大似然估计
讲解前看个例子:
例子(一个场景):
1、一个盒子里有很多小球,颜色有白色(用w表示)和黑色(用b表示)。
条件:(1) 盒子里面小球很多,n个。 (2) 只有2中颜色的小球
2、 从盒子里取出来10个球,其中 w:8个,b:2个
注意:前提条件,盒子里的球有n个,很多,只取10个,放不放回都不影响。
例子结束,以下是说明
1、根据以上情况,我们用幼儿园常识去判断,盒子里 w和b的比例 “可能” 是,8:2 (幼儿园没毕业的可以杠) -- 这个只是我们的直观感受,看到这个例子后的条件反射。
2、接下来,我们用 “概率” 的语言描述上述情况。
(1)设 “一次” 取出w的概率是p,“一次” 取出b的概率是q -- 为什么要设这个? 自己看看例子,想想看完例子后自己想知道啥。
(2)取出8个w,2个b的概率是* -- 这个可以用抛硬币来理解,抛2次硬币都出现正面的概率是 , 因为我们知道抛硬币概率是。( 注:能让硬币立起来的同学,建议去挂个杠精专家号)
(3)L(p,q)=* ,L(p,q)只是个函数,你可以想象成y,或者f(p,q),都可以,为了更容易理解后续的变换。
(4)思维转换点来了: 接下来要干嘛?
需要理解:我们希望找到p 和q(不用幼儿园常识去判断),应该怎么办? 等式左边那个L(p,q)能干嘛? 接下来考虑:
a) p和q的值大概是个啥情况?
答1:q=1-p, 不理解的小朋友在看一遍题目,小球只有2中颜色,所以公式写成:
L(p)=*
答2:p一定不是一个值,是一个区间(0--1的区间) -- 这不是废话吗?
答3:p一定有最大值 -- 这句话信息熵拉满,一定要理解。
b) 所以我们的目的:求p的最大值。 -- 为啥是这个目的? 通俗解释:不求最大值难道随便蒙一个,那不如直接回幼儿园。 科学解释:存在一个“最大可能” 的p,让结果实现8个w和2个b
c)如何求p 的最大值? 对p求导,导数=0。 -- 这个不理解的翻一番小学课本关于微积分的章节。
d)求导的方法:
1、 首先直观看一下这个求导结果(这个只是为了理解,不是计算): :不会求导的去翻小学课本。 -- 这个导数一定存在一个最大值,看下图:
直观图(1):L(p) 和L(p)的导数
直观图(2):放大极值点的位置,L(p)导数为0的点,对应的p是“0.8” (工具中不能用p当变量,所以工具中换成x)
大家可以用GeoGebra工具自己试试。
注意:p只能在0--1之间。 图像上0--1之间只有一个最大值。
2、直观图看完了,接下来用数据方式求解
两边取ln
解释下为啥用ln :小标题太多,已经不够用了,自己注意吧
(1)连乘求解太麻烦,加个ln里面就能变成加法。
(2) 加ln只对最终的值L(p)有影响, 并不影响p(注意:我们这里要求的是p的最大值,只要是线性变换就不会影响p,这里不懂的同学继续翻“微积分”)
化简后:
求导(前面解释过了,这里就不啰嗦):
当导数为0 的时候,P求得最大值, 即:
求得p = 0.8
以上是通过数学的方法,得到例子中p的概率值(万物皆可数学化),是不是很奇妙,如果能理解上述的数学计算公式,相信今后遇到一些常识的问题,也能通过严谨的数学思想,有逻辑性的过一遍。
以上几个核心点:
p,怎么定义的,为什么要这么定义
p,为什么会有最大值,前提是概率在0--1 区间内
p, 关于p的直观函数图像
p, p 的最大值求法
上面废话说了这么多,回过头看这个公式:
L(p)=* 注意看好:我们求的p的最大值的过程,叫做(换一行):
求P的最大似然估计
最大似然估计,通俗解释:就是最可能的概率(回头想想例子中,就是我们通过幼儿园常识判断的最大可能的概率,只不过把大家常识通过数学公式呈现出来了而已)。数学解释:我们通过抽样得到一个样本值,通过样本值的数据,去推算样本的概率。(p的最大似然估计,只是p最大的可能性)
L(p)=* 这个叫做:似然函数
---------------------------------------------------------------------------------------------------------------------------------
接下来我们根据上面的例子,详解最大似然估计函数(各种情况下的) -- 写不动了,先缓缓。
通俗易懂详解机器学习中的最大似然估计相关推荐
- 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵
目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...
- 详解机器学习中的熵、条件熵、相对熵、交叉熵
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (info ...
- 详解机器学习中的VC维
机器学习中的经典算法SVM(支持向量机)最初是由前苏联数学家Vladimir Vapnik 和 Alexey Chervonenkis 在 1963年提出的.二人合作完成的另外一个之于机器学习的重要贡 ...
- 详解机器学习中常见的距离与Python实现
在机器学习的很多算法,尤其是与聚类相关的算法中你会碰到各种各样的距离,欧式距离.马氏距离.切比雪夫距离等会让初学者头疼,如果只看书的话,大多书上就一行公式带过,看完还是迷迷糊糊,今天本文就来盘一盘机器 ...
- 详解机器学习中 ROC曲线、AUC值、正确率、召回率
文章目录 前言简介 医学图像识别二分类问题 ROC 曲线 如何画ROC曲线 AUC 前言简介 在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度.错误率指的是在所有测试样例中错分的样例比例 ...
- What is the Softmax Function?详解机器学习中的Softmax函数【小白菜可懂】
目录 定义 公式 计算 Softmax vs Sigmoid Softmax vs Sigmoid 计算 Softmax vs Argmax Softmax vs Argmax 计算 应用 神经网络中 ...
- python中groupby()函数讲解与示例_详解python中groupby函数通俗易懂
一.groupby 能做什么? python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算! 对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下: df[ ...
- python apply lambda if_详解Python中的map、lambda和apply用法
Hello大家好,欢迎来到[统计GO],本公众号内容主要针对数据分析的爱好者,不定期分享一些好用的数据分析工具和机器学习资料,以及一些求职必备技能,帮助大家花更少的时间学更多的知识. 今天为大家推荐的 ...
- 详解OpenCV中的Lucas Kanade稀疏光流单应追踪器
详解OpenCV中的Lucas Kanade稀疏光流单应追踪器 1. 效果图 2. 源码 参考 这篇博客将详细介绍OpenCV中的Lucas Kanade稀疏光流单应追踪器. 光流是由物体或相机的运动 ...
最新文章
- 7 Papers | MIT学神开源微分太极;北大等提出没有乘法的神经网络
- 新建arcgis api for android 项目失败
- dsp28335读地址c语言写法,dsp 28335 教程 附录4 dsp的c语言.ppt
- springboot @ConfigurationProperties注入属性流程
- 五天学习Mysql数据库教程(一)1.1数据库的基本概念
- 在命令行中打开远程端的图形应用程序
- C#中通过代码控制IIS服务重启
- 9月11号华为发布鸿蒙2.0和EMUI 11,来看看鸿蒙最牛逼的地方
- c语言如何开发应用程序,怎样用c语言编写软件?如许多小的程序。
- SQL基础教程读书笔记
- 解释一下什么是vue实例
- [Android Studio] 添加Override/Implement methods
- workman定时器使用
- 工业机器人产业链展板_赵德明调研六大新产业十大产业链发展情况
- springboot 中如何使用 ingest-attachment
- Java毕业设计项目【畅购商城】
- 一文了解新型AMM方案Caspian,解决L2导致的流动性碎片化问题
- ElasticSearch Docker 部署实例
- 数据库的备份和恢复(笔记)
- Java Web3j nonce 获取