本节主要就是讲述的机器学习的数学基础,提到数学基础,可能一眼就会是满眼的枯燥、没意思,但是成就英雄的路上注定了孤独,要想要真正的在学术上有所突破就必须挨得住寂寞,受得住孤独,才能真正的走进熟悉直到完全掌握机器学习的真谛,万事开头难,而且做什么事情都要打好地基,空中楼阁并不是现实中存在的,所以我们从本期课程开始再次从基础开始学习吧!本节内容为第三部分:概率。

三、概率

3-1、为什么使用概率?

概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量。

在人工智能领域,我们主要以两种方式来使用概率论。首先,概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

计算机科学的许多分支处理的对象都是完全确定的实体,但机器学习却大量使用概率论。实际上如果你了解机器学习的工作原理你就会觉得这个很正常。因为机器学习大部分时候处理的都是不确定量或随机量。

3-2、随机变量

随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如,X1 和 X2 都是随机变量X可能的取值。

对于向量值变量,我们会将随机变量写成X,它的一个值为x。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。

3-3、概率分布

给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。

从机器学习的角度来看,概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。

3-4、条件概率

很多情况下,我们感兴趣的是某个事件在给定其它事件发生时出现的概率,这种概率叫条件概率。

我们将给定X=x时Y=y发生的概率记为P(Y=y|X=x),这个概率可以通过下面的公式来计算:

3-5、贝叶斯公式

先看看什么是“先验概率”和“后验概率”,以一个例子来说明:

假设某种病在人群中的发病率是0.001,即1000人中大概会有1个人得病,则有:P(患病)=0.1%;即:在没有做检验之前,我们预计的患病率为P(患病)=0.1%,这个就叫作"先验概率"。

再假设现在有一种该病的检测方法,其检测的准确率为95%;即:如果真的得了这种病,该检测法有95%的概率会检测出阳性,但也有5%的概率检测出阴性;或者反过来说,但如果没有得病,采用该方法有95%的概率检测出阴性,但也有5%的概率检测为阳性。用概率条件概率表示即为:P(显示阳性|患病)=95%

现在我们想知道的是:在做完检测显示为阳性后,某人的患病率P(患病|显示阳性),这个其实就称为"后验概率"。

而这个叫贝叶斯的人其实就是为我们提供了一种可以利用先验概率计算后验概率的方法,我们将其称为“贝叶斯公式”。

在这个例子里就是:

贝叶斯公式贯穿了机器学习中随机问题分析的全过程。从文本分类到概率图模型,其基本分类都是贝叶斯公式。

期望、方差、协方差等主要反映数据的统计特征,机器学习的一个很大应用就是数据挖掘等,因此这些基本的统计概念也是很有必要掌握。另外,像后面的EM算法中,就需要用到期望的相关概念和性质。

3-6、期望

在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。

假设X是一个离散随机变量,其可能的取值有:{x1,x2,......,xn},各个取值对应的概率取值为:P(Xk),k=1,2,......,n,则其数学期望被定义为:

假设X是一个连续型随机变量,其概率密度函数为则其数学期望被定义为:

3-7、方差

概率中,方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下:

3-8、协方差

在概率论和统计学中,协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为:

3-9、常见分布函数

1)0-1分布

0-1分布是单个二值型离散随机变量的分布,其概率分布函数为:

2)几何分布

几何分布是离散型概率分布,其定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。即:前k-1次皆失败,第k次成功的概率。其概率分布函数为:

性质:

3)二项分布

二项分布即重复n次伯努利试验,各次试验之间都相互独立,并且每次试验中只有两种可能的结果,而且这两种结果发生与否相互对立。如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中发生k次的概率为:

4)高斯分布

高斯分布又叫正态分布,其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,如下图所示:

5)指数分布

指数分布是事件的时间间隔的概率,它的一个重要特征是无记忆性。例如:如果某一元件的寿命的寿命为T,已知元件使用了t小时,它总共使用至少t+s小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布:

  • 婴儿出生的时间间隔

  • 网站访问的时间间隔

  • 奶粉销售的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t,就等同于t之内没有任何婴儿出生,即:

指数分布的图像如下:

6)泊松分布

日常生活中,大量事件是有固定频率的,比如:

  • 某医院平均每小时出生3个婴儿

  • 某网站平均每分钟有2次访问

  • 某超市平均每小时销售4包奶粉

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生,这是我们没法知道的。

泊松分布就是描述某段时间内,事件具体的发生概率。其概率函数为:

其中:

P表示概率,N表示某种函数关系,t表示时间,n表示数量,1小时内出生3个婴儿的概率,就表示为P(N(1)=3);λ表示事件的频率。

还是以上面医院平均每小时出生3个婴儿为例,则λ=3;

那么,接下来两个小时,一个婴儿都不出生的概率可以求得为:

【注】上面的指数分布和泊松分布参考了阮一峰大牛的博客:“泊松分布和指数分布:10分钟教程”,在此说明,也对其表示感谢!

3-10、Lagrange乘子法

对于一般的求极值问题我们都知道,求导等于0就可以了。但是如果我们不但要求极值,还要求一个满足一定约束条件的极值,那么此时就可以构造Lagrange函数,其实就是把约束项添加到原函数上,然后对构造的新函数求导。

对于一个要求极值的函数f(x,y),图上的蓝圈就是这个函数的等高图,就是说f(x,y)=c1,c2,...,cn 分别代表不同的数值(每个值代表一圈,等高图),我要找到一组(x,y),使它的值ci越大越好,但是这点必须满足约束条件g(x,y)(在黄线上)。

也就是说f(x,y)和g(x,y)相切,或者说它们的梯度▽f和▽g平行,因此它们的梯度(偏导)成倍数关系;那我么就假设为 λ 倍,然后把约束条件加到原函数后再对它求导,其实就等于满足了下图上的式子。

在支持向量机模型(SVM)的推导中一步很关键的就是利用拉格朗日对偶性将原问题转化为对偶问题。

3-11、最大似然估计

最大似然也称为最大概似估计,即:在“模型已定,参数θ未知”的情况下,通过观测数据估计未知参数θ的一种思想或方法。

其基本思想是:给定样本取值后,该样本最有可能来自参数为何值的总体。即:寻找使得观测到样本数据的可能性最大。

举个例子,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高,但是可以通过采样(所有的采样要求都是独立同分布的),获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

求极大似然函数估计值的一般步骤:

  • 1、写出似然函数;

  • 2、对似然函数取对数;

  • 3、两边同时求导数;

  • 4、令导数为0解出似然方程。

在机器学习中也会经常见到极大似然的影子。比如后面的逻辑斯特回归模型(LR),其核心就是构造对数损失函数后运用极大似然估计。

矩阵做约

内容提要:

*天气寒冷,注意保暖!

*寒假不可怕,就怕学霸玩转寒假!

*知识点都已经写得这么明显了,你还要错过吗?

雷课:

       让教育更有质量,

       让教育更有想象!

机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)相关推荐

  1. hive编程指南电子版_第三篇|Spark SQL编程指南

    在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...

  2. 机器学习中的随机过程_机器学习过程

    机器学习中的随机过程 If you would like to get a general introduction to Machine Learning before this, check ou ...

  3. 大脑比机器智能_机器大脑的第一步

    大脑比机器智能 The race to Artificial Intelligence is a grueling, sweaty marathon that human beings have be ...

  4. 机器人擂台的利剑_机器人大擂台2017

    机器人大擂台2017下载!机器人大擂台2017视频是首个机器人对战节目!机器人大擂台2017最新一集播出了,提供机器人大擂台2017,欢迎下载机器人大擂台2017! 机器人大擂台 <机器人大擂台 ...

  5. SpringBoot入门到精通_第6篇 _必知必会

    接上一篇:SpringBoot入门到精通_第5篇 _SpringBoot Actuator监控 https://blog.csdn.net/weixin_40816738/article/detail ...

  6. SpringBoot入门到精通_第5篇 _SpringBoot Actuator监控

    接上一篇:SpringBoot入门到精通_第4篇 _开发三板斧 https://blog.csdn.net/weixin_40816738/article/details/101097161 文章目录 ...

  7. SpringBoot入门到精通_第4篇 _开发三板斧

    接上一篇:SpringBoot入门到精通_第3篇 _应用组件分析 https://blog.csdn.net/weixin_40816738/article/details/101096218 文章目 ...

  8. SpringBoot入门到精通_第3篇 _应用组件分析

    接上一篇:SpringBoot入门到精通_第2篇 _1分钟实战需求项目 https://blog.csdn.net/weixin_40816738/article/details/101095964 ...

  9. SpringBoot入门到精通_第2篇 _1分钟实战需求项目

    接上一篇:SpringBoot入门到精通_第1篇 _核心概念 https://blog.csdn.net/weixin_40816738/article/details/94916051 文章目录 一 ...

最新文章

  1. luogu cover
  2. hdu1465 不容易系列之一(错排问题)
  3. Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Find/undo事件)
  4. docker 如何删除<none>镜像
  5. python项目飞机大战
  6. C标准时间与时间戳的相互转换
  7. ac 梦幻布丁 启发式合并
  8. hibernate 调试_Hibernate调试–查找查询的来源
  9. c# datagridviewcomboboxcell值无效的解决办法
  10. 计算机快捷键m是什么,教程方法;m、ac快捷键电脑技巧-琪琪词资源网
  11. 基于JAVA+SpringMVC+Mybatis+MYSQL的粮店粮食库存管理系统
  12. oracle连接eclipse的包,【求助】eclipse导入了Oracle的驱动包连不上Oracle
  13. (转)解释一下SQLSERVER事务日志记录
  14. I2c驱动i2c_master_send()和i2c_master_recv()用法
  15. Spring IOC(依赖注入的三种方式)
  16. GitHub 开发者页面迁至 github.io
  17. springAOP,面向切面编程详解,通俗易懂
  18. USBCAN 、便携式 CAN 分析仪 、CAN卡
  19. 主题模型:LDA原理详解与应用
  20. 地下城与勇士正在自动连接频道服务器,DNF爆满频道服务器连接失败解决方法分享...

热门文章

  1. linux之gdb调试常用100个技巧
  2. 《零基础看得懂的C语言入门教程 》——(十三)socket服务端编写
  3. python中匿名函数的作用_什么是Python中的匿名函数
  4. 阿里云500服务器内部错误,腾讯云服务器网站不能打开 提示内部错误http 500
  5. php输出二维数组中指定内容,HP将MYSQL内容读到二维数组并按指定列输出
  6. android编程绘图,Android编程绘图操作之弧形绘制方法示例
  7. mysql cbo优化器_查询优化器介绍 - PolarDB-X 云原生分布式数据库 - 阿里云
  8. 有朋友问我为什么这么帅
  9. 2020年,朋友圈的正确打开方式!
  10. 减肥瘦不下来的原因找到了