一、数学期望、方差、协方差
1、数学期望——反映随机变量平均取值的大小的统计量

2、方差——度量随机变量与其数学期望之间的偏离程度或分散程度的统计
量。数据越集中则方差越小,数据越分散则方差越大。

3、协方差——衡量多维随机变量之间相关性的一种统计量

方差是衡量一个变量与期望间的偏离程度,而协方差是衡量两个变量间的线性相关性,当X=Y时,协方差就等于方差。
协方差大于0时,表示随机变量X与随机变量Y是正相关,即变化趋势相同。
协方差小于0时,表示随机变量X与随机变量Y是负相关,即变化趋势相反。
协方差等于0时,表示随机变量X与Y间无线性相关性。

线性不相关与独立的区别:
如果X和Y相互独立,则协方差必为0,即线性不相关;
如果X和Y线性不相关时,随机变量之间不一定独立,因为独立性考察一般性关系,而协方差是度量线性关系。

协方差和相关系数:
协方差描述了两个随机变量间的正负线性相关性,而相关系数通过归一化提供了一种衡量相关性大小的统计量:

相关系数是在协方差的基础上添加了正则化因子,从而将其限定在[-1,1]内。

协方差矩阵:

二、信息论基础
1、信息熵——简称熵,表示随机变量不确定性的度量。
设X是离散随机变量,其概率分布为:

随机变量的信息熵定义为:
(log是以2为底的对数)
当pi=0/1时,熵为0,pi=0.5时,熵最大(类似开口向下的抛物线),熵越大说明包含的信息越多,随机变量的不确定性就越大,

最大熵定理:当离散随机变量的概率分布是等概率分布时,H(X)取最大值,结果为,n表示随机变量X有n个不同的取值。
2、条件熵——在已知随机变量X的条件下,随机变量Y的不确定性。
从感知上说,条件熵的值要比信息熵小,因为当我们有了更多的背景知识时,信息的不确定性自然也就下降了。

3、互信息——也称为信息增益,描述两个随机变量之间的相关性程度,也就是给定一个随机变量X后,另一个随机变量Y不确定性的削弱程度,即为:

当X与Y完全相关时,,取最大值
当X与Y完全无关时,,取最小值

4、相对熵与交叉熵
机器学习和深度学习的目的归结为尽量准确的学习到数据间的变量关系,还原样本数据的概率分布。交叉熵和相对熵正是衡量概率分布或函数间相似性的度量方法。
设有随机变量X,其真实概率分布为p(x),通过模型训练得到的概率分布模型为q(x)。
①相对熵(Kullback-Leibler Divergence,也称KL散度、KL距离)

·相对熵不是传统意义上的“距离”,因为相对熵不具有对称性,即

  ·当预测与真实分布完全相同时,相对熵为0·若两个分布相差越大,则相对熵越大;若两个分布相差越小,则相对熵越小。

②交叉熵(cross-entropy)
表示X的信息熵,,由于真实分布p(x)为一个固定值,所以是一个不变量,故有成立。
化简:
交叉熵比相对熵更为简洁,且两者存在一定的等价关系,因此一般用交叉熵来度量两个分布的相似性。

三、 概率图模型
概率统计模型参数量大且难以存储,但实际上变量之间往往存在很多独立性或近似独立性的假设,也就是说每一个随机变量只和极少数的随机变量相关。概率图模型(Probabilistic Graphical Model,PGM),根据变量间的独立性假设,为我们提供了解决这类问题的机制,PGM以图论和概率论为基础,通过图结构将概率模型可视化,使我们能够观察复杂分布中变量的关系,同时把概率上的复杂过程理解为在图上进行信息传递的过程,无须关注太多的复杂表达式。
1.生成模型与判别模型
从形式上来说,监督学习模型可以分为概率模型和非概率模型,概率模型利用训练样本的数据,通过学习条件概率分布来进行推断决策;非概率模型通过学习得到决策函数来进行判断。
从算法层面来说,监督学习又可以分为生成模型和判别模型。
生成模型:目标是求取联合概率分布,然后由条件概率公式求取条件概率分布:.
典型的生成模型包括:朴素贝叶斯模型,隐马尔科夫模型等。
之所以称上式为生成模型是因为模型不但可以用来预测结果输出,还可以通过联合分布来生成新样本数据集。
判别模型:由训练数据直接求取决策函数或条件分布,判别模型并不需要关心X和Y之间的生成关心,直接关心的是对于给定的输入X应该得到怎么样的输出Y。机器学习中的大部分分类模型都属于判别模型,如感知机、决策树、支持向量机、条件随机场等。

总结:一般来说,两种模型之间适合于不同条件下的学习问题,生成模型除了可以应用在预测数据外,还可以还原出数据的联合分布函数,因此生成模型的应用领域更广泛。判别模型得到条件概率或决策函数直接用于预测,因此在监督学习中准确率更高。

深入浅出深度学习(四)概率统计基础相关推荐

  1. 深入浅出深度学习Pytroch

    本文将以通俗易懂的方式,深入浅出地为您揭开深度学习模型构建与训练的面纱: 深度学习 = 数据 d a t a + 模型 m o d e l + 损失函数 l o s s + 优化 o p t i m ...

  2. python原理书籍_python书籍推荐:《深入浅出深度学习:原理剖析与Python实践》

    在过去的这十年,深度学习已经席卷了整个科技界和工业界,2016年谷歌阿尔法狗打败围棋世界冠军李世石,更是使其成为备受瞩目的技术焦点. 今日,小编就为大家推荐一本能让初学者和"老司机" ...

  3. 深度学习基础 - 概率的三个公理

    深度学习基础 - 概率的三个公理 flyfish 对于公理的内容 ,不敢有一丝一毫的更改.改公理,再建立另一套体系那都是大神级别的人物. 曾经"概率"的定义是不清晰的,拉普拉斯的古 ...

  4. 日月光华深度学习(四)-计算机视觉-卷积神经网络

    日月光华深度学习-计算机视觉-卷积神经网络 计算机视觉-卷积神经网络 [4.1]--认识卷积神经网络(一) [4.2]--认识卷积神经网络-卷积层和池化层 [4.3]--卷积神经网络整体架构 [4.4 ...

  5. 深度学习数学基础-概率与信息论

    前言 概率论学科定义 概率与信息论在人工智能领域的应用 3.1,为什么要使用概率论 3.2,随机变量 3.3,概率分布 3.3.1,离散型变量和概率质量函数 3.3.2,连续型变量和概率密度分布函数 ...

  6. 深度学习与概率、统计的有趣探讨

    概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差 ...

  7. 深入浅出深度学习(三)线性代数基础

    一.标量.向量.矩阵.张量 标量(scalar) 一个数值,最小的计算单元 向量(vector) 由多个标量组成的一维数组 矩阵(matrix) 由标量数据构成的二维数组 张量(tensor) 深度学 ...

  8. 深入浅出深度学习(一)深度学习的发展

    人工智能.机器学习.深度学习的关系 1. 人工智能--机器推理 利用计算机构建具有人类智力特征的复杂机器,即为通用人工智能或强人工智能,即让机器拥有人类的所有感觉.所有理智.像人类一样思考.要实现真正 ...

  9. 推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

    全文共1087字,2张图,预计阅读时间7分钟. 背景 在本系列第三篇文章中,在处理DeepFM数据时,由于每一个离散特征只有一个取值,因此我们在处理的过程中,将原始数据处理成了两个文件,一个记录特征的 ...

  10. Sunny.Xia的深度学习(四)MMOE多任务学习模型实战演练

    本专栏文章会在本博客和知乎专栏--Sunny.Xia的深度学习同步更新,对于评论博主若未能够及时回复的,可以知乎私信.未经本人允许,请勿转载,谢谢. 一.什么是MMOE? 三张图分别是多任务模型的不同 ...

最新文章

  1. 树形dp ——树的重心
  2. 笔记“SQL与Access”
  3. NRF52 UICR寄存器读写
  4. mysql php 变量赋值,mysql变量赋值要注意的_MySQL
  5. C++编译报错:重复定义
  6. JAVA面试——计算机网络
  7. 一个基于 SpringBoot 开源的小说和漫画在线阅读网站,简洁大方、强烈推荐
  8. mysql启动报错解决-1
  9. Maven的Snapshot版本与Release版本
  10. pc企业微信hook接口,企业微信营销软件,企业微信群发
  11. (七)linux操作系统-linux韩顺平2021笔记
  12. 用C#分析华表插件表格数据
  13. 解决Windows聚焦不更新图片问题
  14. css 首行缩进两字符
  15. VMware16阿里云盘
  16. Spring Boot自定义starter必知必会条件
  17. Android安卓——Android程序生命周期
  18. H型钢的尺寸的设计与使用(市场上可以轻松采购)
  19. android 设置webview的浏览器标识 User-Agent
  20. RPA for Python(tagui)避坑指南 - 以咸鱼之王为例

热门文章

  1. [转]基于ROS平台的移动机器人-4-通过ROS利用键盘控制小车移动
  2. LAMP基于php模块实现个人博客搭建
  3. 微软公司部署小型数据中心网络连接产品
  4. 【转】C++ 关键字——friend
  5. centos 7.6安装java_安装 QRadar Community Edition
  6. java文件下载controller_Java Spring MVC 上传下载文件配置及controller方法详解
  7. java代码_35个Java 代码优化细节
  8. echo回声不能用了_回声消除的昨天、今天和明天
  9. 1095. 山脉数组中查找目标值(三分+二分)
  10. c语言 数组比较不等往下累加,用C语言确定两个数组内的元素排列顺序不同,但是元素相同,代码有bug找不出?...