文章目录

  • 随机变量(r.v.)
    • 一. 离散型(discrete)和连续型随机变量
    • 二. 均匀分布
    • 三. 两点分布/伯努利分布(Bernolli)
    • 四. 二项式分布(Binomial)
    • 五. 泊松分布(Possion)
    • 六. 两点、二项和泊松分布的意义

随机变量(r.v.)

在上一节中,我们对随机变量的定义进行了介绍。从本节开始,简单地认为随机变量或随机向量可映射到某可测的事件集,随机变量的概率及该可测事件集的概率测度。

一. 离散型(discrete)和连续型随机变量

  1. 离散型随机变量具有概率质量函数(p.m.f.):表示为:
    f X ( x ) = P r ( X = x ) f_{X}(x) = P_{r}(X=x) fX​(x)=Pr​(X=x)

  2. 连续型随机变量具有概率密度函数(p.d.f.):表示为:
    ∫ a b f X ( x ) d x = P r ( a < X < b ) \int_a^{b}f_{X}(x)dx = P_{r}(a<X < b) ∫ab​fX​(x)dx=Pr​(a<X<b)

  3. 对于p.d.f有如下引理:
    a . P r ( X = x ) = F X ( x ) − F X ( x − ) b . P r ( x < X ⩽ y ) = F X ( y ) − F X ( x ) c . P r ( X > x ) = 1 − F X ( x ) d . I f C D F i s c o n t i n u o u s , P r ( a < X ⩽ b ) = P r ( a ⩽ X < b ) = P r ( a < X < b ) \begin{aligned} &a. \quad P_{r}(X=x) = F_{X}(x) - F_{X}(x^{-}) \\ &b. \quad P_{r}(x<X \leqslant y) = F_{X}(y) - F_{X}(x) \\ &c. \quad P_{r}(X > x) = 1 - F_{X}(x) \\ &d. \quad If \, CDF \, is \, continuous, P_{r}(a<X \leqslant b) = P_{r}(a \leqslant X < b) = P_{r}(a<X < b) \end{aligned} ​a.Pr​(X=x)=FX​(x)−FX​(x−)b.Pr​(x<X⩽y)=FX​(y)−FX​(x)c.Pr​(X>x)=1−FX​(x)d.IfCDFiscontinuous,Pr​(a<X⩽b)=Pr​(a⩽X<b)=Pr​(a<X<b)​可见,pdf往往可由cdf求出,但需要关注cdf的连续型。

  4. 随机变量的几条有用性质:
    设随机变量X具有累积概率函数(cdf) F F F。

    • F的逆函数: F − 1 ( q ) = i n f { x : F ( x ) > q } ( 0 ⩽ q ⩽ 1 ) F^{-1}(q) = inf\{x: F(x) > q \} \quad (0 \leqslant q \leqslant 1) F−1(q)=inf{x:F(x)>q}(0⩽q⩽1)为分位数函数(quantile function)。分位数函数是进行假设检验时需要掌握的重要概念,往往我们设定希望假设检验的一类错误的概率≤0.05后计算出的cutoff value就是某分布的百分之九十五分位数。之后,将计算出的检验统计量与cutoff value进行比较,即可判断是否有理由拒绝零假设。
    • 众数(mode): 需要注意,无论是离散型随机变量和连续型随机变量都有众数,均是pmf和pdf取最大值时对应的x。
    • pmf的值域一定处于[0, 1]区间内,而pdf则仅大于0。pdf甚至可以趋向正无穷。比如,在(0, 1/n)区间内的均匀分布随机变量,当 n → + ∞ n \rightarrow + \infty n→+∞,则区间内的 p → + ∞ \, p \rightarrow + \infty p→+∞。
    • 对于pdf显然有: ∫ − ∞ + ∞ f X ( x ) d x = 1 \int_{- \infty}^{+ \infty}f_{X}(x)dx = 1 ∫−∞+∞​fX​(x)dx=1,可变形为 ∫ − ∞ + ∞ d F ( x ) = 1 = ∫ − ∞ + ∞ F ( d x ) \int_{- \infty}^{+ \infty}dF(x) = 1 = \int_{- \infty}^{+ \infty} F(dx) ∫−∞+∞​dF(x)=1=∫−∞+∞​F(dx)。上述变形具有意义,称为Laplace–Stielties transforms。首先,在数学意义上后者更加严谨,即明确限定pdf来源于cdf;其次,在求解随机变量的函数的概率密度时,将自变量替换为对应的函数,可方便记忆以及计算。
      下面对该条性质进行举例介绍:> 问题:设X~(0,1)区间内的均匀分布,求 Y = X 2 Y=X^2 Y=X2的概率密度函数1

解:随机变量的函数显然为双射,则有:
F Y ( y ) = P ( Y ≤ y ) = P ( − y ≤ X ≤ y ) = P ( 0 ≤ X ≤ y ) = F X ( y ) F_{Y}(y) = P(Y \leq y)=P(-\sqrt{y} \leq X \leq \sqrt{y})=P(0 \leq X \leq \sqrt{y})=F_{X}(\sqrt{y}) FY​(y)=P(Y≤y)=P(−y ​≤X≤y ​)=P(0≤X≤y ​)=FX​(y ​)
因为随机变量函数在区间内连续,因此可直接求导:
f Y ( y ) = F Y , ( y ) = f X ( y ) ∣ d x d y ∣ f_{Y}(y)=F_{Y}^{,}(y)=f_{X}(\sqrt{y})|\frac{dx}{dy}| fY​(y)=FY,​(y)=fX​(y ​)∣dydx​∣
以上代换的直观理解为,找到某处y对应的全部x,而后在各处x取微元进行加和,同时用Jacobian进行统一度量(metric)。比如注意的是,采用微元法时,在各个x处函数需保证连续型。

二. 均匀分布

均匀分布是最易理解的分布,即在区间A=[a, b]内,各处的概率密度相同。在 A c A^c Ac内的概率测度均为0。

三. 两点分布/伯努利分布(Bernolli)

两点分布的概率密度函数为:
f X ( x ) = p x ( 1 − p ) ( 1 − x ) ( x ∈ { 0 , 1 } ) f_{X}(x) = p^x (1-p)^(1-x) \qquad (x\in\{0, 1\}) fX​(x)=px(1−p)(1−x)(x∈{0,1}) 两点分布即进行单次试验时,成功(x==1)的概率。

四. 二项式分布(Binomial)

扩展两点分布,进行n次伯努利试验,成功的次数k即符合二项式分布:
f ( x ) = ( n k ) p x ( 1 − p ) ( n − x ) ( x ∈ [ 0 , n ] ) f(x)=\dbinom{n}{k}p^x (1-p)^{(n-x)} \qquad (x \in [0, n]) f(x)=(kn​)px(1−p)(n−x)(x∈[0,n])
有 X 1 ∼ B i ( N 1 , p ) & X 1 ∼ B i ( N 2 , p ) ⇒ X 1 + X 2 ∼ B i ( N 1 + N 2 , p ) X_{1}\thicksim Bi(N_1, p) \quad \& \quad X_{1}\thicksim Bi(N_2, p) \rArr X_1 + X_2 \sim Bi(N_1 + N_2, p) X1​∼Bi(N1​,p)&X1​∼Bi(N2​,p)⇒X1​+X2​∼Bi(N1​+N2​,p)
因为如果两个二项分布中伯努利试验的成功概率相同,那么相加后相当于进行了(N1+N2)次伯努利试验。

五. 泊松分布(Possion)

泊松分布表示在单位时间内,某个事件发生的概率。
可以认为泊松分布为二项分布的进一步扩展,将单位时间划分为n段时间,假设每段时间内事件发生的概率均为p,则相当于进行了n重伯努利试验。当 n → ∞ n \rightarrow \infty n→∞时,在这段时间内事件发生的次数k即符合伯努利分布,而次数k的倒数也就是在这段时间内,事件发生的概率。
f ( x ) = e − λ λ x x ! f(x)=e^{-\lambda} \frac{\lambda^x}{x!} f(x)=e−λx!λx​
当 X ∼ P o s s ( λ ) X \sim Poss(\lambda) X∼Poss(λ)时,X的期望和方差均为 λ \lambda λ。
由于泊松分布是二项分布的扩展,则其也有 X 1 ∼ P o s s ( λ 1 ) & X 2 ∼ P o s s ( λ 2 ) ⇒ X 1 + X 2 ∼ P o s s ( λ 1 + λ 1 ) X_{1}\thicksim Poss(\lambda_{1}) \quad \& \quad X_{2}\thicksim Poss(\lambda_{2}) \rArr X_1 + X_2 \sim Poss(\lambda_{1} + \lambda_{1}) X1​∼Poss(λ1​)&X2​∼Poss(λ2​)⇒X1​+X2​∼Poss(λ1​+λ1​)
可以认为连续的Possion分布即为Gamma分布。有关Gamma分布的内容将在下节重点讲解。

六. 两点、二项和泊松分布的意义

上述三种分布往往直接用于对因变量y的分布进行限定。在一般生成模型(generative models)中,需要对X和y的联合分布 f ( X , y ) f(X, y) f(X,y)进行计算。判断当前X或y符合的分布类型,则可进一步完成相应的计算过程。

上述三种分布在机器学习的生成模型算法,以及随机过程中的泊松过程等建模中比较重要。


  1. 例题参考何书元《概率论》,北大出版社。 ↩︎

张志华-统计机器学习-随机变量相关推荐

  1. 张志华 统计机器学习

    统计机器学习-张志华-例子-Bayesian Linear Regression 本节贝叶斯线性回归推到主要是根据 张志华 统计机器学习 p39课来的. 但是其课中大部分概率p省略了X,最初的时候不知 ...

  2. 张志华-统计机器学习-概论

    文章目录 统计机器学习概论 1. 统计机器学习需要掌握的知识与技术? 2.统计机器学习(SML)的问题分类 3. 参数估计:频率方法与贝叶斯方法 4. 频率派和贝叶斯派的统一 统计机器学习概论 本节主 ...

  3. 张志华-统计机器学习-概率论导论

    统计机器学习-概率论导论 文章目录 统计机器学习-概率论导论 一. 复习 二. 参数方法和非参数方法 三. 测度空间的建立 本节内容延续第一节的内容,进行简短回顾,并对概率论中概率测度相关知识进行介绍 ...

  4. 张志华-统计机器学习

    第一讲: 频率派: 最小二乘法的 y-ax 最小化等同于最大似然估计,ax为样本均值的估计量,y为样本取值,y服从高斯分布,求解含y高斯分布的均值参数的时候使用的最大化似然估计,等同于在方差固定的情况 ...

  5. 上交公开课张志华--- 统计机器学习的播放顺序

    公开课的播放地址为http://ocw.sjtu.edu.cn/G2S/OCW/cn/CourseDetails.htm?Id=398 播放顺序为: 概率基础 随机变量1 随机变量2 高斯分布 连续分 ...

  6. 张志华:机器学习的发展历程及启示

    近年来,人工智能的强势崛起,特别是刚刚过去的AlphaGo和韩国九段棋手李世石的人机大战,让我们领略到了人工智能技术的巨大潜力.数据是载体,智能是目标,而机器学习是从数据通往智能的技术途径.因此,机器 ...

  7. 张志华教授《机器学习导论》和《统计机器学习》课程讲义

    张志华教授<机器学习导论>和<统计机器学习>课程讲义 [尊重原创,转载请注明出处]http://blog.csdn.net/guyuealian/article/details ...

  8. 《机器学习导论》和《统计机器学习》学习资料:张志华教授

    张志华教授的两门机器学习公开课是很好的机器学习资源.但在上海交大的公开课视频网站上挂出的教学视频顺序有点乱.对于初学者来说,如果没看对顺序的话,会觉得讲得很乱,从而错过这么优质的资源.事实上板书很完整 ...

  9. 机器学习导论(张志华)笔记

    介绍 人工智能最近发展的如火如荼,要想本质掌握这门技术,离不开优秀资源的支撑. 北京大学的张志华老师,发布在网上的视频可以说是经典资源,特此分享给大家. 正文 张志华 ,北京大学数学科学学院教授,北京 ...

最新文章

  1. 用无序列表做的网站公告牌(Billboard)
  2. python基础知识资料-Python学习--最完整的基础知识大全
  3. 织梦Cms怎么一直服务器维护中,织梦cms文档关键词维护中频率详解
  4. 华为杯数学建模优秀论文_数学建模经典例题(2011年国赛A题与优秀论文)
  5. linux配置文件、日志文件全备份
  6. 宏内核linux,Linux 为什么还要坚持使用宏内核?
  7. 背包问题(动态规划)
  8. OpenShift 4 - 部署 RabbitMQ 集群
  9. TypeScript算法专题 - blog5 - 单链表节点的`任意k个分组反转`的实现
  10. python的设计哲学_Python的设计哲学
  11. MATLAB非线性最小二乘lsqnonlin
  12. java jre 1.8_安装java1.8和配置环境变量
  13. python integer函数_python - Floor函数消除了Integer科学符号,Python - 堆栈内存溢出
  14. 2022年技术人365天写作手册-day02
  15. dva是什么游戏_守望先锋:DVA这个皮肤小蛮腰不算什么,全部细节是这个小脚丫...
  16. 2022--SE-GAN骨架增强的基于gan的毛笔手写字体生成模型原理以及网络结构
  17. 未来三年手机拍摄将超越单反?拍摄建模的时代来了...
  18. [转] prove, verify, bear out, demonstrate, confirm, validate, testify, certify 的区别
  19. RMAN恢复Oracle数据库到不同的服务器
  20. 从导数到方向导数和梯度,一步步理解深度学习中的梯度下降算法

热门文章

  1. android lunch menu,android lunch函数浅析
  2. ui设计需要会html吗,高逼格UI设计需要从何入手?
  3. 支持历史阅读记录的PDF阅读工具
  4. CentOS 7 使用RPM一键离线安装 GCC+tcpdump 环境
  5. 室内定位——如何在微信小程序中获取Beacon的RSSI值
  6. 汉诺塔问题的递归和非递归算法
  7. jquery中的循环技巧
  8. 微信开放平台--》网站应用开发 微信登录网站接口(https://open.weixin.qq.com/)
  9. 还是学生的时候 想着存些对我有用 的url
  10. 【java】-XX:-OmitStackTraceInFastThrow只有空指针,没有堆栈信息