喜欢文章?不如来点赞关注吧

集合基础 —— 理论概念

在这篇教程中,我将介绍一些重要概念,它们是关于 集合 (set) ,即项的数据集。这对于理解概念以及得出概率的计算规则十分有用。同时,集合的特殊性还在于它不仅可用于概率演算,还用在逻辑学中。

让我们开始吧。如之前的教程中提到的,样本空间是随机现象所有结果的数据集。举个例子,抛一枚硬币两次,有四种可能的结果。事件是样本空间的子集。例如,最后一次抛硬币你得到正面朝上。

我们看到,一个样本空间可以两个或更多结果完全不同的事件。比如,抛硬币两次,0 次正面朝上,1 次正面朝上, 2 次正面朝上。它们被称为 互斥 (disjoint) 的事件。另外一个术语叫 互不相容 (mutually exclusive)

有一对特殊的互斥事件,某个事件和它的对立面 (即这个事件不发生的事件)。这种上下文中,对立的事件被称为 补集 (complement) 。比如,这里可以是没有正面朝上和其他三种情况互为补集。

你也可以有多个事件共同填满完整的样本空间。这些事件被称为 完全穷尽 (collectively exhaustive) 事件。如果它们彼此不重叠,就是 相互独立,完全穷尽 (disjoint collectively exhaustive) 。互斥事件相关联的概率之和小于或者等于 1 ,完全穷尽事件的概率之和等于 1 。

直觉上很容易理解这些概念,它们可以通过 文氏图 (Venn diagrams) 来表达。文氏图通过简单的几何形状来呈现集合或者集合的部分。

这些矩形描绘同一个样本空间,在空间中,有一个事件 A ,剩下的部分都是事件 A 的补集。同一个样本空间里,还有另外一个事件 B ,和 A 不重叠。因此它们两者是互斥的。

如果我们把这个文氏图应用于两次抛硬币的实验,你能把四个不同的结果放进图中并且描述事件吗?

可以是这样的,只有一次正面朝上是事件 A ,有两次正面朝上是事件 B 。 A 的补集会包含两次反面朝上和两次正面朝上。

还用文氏图,两次抛硬币的实验也可以是这样的:

两个事件, A 和 B ,相互之间有重叠。 A 是事件 “第二次结果是正面朝上”, B 是事件 “只有一次正面朝上”。结果 “反面,正面” 会同时落在两个事件之内。“反面,反面” 也属于样本空间的一部分,但不落在 A 和 B 任何一个事件内。两个事件重叠的部分被称为 交集 (intersection)

事件 A 和 事件 B 的交集可以速记为:

∩ A∩B


现在,让我们来找出两个事件交集的概率。如果两个事件是互斥的,事件很简单。交集的概率为 0 。如果两个事件并不互斥,即它们重叠,事情就稍微有点复杂。

假定我们正在处理的是独立事件。也就是说,例子中抛出第二个正面的事件的概率不受只抛出一个正面的事件的影响。对于独立事件 A 和 B ,它们的交集的概率是两者各自概率的乘积。

这里,事件 A 有两种情况,所以概率是 2 / 4 。事件 B 的情况相同,概率也是 2 / 4 。因此,最后的交集的概率等于两者概率乘积,也就是 1 / 4 。

小结

  • 样本空间中不共享任何结果的事件被称为 互斥事件 或者 互不相容
  • 多个事件一起填满整个样本空间,则把它们称为 完全穷尽 事件。
  • 如果样本空间里只有两个互斥事件构成完全穷尽,那么它们互为 补集
  • 互斥事件的概率之和小于或者等于 1 。完全穷尽事件的概率之和等于 1 。
  • 事件 A 和 B 的 交集 同时是两个事件的一个子集,这个子集包含了 A 的一部分,并且这部分也是 B 的一部分。独立事件 A 和 B 的交集是通过事件 A 的概率和事件 B 的概率乘积来计算的。对于互斥事件,按照定义,交集属性等于 0 。

并集

这一节中,我将介绍 并集 (Union) 的概念和并集的概率。并集在现实生活中会导致一个比其各个部分集合的总和具有更多新属性的实体吗?很遗憾,在概率理论中,这种魔力是不存在的。并集只是
需要特别注意 —— 不要将事情加倍计算。

还是贝壳的例子,你在海滩上随机捡三个贝壳。周围只有两种贝壳, Q 和 R 。两种类型的贝壳数量相等并且你可以认为有无数。在这种情况下,样本空间包括八个结果。整个实验的树形图如下。

获得任何组合的概率的八分之一。让我们设定,总共捡起一个 R 贝壳作为事件 A ,总共捡起两个 R 贝壳作为事件 B 。如果我们对事件 A 发生或事件 B 发生,或者 A 和 B 同时发生感兴趣。

以这种方式组合事件被称为 “并集”,速记为:

要计算关于事件 A 和 B 的并集的概率,你必须求出两个事件的总和,然后减去 A 和 B 的交集。减去交集的原因是它被计数了两次。拿到一个 R 贝壳的概率 —— 事件 A ,是八分之三。
拿到两个 R 贝壳的概率同样也是八分之三,它们的总和是八分之六,即四分之三。

实际上,事件 A 和 B 不分享任何结果,即他们不相交的,则他们的交集概率为零。因此,并集的概率是四分之三。

现在,考虑两个不同的事件。 事件 C ,你选择的第一个贝壳将会是 R 贝壳。事件 D ,最后一个贝壳 是 R 贝壳。显然,这两个事件不是互斥的,因为它们有重叠。事件 C 和 D 的交集包括
第一个贝壳是 R 贝壳,同时第三个贝壳也是 R 贝壳的情况。

通过将 C 的概率加到 D 的概率,再减去 C 和 D 的交集来找到 C 和 D 的并集,是四分之三。

现在挑战升级 —— 事件 A , B , C 和 D 的并集是?如果你把方程式机械地应用过来,事情会有些乏味,因为会有不少加法和减法的计算。

( ∪ ∪ ∪ )= ( )+ ( )+ ( )+ ( )−( ( ∩ )+ ( ∩ )+ ( ∩ )+ ( ∩ )+ ( ∩ )+ ( ∩ )+ ( ∩ ∩ ∩ ))P(A∪B∪C∪D)=P(A)+P(B)+P(C)+P(D)−(P(A∩B)+P(B∩C)+P(C∩D)+P(A∩C)+P(A∩D)+P(B∩D)+P(A∩B∩C∩D))

不过,由于总的样本空间中并没有特别多的基本事件,这里有一个更简单的方法。你可以列出八个
基本事件,然后检查它们出现在四个组合事件中的哪一个。最后,你会发现只有一个基本事件不发生在组合事件中。从四个组合事件来看,有七个基本事件的结果是四个组合事件中的某一个的部分。因此,并集的概率是这七个基本事件之和,即八分之七。

小结

  • 多个事件的并集是这样一个事件:它包含原始事件的所有结果,并且没有重复。
  • 几个事件的并集概率是各个事件的概率之和减去事件之间的交集的概率。
  • 对于两个事件,等式为 ( ∪ )= ( )+ ( )− ( ∩ )P(A∪B)=P(A)+P(B)−P(A∩B) 。如果事件 A 和 B 互斥,则交集的概率为零。并集方程简化为 ( ∪ )= ( )+ ( )P(A∪B)=P(A)+P(B)。

我的公众号 这里有Swift及计算机编程的相关文章,以及优秀国外文章翻译,欢迎关注~

r语言集合补集_极速统计教程之八 | 概率和集合相关推荐

  1. 在r中弄方差分析表_医学统计与R语言: qvalue

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 (FalseDiscoveryRate(FDR)=Expected(FalsePositive/(FalsePositive+TruePos ...

  2. r语言集合补集_【高中数学必修1研读】之一“第一章 集合与函数概念”

    第一章:集合与函数概念 [导入例子] "神舟"五号载人航天飞船离地面的距离随时间的变化而变化:上网费用随着上网时间的变化而变化:出国旅游人数日益增多:城市绿化面积不断扩大..... ...

  3. r语言mfrow全程_如何使用R完成文章中图片处理小教程

    一起成长的经历 - 技术服务  课程定制 - - 如何使用R完成文章中图片处理小教程 - Two Histograms with melt colors 柱状图显示数值变量的分布.这篇文章解释了如何在 ...

  4. r语言平均值显著性检验_最全的R语言统计检验方法_数据挖掘中R语言的运用

    最全的R语言统计检验方法_数据挖掘中R语言的运用 统计检验是将抽样结果和抽样分布相对照而作出判断的工作.主要分5个步骤:建立假设 求抽样分布 选择显著性水平和否定域 计算检验统计量 判定 假设检验(h ...

  5. r 语言计算欧氏距离_一文搞懂常用R语言统计值计算:打倒描述性统计拦路虎

    本文来自:R语言:用R计算各种统计值 作者:生物信息学习 目录: 求极差(range) 做频数分布表和频数分布图(graph of frequency distribution) 算术平均数(mean ...

  6. r语言编程基础_这项免费的统计编程课程仅需2个小时即可学习R编程语言基础知识

    r语言编程基础 Learn the R programming language in this course from Barton Poulson of datalab.cc. This is a ...

  7. r语言 协整_《量化金融R语言初级教程》一1.3 协整

    本节书摘来异步社区<量化金融R语言初级教程>一书中的第1章,第1.3节,作者: [匈牙利]Gergely Daróczi(盖尔盖伊) , 等 译者: 高蓉 , 李茂 责编: 胡俊英,更多章 ...

  8. r语言pls分析_科学网—R语言统计:偏最小二乘路径模型(plspm) - 涂波的博文...

    R包"plspm" 作者:Gaston Sanchez 单位:Berkeley, California. 包使用说明文件:http://www.gastonsanchez.com/ ...

  9. r语言 python 书_推荐关于R的几本书

    推荐几本学习R语言的好书.嘻嘻. 本书涉及数据科学家感兴趣的核心话题,教会读者从各种各样的数据源中提取数据,并运用现有的公开可用的R函数和R功能包来处理这些数据.在很多情况下,处理结果能够以图形的方式 ...

  10. 如何用r语言搜集报表_基迪奥免费小课堂——如何用R语言绘制GSEA plot

    常见的基因功能富集分析方法可以认为分两代. (1)第一代:基于目标基因集预筛选的功能富集分析方法 基本步骤包括两步: (a)从背景基因集合,按照一定固定阈值(例如,是否差异显著)筛选目标基因集.这属于 ...

最新文章

  1. Python加密—AES加密(2)
  2. 嘻哈说:开放封闭原则
  3. ThinkPHP源码学习 data_to_xml函数 数据转成xml格式
  4. 一个历时五天的 Bug
  5. python xlwt写入excel_python xlwt模块写入excel超过65536行报错问题解决方法
  6. 6.6 数据集的存储与表达
  7. c语言求随机数的中位数,定义一个随机变量,选出这个随机变量的中位数
  8. 3、java中的数据类型和运算符
  9. SQL开发中容易忽视的一些小地方( 三)
  10. android 模拟器声音设置,使用android模拟器录制声音
  11. Keil 中的预处理命令const
  12. DB2对年份的处理Year()
  13. java弱引用在安卓中有效吗_Android 软引用和弱引用详解及实例代码
  14. 类ThreadLocal的使用与源码分析
  15. [原]ASP.NET MVC 3 Razor + jqGrid 示例
  16. Java中为什么使用事务?什么时候使用事务?如何使用事务?
  17. 应聘网站编辑常见面试题
  18. 服务器ssl证书在哪查看,https证书查看
  19. java protected用法_深入理解Java的protected修饰符
  20. H3C S5024P智能千兆交换机

热门文章

  1. Javascript框架设计思路图
  2. apache url 包含特殊字符 404
  3. [转]【基于zxing的编解码实战】精简Barcode Scanner篇
  4. 编程基础(动态内存的分配)
  5. 查看SQLSERVER内部数据页面的小插件Internals Viewer
  6. 自定义UITabBarController以及UITabBar的分析
  7. java循环写出多个jlabel_java – 允许多个JLabel中的文本重叠
  8. redismanager 获取不到yml中的密码_恋爱物语APP:在城市的孤独中,获取真爱密码...
  9. You-Get—— 基于 Python3 的媒体下载工具
  10. C语言函数一章教学,c语言案例教程:函数教学讲义.ppt