概率Probability的本质是什么？[附概率基础知识，文末可下载28页PDF]

原创：秦陇纪数据简化DataSimp 4月2日

简介：概率Probability的基础知识、本质是什么？(文末“阅读原文”可下载29图3码26k字28页PDF) 蓝色链接“数据简化DataSimp”关注后下方菜单项有文章分类页。作者：秦陇纪。来源：知网、百度、知乎等文汇编，引文出处请看参考文献。版权声明：科普文章仅供学习研究，公开资料©版权归原作者，请勿用于商业非法目的。如出处有误或侵权，请联系沟通、授权或删除事宜、投稿邮箱DataSimp@126.com。欢迎转发：“数据简化DataSimp、科学Sciences、知识简化”新媒体聚集专业领域一线研究员；研究技术时也传播知识、专业视角解释和普及科学现象和原理，展现自然社会生活之科学面。秦陇纪发起未覆盖各领域，期待您参与~ 强烈谴责超市学校医院银行政府公司肆意收集、倒卖公民姓名手机号、身份证号、家庭单位住址等隐私数据！

概率Probability的本质是什么？（21250字)............................................................................... 1

01概率Probability基础知识 (3691字)............................................................................................... 1

来源........................................................................................................................................................ 2

古典定义................................................................................................................................................ 2

频率定义................................................................................................................................................ 2

统计定义................................................................................................................................................ 2

公理化定义............................................................................................................................................ 3

事件........................................................................................................................................................ 3

概型........................................................................................................................................................ 3

02概率Probability的本质是什么？ (17358字)................................................................................. 4

▌1 概率在本文中的运用...................................................................................................................... 5

▌2 概率在生活中的运用...................................................................................................................... 6

▌3 概率的本质问题严格说来有两层含义.......................................................................................... 7

▌4 概率的本质问题的“信息论大法”解释........................................................................................... 9

▌5 概率的本质问题的“函数论角度、公理化”解释........................................................................... 10

▌6 概率的本质问题的“形而上、客观物理与主观数学”解释........................................................... 12

▌7 概率的本质问题的“构成物质信息的数量和排列”解释............................................................... 13

▌8 概率的本质问题的“经典物理中的概率（统计力学、混沌）”解释........................................... 13

▌9 概率的本质问题的“生活中的例子”解释....................................................................................... 13

参考文献(414字).................................................................................................................................. 26

Appx(625字).数据简化DataSimp社区简介........................................................................................ 27

概率Probability的本质是什么？（21250字)

数据简化DataSimp导读：在行政、教育、媒体、医疗、科技等文本数据简化中，诸如标记、歧义、概括、溯源、形式化、数学化过程中，用到很多概率论的知识和技术。本文综述“概率Probability”之来源、古典定义、频率定义、统计定义、公理化定义、概率事件及概型等基础知识，对概率Probability的本质是什么等问题的学习和探讨，旨在推动TDS(文本数据简化)、NLP(自然语言处理)与IR(信息检索)领域相关理论研究的科普、发展、协同与共建。

01概率Probability基础知识 (3691字)

概率Probability基础知识

概率（外文probability）又称或然率、机会率、机率（几率）或可能性，是对随机事件发生的可能性的度量，一般以一个在0到1之间的实数表示一个事件发生的可能性大小。概率是概率论的基本概念，属于数学学科，领域：概率论，统计学。

图1 随机事件与概率，来源：科普中国

▌1 历史

第一个系统地推算概率的人是16世纪的卡尔达诺。记载在他的著作《Liber de Ludo Aleae》中。书中关于概率的内容是由Gould从拉丁文翻译出来的。

图2 Bernoulli三兄弟，来源：科普中国

卡尔达诺的数学著作中有很多给赌徒的建议。这些建议都写成短文。然而，首次提出系统研究概率的是在帕斯卡和费马来往的一系列信件中。这些通信最初是由帕斯卡提出的，他想找费马请教几个关于由Chevvalier de Mere提出的问题。Chevvalier de Mere是一知名作家，路易十四宫廷的显要，也是一名狂热的赌徒。问题主要是两个：掷骰子问题和比赛奖金分配问题。

概率是度量偶然事件发生可能性的数值。假如经过多次重复试验(用X代表)，偶然事件(用A代表)出现了若干次(用Y代表)。以X作分母，Y作分子，形成了数值(用P代表)。在多次试验中，P相对稳定在某一数值上，P就成为A出现的概率。如偶然事件的概率是通过长期观察或大量重复试验来确定，则这种概率为统计概率或经验概率。研究支配偶然事件的内在规律的学科叫概率论。属于数学上的一个分支。概率论揭示了偶然现象所包含的内部规律的表现形式。所以，概率，对人们认识自然现象和社会现象有重要的作用。比如，社会产品在分配给个人消费以前要进行扣除，需扣除多少，积累应在国民收入中占多大比重等，就需要运用概率论来确定。

▌2 定义 (▪ 来源 ▪ 古典定义 ▪ 频率定义 ▪ 统计定义 ▪ 公理化定义 )

来源

概率（Probability）一词来源于拉丁语“probabilitas”，又可以解释为probity。Probity的意思是“正直、诚实”，在欧洲probity用来表示法庭案例中证人证词的权威性，且通常与证人的声誉相关。总之与现代意义上的概率“可能性”含义不同。

古典定义

如果一个试验满足两条：

（1）试验只有有限个基本结果；

（2）试验的每个基本结果出现的可能性是一样的。

这样的试验便是古典试验。

对于古典试验中的事件A，它的概率定义为：P(A)=，其中n表示该试验中所有可能出现的基本结果的总数目。m表示事件A包含的试验基本结果数。这种定义概率的方法称为概率的古典定义。 ^[1]

频率定义

随着人们遇到问题的复杂程度的增加，等可能性逐渐暴露出它的弱点，特别是对于同一事件，可以从不同的等可能性角度算出不同的概率，从而产生了种种悖论。另一方面，随着经验的积累，人们逐渐认识到，在做大量重复试验时，随着试验次数的增加，一个事件出现的频率，总在一个固定数的附近摆动，显示一定的稳定性。R.von米泽斯把这个固定数定义为该事件的概率，这就是概率的频率定义。从理论上讲，概率的频率定义是不够严谨的。

统计定义

在一定条件下，重复做n次试验，n_A为n次试验中事件A发生的次数，如果随着n逐渐增大，频率n_A/n逐渐稳定在某一数值p附近，则数值p称为事件A在该条件下发生的概率，记做P(A)=p。这个定义成为概率的统计定义。

在历史上，第一个对“当试验次数n逐渐增大，频率n_A稳定在其概率p上”这一论断给以严格的意义和数学证明的是雅各布·伯努利（Jacob Bernoulli） ^[2] 。

从概率的统计定义可以看到，数值p就是在该条件下刻画事件A发生可能性大小的一个数量指标。

由于频率总是介于0和1之间，从概率的统计定义可知，对任意事件A，皆有0≤P(A)≤1，P(Ω)=1，P(Φ)=0。其中Ω、Φ分别表示必然事件（在一定条件下必然发生的事件）和不可能事件（在一定条件下必然不发生的事件）。

公理化定义

柯尔莫哥洛夫于1933年给出了概率的公理化定义，如下：

设E是随机试验，S是它的样本空间。对于E的每一事件A赋于一个实数，记为P(A)，称为事件A的概率。这里P(A)是一个集合函数，P(A)要满足下列条件：

（1）非负性：对于每一个事件A，有P(A)≥0;

（2）规范性：对于必然事件Ω，有P(Ω)=1;

（3）可列可加性：设A₁，A₂……是两两互不相容的事件，即对于i≠j，A_i∩A_j=φ，（i,j=1,2……），则有P(A₁∪A₂∪……)=P(A₁)+P(A₂)+……

▌3 性质

概率具有以下7个不同的性质：

性质1：P(Φ)=0；

性质2：（有限可加性）当n个事件A₁,…,A_n两两互不相容时：　P(A₁∪...∪A_n)=P(A₁)+...+P(A_n)；

性质3：对于任意一个事件A：P(A)=1-P(非A)；

性质4：当事件A,B满足A包含于B时：P(B-A)=P(B)-P(A)，P(A)≤P(B)；

性质5：对于任意一个事件A，P(A)≤1；

性质6：对任意两个事件A和B，P(B-A)=P(B)-P(AB)；

性质7：（加法公式）对任意两个事件A和B，P(A∪B)=P(A)+P(B)-P(A∩B)。

▌4 名词（▪ 事件 ▪ 概型）

事件

在一个特定的随机试验中，称每一可能出现的结果为一个基本事件，全体基本事件的集合称为基本空间。随机事件（简称事件）是由某些基本事件组成的，例如，在连续掷两次骰子的随机试验中，用Z，Y分别表示第一次和第二次出现的点数，Z和Y可以取值1、2、3、4、5、6，每一点（Z，Y）表示一个基本事件，因而基本空间包含36个元素。“点数之和为2”是一事件，它是由一个基本事件（1，1）组成，可用集合{（1，1）}表示，“点数之和为4”也是一事件，它由（1，3），（2，2），（3，1）3个基本事件组成，可用集合{（1，3），(3，1)，（2，2)}表示。如果把“点数之和为1”也看成事件，则它是一个不包含任何基本事件的事件，称为不可能事件。P(不可能事件)=0。在试验中此事件不可能发生。如果把“点数之和小于40”看成一事件，它包含所有基本事件，在试验中此事件一定发生，称为必然事件。P(必然事件)=1。实际生活中需要对各种各样的事件及其相互关系、基本空间中元素所组成的各种子集及其相互关系等进行研究 ^[3] 。

在一定的条件下可能发生也可能不发生的事件，叫做随机事件。

通常一次实验中的某一事件由基本事件组成。如果一次实验中可能出现的结果有n个，即此实验由n个基本事件组成，而且所有结果出现的可能性都相等，那么这种事件就叫做等可能事件。

互斥事件：不可能同时发生的两个事件叫做互斥事件。

对立事件：即必有一个发生的互斥事件叫做对立事件。

概型

· 古典概型

古典概型讨论的对象局限于随机试验所有可能结果为有限个等可能的情形，即基本空间由有限个元素或基本事件组成，其个数记为n，每个基本事件发生的可能性是相同的。若事件A包含m个基本事件，则定义事件A发生的概率为p（A）=，也就是事件A发生的概率等于事件A所包含的基本事件个数除以基本空间的基本事件的总个数，这是P.-S.拉普拉斯的古典概型定义，或称之为概率的古典定义。历史上古典概型是由研究诸如掷骰子一类赌博游戏中的问题引起。计算古典概型，可以用穷举法列出所有基本事件，再数清一个事件所含的基本事件个数相除，即借助组合计算可以简化计算过程。

· 几何概型

几何概型若随机试验中的基本事件有无穷多个，且每个基本事件发生是等可能的，这时就不能使用古典概型，于是产生了几何概型。几何概型的基本思想是把事件与几何区域对应，利用几何区域的度量来计算事件发生的概率，布丰投针问题是应用几何概型的一个典型例子 ^[3] 。

设某一事件A（也是S中的某一区域），S包含A，它的量度大小为μ(A)，若以P(A)表示事件A发生的概率，考虑到“均匀分布”性，事件A发生的概率取为：P(A)=μ(A)/μ(S)，这样计算的概率称为几何概型。若Φ是不可能事件，即Φ为Ω中的空的区域，其量度大小为0，故其概率P(Φ)=0。

在概率论发展的早期，人们就注意到古典概型仅考虑试验结果只有有限个的情况是不够的，还必须考虑试验结果是无限个的情况。为此可把无限个试验结果用欧式空间的某一区域S表示，其试验结果具有所谓“均匀分布”的性质，关于“均匀分布”的精确定义类似于古典概型中“等可能”只一概念。假设区域S以及其中任何可能出现的小区域A都是可以度量的，其度量的大小分别用μ(S)和μ(A)表示。如一维空间的长度，二维空间的面积，三维空间的体积等。并且假定这种度量具有如长度一样的各种性质，如度量的非负性、可加性等。

▌5 区别频率

对事件发生可能性大小的量化引入“概率”。独立重复试验总次数n,事件A发生的频数μ，事件A发生的频率F_n(A)=μ/n，A的频率F_n(A)有没有稳定值？如果有，就称频率μ/n的稳定值p为事件A发生的概率，记作P(A)=p（概率的统计定义）。

P(A)是客观的，而F_n(A)是依赖经验的。统计中有时也用n很大的时候的F_n(A)值当概率的近似值。

概率论基础学习指导书

词条标签：[gài lǜ]概率^[4] 词条由“科普中国”百科科学词条编写与应用工作项目审核，科学百科数理科学分类。科普中国致力于权威的科学传播，本词条认证专家为王海侠副教授审核南京理工大学。词条统计：浏览1220395次，编辑132次历史版本，最近更新：2018-02-23，创建者：kgdxk。

▌6 知网检索《现代医学实验技巧全书·下册》解释：

概率(probability)是描述事件发生可能性大小的一个量。它是研究事物偶然性发生的可能性的重要方法，即一个事件或一次实验的结果，发生或出现的机会大小。统计上常用符号P来表示概率。在一定条件下肯定发生的事件称为必然事件，其概率为1，肯定不发生的事件称为不可能事件，其概率为0。可能发生也可能不发生的事件称为随机事件，其概率范围在0与1之间。概率越接近1，表示发生的可能性越大。概率接近0，发生的可能性越小。医学文献中常见到P≤0.05或P≤0.01，前者表示事件发生的可能性等于或小于0.05，后者表示事件发生的可能性等于或小于0.01，作为事物差别在统计学上显著意义与高度显著意义的界限。

02概率Probability的本质是什么？ (17358字)

概率（Probability）的基本运用

概率不同于严谨数学科学那么严谨，因为有很多未知性。现代社会生活中概率运用比较广泛，从文理科到工程，从我们日常交谈、每天听到的天气预报，再到炒股票、制定计划，生活学习的各个方面都有的概率的身影。概率本身是没有任何需要指责的地方，因为很多科学实验，并不能用来解释事物的本质。科学实验探究存在一定不确定性，就算探究出来，实验解释的理论只是一个公理，是根据以前的历史数据导出来的罢了，这个概率的公理就是统计局描述，也就是概率的一种本质。

▌1 概率在本文中的运用

我们使用各种不确定文本，如“考的好吗”、“明天天气咋样”、“这只股还走高吗”等等，来传达不确定信息。不确定信息是做计划、决策的基本内容，“天有不测风云，人有旦夕祸福”，有时甚至是唯一内容。表征不确定信息时，通常使用概率形式，为不确定事件的每个结果附加一个“可能性”的描述，例如“答辩一定能过”、“到时给你选个好礼物”、“这酒有40度吗”、“明天下雨吗”、“这只股票可能会涨停”。其中，“一定能过、选个好礼物、可能”属于文字概率(verbalprobability)，是衡量概率的一种文字形式；“明天100%下雨、这瓶酒估计有40%酒精、预期利润率在60%~80%”等另一种常见表达概率的形式是数字概率(numericalprobability)。在行政、教育、媒体、医疗、科技等文本数据简化中，诸如标记、歧义、概括、溯源、形式化、数学化过程中，用到很多概率论的知识和技术。本文综述“概率Probability”之来源、古典定义、频率定义、统计定义、公理化定义、概率事件及概型等基础知识，对概率Probability的本质是什么等问题的学习和探讨，旨在推动TDS(文本数据简化)、NLP(自然语言处理)与IR(信息检索)领域相关理论研究的科普、发展、协同与共建。

我们所生活的世界，有着必然性的一面变了，必然还有一种非必然性的一面，那样的就是一种概率的地方。就算科技发展到现在，还无法预测任何一个时刻，下一秒任何一个物体的精确状态。换句话说，实证科学研究的是已知数据和对象，概率理论研究的是未知数据或对象。（秦陇纪，2018）

现代社会科学只不过是抽象理想化，在建立起一个虚幻的模型，这样就可以在基础上进行更多的科学研究，这其中也有着一种概率论思想。想要把整个世界的原理都讲清楚，是根本不可能的，但是实证科学和概率科学可以解释很大一部分。概率论其实就是做的这样的事情。概率可以这样理解，分开来看，概字就是大概，统一综合起来的大致情况这样的意思，率就是几率、概率的意思，综合起来概率就可以理解为对某种事件的综合情况的一种规律的总结，表现为这件事情发生的概率这样子。那么，概率的本质是什么呢？

▌2 概率在生活中的运用

我们接触到的明确的概率的应该是在数学学习概率的时候，这是一个相对来说比较系统的学习，我们通过实验来理解概率，最经典的就是抛硬币，会是正面向上还是反面向上的实验，这样实验最后的结果告诉我们有些事件、情况的发生是有一定概率的。

并且对概率也有三种情况，一种是概率为一的，必然发生的事件，就是固定的已有的规律；一种是有规律可循的，可以一定程度上预测发生的几率的；一种是不可找到规律的，是随机发生的事件。

通过数学上系统的学习，以及我们在生活中的具体的体验，我们可以感受到，概率就是对一些可以找到规律的事件，进行规律的总结，我们可以通过这些总结在实际生活中进行运用，比如抽奖的时候，不会因为抽不中而太难过，毕竟中奖几率太小了。

概率的本质就是对一些事件或者情况，进行规律的总结，这些总结也可以解决我们实际生活中的一些疑惑，而且也是对人的一种思维方式的培养。^[5]概率存在两种解释基础：1.物理世界本身存在的随机性（客观概率）。2.是我们由于信息不足而对事件发生可能性的度量（主观概率）。由两种解释建立起了传统概率理论。理解概率的本质含义后，再看如何计算概率。

概率（Probability）的本质是什么？

▌3 概率的本质问题严格说来有两层含义

（1）含有概率的陈述（probabilistic claims）的含义是什么？当人们说“掷硬币正面朝上的概率是50%，” 这是什么意思？

（2）概率现象是如何形成的？造成概率现象的原因是什么？

首先考虑：含有概率的陈述（probabilistic claims）的含义是什么？^[8]

当我们说，

“这个粒子衰变的概率是50%；”

“掷硬币正面朝上的概率是50%；”

“这个手术成功的概率是60%；”

“Trump被弹劾的概率是5%；”

都是什么意思？

想象一下一个听得懂中文但是不理解概率这个概念的克鲁星人来到地球问你：“掷硬币正面朝上的概率是50%”是到底是个什么意思？

你解释道：如果你掷很多次硬币，其中一半的时候是正面朝上。

克鲁星人：那如果我抛硬币10次，一定会有5次正面朝上喽？

你：不，要更多次才行。

克鲁星人：那是抛硬币100次，一定会有50次正面朝上咩？

你：额不是。。。

克鲁星人：那抛硬币一百万次，一定会有五十万次正面朝上咩？

你：还是不够多次。。。

克鲁星人：那一百亿次呢？

你：额不。。。应该说是抛硬币无限次，正面朝上的比率是50%。

克鲁星人：我不懂你在说什么> < 抛硬币无限次，无论哪面朝上也都有无限次，怎么算比率？

即便可以算比率，我不明白地球人为什么会对概率感兴趣--你们难道没事要抛个无限次硬币玩吗？地球人还说，某个病人手术成功的概率是60%—但没有人会做无限次的手术呀。

你：额。。。我不是说真要抛硬币无限次。我是想说取极限：当抛硬币的次数趋近于无限次，正面和反面的比率是5：5；更确切地说，取次数趋近于无限次的极限，正面和反面的比率不是5：5的概率趋于0。

克鲁星人：等等！你的解释用了概率这个词！都跟你说人家不懂概率啦，用概率解释概率，更搞不清啦讨厌~

要是再解释不清的话，

哦~科科~

图11 出自Rick and Morty，克鲁星人是其中没事找事射人家星球的外星人。

你：啊啊啊啊啊要死啦要死啦！！难道地球的命运就要这么毁在我的手里了？！明明概率论的数学假设和定义都很清楚啊，要解释概率到底是什么，看起来也只是需要澄清一些概念上的细节而已啊！为什么却这么困难？！

有什么人是专门研究这个问题的吗？平时应用概率论的时候也没什么大问题啊，什么人会这么蛋疼地研究这个问题？！

这时候你挖出来因为没什么用被丢在角落无人问津、平时只能吃土的哲学家朋友。。。

TA一脸恹恹地跟你说：这其实是一个非常深刻的哲学问题，一般被称作“概率的解释（interpretations of probability）”。“概率”这个在日常对话中看起来无害的概念，实际上会带来非常严重基础性问题。解释概率的相关理论一般可以划分为两大传统：贝叶斯派和客观概率派。

（一）贝叶斯派（主观概率派）

贝叶斯派用信念的强度（degrees of partial belief）来定义概率。根据这个定义，概率并不是关于物理系统的，而是关于物理系统和我们之间的关系。^[9]

比如说，在经典力学的框架下，掷硬币这样的事件是完全决定性的（fully deterministic）：大概来说，硬币和其所在环境的组成的物理系统在某个时刻的状态是由其前一个时刻的状态决定的。如果我们知道这个系统的初始状态，知道组成这个系统每一个粒子最开始的速度和位置，原则上通过经典的动态方程，可以计算出这个系统在之后每一个时刻的状态。也就是说，硬币落地的朝向是完全由其初始状态和物理定律决定的；而如果知道硬币、掷硬币的手、周围空气的分布，硬币落下接触的地面等等每一个细节，原则上我们是可以准确预测出最后硬币是朝上还是朝下的。

但是，很明显，由于我们平时不知道这些细节，无法做出精准的预测，只能预测一个大概的结果，而这个结果就是通过概率的形式来表达的。

根据贝叶斯派，概率代表了我们对于某个事件的信念。如果我们相信这个事件一定会发生，概率则为1；如果我们相信这个事件一定不会发生，概率则为0；如果我们相信这个事件有可能发生，而测量关于它会发生这个信念的强度就是概率，介于0和1之间。

贝叶斯派还面临着很多问题。比如说：

（1.1）我们是会有“川普会被弹劾”的信念，这个信念的强度也许比“宇宙存在外星人”要弱，但这并不代表对应着某个信念的强度存在着一个确切的数字。

（1.2）为什么测量信念的强度满足关于概率的形式上的公理？

（1.3）如果概率只是对于人们信念强度的测量，那么每个人对于同一个事件会有不同的信念，也就会给出不同的概率。但是，一般认为像掷硬币这样的事件是存在一个客观的、在不同的人之间统一的概率的。

我会在另一个答案讨论贝叶斯派是如果应对这些反对意见的。

（二）客观概率派

相比贝叶斯派，客观概率派认为概率是关于客观世界的，关于物理系统的，独立于人们对世界的信念。^[10]

（2.1）原始派（Primitivism）

原始派宣称，概率是单个物体或者整个系统的一种原始的属性（primitive property），无法用非概率的语言来解释。比如在欧几里得几何学中，点就是一个原始概念，你无法解释点是什么。如果克鲁星人说不懂概率是什么的话，要么它们是在撒谎，要么对于它们而言没有任何可以理解概率的希望。为什么你会觉得我们可以用非概率的语言来解释概率是什么？

原始派一般和倾向派（propensity）被划分为同一个观点。倾向派认为作为原始属性代表了物理系统具有某种倾向（or disposition, tendency）。比如盐在水中会有溶解的倾向；硬币被抛后有朝上或者朝下的倾向。波普（对，可证伪的那个波普）就是一个倾向派。

原始派的观点乍看起来也许符合我们日常的直觉。事件和事件之间是有区别的：有的事件会决定性地发展（比如，如果我松手，一般情况下，球会决定性地落在地上，而不会飞上天去；比如，如果有一屉虾饺摆在我面前，就会决定性地被我吃掉），而有的事件则会概率性地发展（比如，这个粒子在接下来可能会衰变，也有可能不会衰变）。而这决定性和概率性都是由事物（或者事件）的本质属性决定的。

（2.2）频率派（Frequentism）

如名字所示，频率派直接将概率和频率化作等号。

频率派的问题其实在开头和克鲁星人的对话中已经有所提及了。概括来说就是，也许用频率来解读概率看起来符合直觉，但事实上频率和概率并不完全相等。

我们能做到的最好的证明是大数定则（the Law of Large Numbers），但大数定则并没有从真正意义上解决问题。

（2.21）最好的系统（The Best-System View）/休谟式解释（the Humean Account）

这是频率派目前最被看好的一个分支。这个学派将概率和自然法则的解释联系起来。关于对自然法则的理解，具体内容还要参考：因果关系是真实存在，还是我们认识世界的一种方法？ - 知乎

简单来说，根据简单性（simplicity）和信息量（informativeness）的平衡，我们从众多不同的科学理论的系统中选出最好的一套系统；如果一个自然规律（regularity）是这套系统内的定律，那么这个规律就是自然法则（a law ofnature）。^[11]

有些自然法则是决定性的（deterministic）--比如说牛顿定律，而有些则是概率的（probabilistic）--比如说量子力学中的玻恩定则（Born Rule）。^[12]

举个简单的例子，如果想要描述一系列投硬币的事件。完整的描述是细数每一个事件情况：第一次硬币朝上，第二次朝下，第三次朝下......列出一个长长长长长长长的名单。这样的描述信息量很大，但是并不简单。一个简单的描述方式是：投硬币的结果有两种可能性，其中正面朝上的概率是50%，背面朝上的概率是50%，这里的概率就是频率。虽然这种描述方式并不完全准确（如之前所述，概率和频率并不完全相等，但这并不影响。通过牺牲一部分的信息量，我们得到了更简单的描述--从这个角度来讲，这种概率式的描述，相比完整的名单来说，达到了在简单性和信息量上的更好的平衡。也就是说，作为频率派的一个分支，最好的系统解释并不面临传统频率派所面临的致命问题。

相比原始派，一个概率性的和一个决定性的系统并没有本质上的区别：没有什么更深层的动力属性（对于原始派来说，就是原始属性，或者概率倾向probabilistic propensity）来解释一个系统的概率性，或者决定性。概率性法则和决定性法则不过是我们描述、归纳事件和规律的不同方式罢了。也就是说，概率并没有什么神奇的地方，只是一种更精简的描述世界的方式。^[13]

之后会在另外一个答案中更详细地讨论对贝叶斯派和两种客观概率派的反驳，以及它们支持者对反驳的解决方法。

----------------------------------------------------------------------------------

有小伙伴问到了，再啰嗦两句：贝叶斯概率和客观概率并不一定是完全不兼容的。实际上，学界很多人持有的是多元论的观点（A Pluralist View aboutProbability）。^[14]根据这个观点，我们同时有客观概率和主观概率。

如果有客观概率的话，很自然地，我们还面临着如何认知这客观概率的问题。哲学家David Lewis提出了如何联系客观概率和主观概率的原则，叫做ThePrinciple Principle（原则原则）。

妈妈说答案写得太长长长长长长长长长长会没有人看，至于（2）概率现象是如何形成的？造成概率现象的原因是什么？答在概率到底是由什么决定？基本木有人看，球看～打滚～给每个答案都看了的小伙伴比心~~^[15]

▌4 概率的本质问题的“信息论大法”解释

民科强答，数学废渣，语言不严谨。写这个答案纯属抛砖引玉以及安利“信息论大法好”。^[16]

假定我们有一堆东西，每个东西都可以被（管它多少维）某个空间里的一个点来表示，并且它们把这个空间填满了。那么如果我想知道某一类东西到底有多少，我既可以数东西本身，也可以数它对应的点。

上面这两句里有不少可以规范化和推广的地方。比如说什么叫“某一类”东西，可以用条件语句来规范化，也可能可以用别的。比如说“数”，可以推广到“测”。

如果对于“一堆东西”中的每一个，我们都知道它对应的点在哪，那么对于任何“一类东西”，我们都知道它对应的点集是啥。这个点集的测度我们可以相应得到，它经过标准化后，就是这“一类东西”的频率，也就等于简单随机抽样抽中抽到这“一类东西”里的“某个东西”的概率。

这是频率学派想说的意思。

假定我们并不知道“一堆东西”中的每一个对应的点在哪，但是我们知道一部分点在哪。根据“这些点在哪”这个信息，我们希望去猜任何“一类东西”的频率。这一般有无限种猜法。有一些猜法可以被我们已知的信息排除，另一些猜法我们不能根据已知信息排除。我们需要利用已有的信息，在没被排除的猜法中找到一个和关于“一堆东西”的所有信息最接近的一个。

如果来了新的信息，我们可以根据新的信息，改变（更新）根据已有信息做出来的“最佳猜测”。

这是贝叶斯学派想说的意思。

说到这当然不算完，毕竟在说贝叶斯学派时有一个关键点没说：什么叫做“最接近的一个”。

我们回到最开始。我们已经把一堆东西看成了某个空间里的一坨点，意味着我们也可以把任何一个猜测看做在这个空间里的一坨点。那么“最接近”的意思是，两坨点之间的差别最小。假如我们知道所有的信息，那么一定存在一个基于这些信息的猜测，使得这两坨点之间没有任何差别。如果我们不知道所有的信息，那么尽管我们的所有可行猜测中一定有一个是和前一坨点没有差别的，但是我们并不知道到底哪个是。于是我们的任务变成了找出“哪个最可能是”。

现在考虑两个可能的信息集合——全集和空集，以及一个度量——信息熵。香农的开创性工作已经证明了信息熵作为一个对信息含量的度量，具有一些很好的性质。那么，假定我们有一个从空集给出的最好的猜测，同时有一个基于全集得到的真实频率。那么对于任何一个信息集，在其上的最佳猜测到真实频率的距离（和距离空间里的“距离”不是一个意思，这里只能叫“divergence”，Kullback-Leibler divergence），都不超过基于空集得到的最佳猜测到真实频率的距离。换言之，基于任何一个信息集，还原全集的努力是有上限的。所以我们拿到信息集后要做的就是去够这个上限。它是一种判断“哪个最可能是”的方法。

引入了信息及其度量后，事实上我们可以把频率学派的看法和贝叶斯学派的看法统一起来（应该不是唯一的统一方式），得到这样一个观点：概率无非是用已知的信息还原更多的信息的一类手段。频率学派和概率学派的区别在于选择这一类手段中的哪些，换句话说，就是“已有信息怎么用”。

▌5 概率的本质问题的“函数论角度、公理化”解释

从函数论角度来说，概率没什么特殊的：集合元素对应事件

Ø 测度对应概率

Ø 随机变量是可测映射

Ø 数学期望是勒贝格积分

Ø 矩母函数是拉普拉斯变换

Ø 条件概率是拉东-尼古丁定理

————还有很多。

从数学上来说，概率的定义是公理化的，具体的公理我就不贴了，更进一步可以说概率就是一种对事件的特殊的测度。至于你说的频率派和贝叶斯派，指的是如何理解概率，基本上来说是哲学上的区别。根据Andrey Kolmogorov的概率公理化体系，

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -- - -

2017.09.04 补充：

参考：Probability axioms，测度论与概率论基础，实变函数论^[16]

总结：概率的本质是测度…测度的本质是函数…函数的本质是映射…

▌6 概率的本质问题的“形而上、客观物理与主观数学”解释

概率本身是一个形而上问题，而而非技术性问题。答"概率的本质是测度的"都犯了把描述对象和理论混淆了的错误。关于主观概率和客观概率的区别也写的很清楚了。其次，关于一些低票答案把概率理解为”测度上的sigma代数"无法解决两个问题：

1.古典概率论仍然是一套自洽并能够有描述性的理论，（在更弱的意义下）能够支撑基本定理LLN和CLT。所以，我们关于概率的认识在非测度论概率下没有根本区别。举个例子：双信封悖论可以通过Bayesian Approach来否定，而并不需要通过“钱在[0,\inf)不是一个合法的分布”来完成。

2.基于测度的概率论实质上是用分析的语言刻画了概率这个事情，事实上我们可以有非分析的理解。254A, Notes 5: Free probability。这个理论是Measure Free的。

其实数学在宇宙中并不实际存在，数学本身就是人类为了认知世界而主观设立出来的一套主观标准，帮助人类认知世界。比如我有一根15cm的棍子，它本质就是一坨粒子通过电磁力等四大基本力构成的，宇宙并不关心它有多长，但人关心，于是设立标准，这样人们就知道它比旁边那个16cm的棍子短了。

硬币落地后的形态取决于人施加力量的大小角度，空气阻力，落地角度，地面硬度和弹性，摩擦力等条件影响。比如硬币原本正要立着的时候，空气流动方向的细微变化会使其倒向一边，而这股风可能来自同事关门时候造成的气流，也可能是西伯利亚来的一股冷空气。硬币投掷等宏观世界的现象，在微观上其实都是一个非常复杂的过程，而人类是没那个时间精力去仔细观察研究的，图省事就用数学来表达了。

所以概率的本质就是客观物理和主观数学的统一，没有什么冲突，不要总想着分离它们。当然非要说本质的话，当然是客观物理是本质。

▌7 概率的本质问题的“构成物质信息的数量和排列”解释

概率形成需要，数量与选择，形成排列的结果。在数量与选择之间，随着形成排列的积累，与周围信息的关联不断变化，所决定的映射规律动态调整。概率从某种角度看，呈现的是特定范围内，数据变化与结构关联性的改变。一切都在不断的变，概率只是这个变得影像。意识是概率在人脑内所呈现的影像。http://github.com/scottcgi ^[17]

物质的属性是由，构成物质信息的数量和排列决定的。物质由大到小变化的过程，就是构成物质信息不断减少的过程。物质不断的分割到粒子层面，在不断的分割，不断丢失信息，就会不断丢失特性，到一定程度就难以测量，变成概率，如果再继续分割，最后只有一个比特的信息只有一个属性，要么是1要么是0，概率。

如果说一切都是由信息构成的，那么信息的最小单位又是比特，而比特来自于抛一次硬币，可见信息和概率密不可分，真正的概率来自于微观，而信息构建的物质在宏观，概率连接了宏观于微观。

是概率，阻止了可逆性。是概率，确定了方向，所有不可逆的过程背后原因都是概率。

定义在sigma代数上，值域在[0,1]上的测度。

▌8 概率的本质问题的“经典物理中的概率（统计力学、混沌）”解释

这里只讲经典物理中的概率（统计力学、混沌）：

根据刘维尔定理，时间平均=系综平均。

系综理论里，概率指的是系综平均意义上的概率分布，可以看做一种随机性；

但实际的物理过程其实是系统根据哈密顿原理决定性地遍历各态时，产生的一种概率的假象，就好像我们说一个匀速旋转的指针指某个方向的概率一样，这完全是频率意义上的，没有任何随机性。

一种是假设有足够的信息则没有随机性，一种是假设没有足够的信息则有随机性，两者等价。但这种等价并不平凡，必须要刘维尔定理作保证。

综上，经典物理中的概率属于题中所描述的“主观概率”。

量子物理中的概率（特指坍缩概率）是题中描述的“客观概率”，就不细说了。

概率只是我们无知程度的度量。据定义，我们不晓得其定律的现象，都是偶然现象。——庞加莱

Borel测度

▌9 概率的本质问题的“生活中的例子”解释

排名靠前的解释太过学术了，让很多人看着头疼。我还是从生活中的例子，从以下三个方面聊下概率：

1.什么是概率？

2.如何计算概率？

3.概率对我有啥用？

先从1个例子开始。

在2002年的电影《少数派报告》中，汤姆·克鲁斯扮演的是一位预防犯罪的警察，他借助科数据分析的技术，能够在坏人作案之前就预测出他们的犯罪行为。

2002年，这部电影还只是一部科幻片，但到了2011年，这就成了现实。《纽约时报》在2011年刊登了一篇报道，标题为“在犯罪发生前派遣警力”。

讲的是美国加州圣克鲁兹市警察局的电脑程序预测出闹市区的一个停车场将有可能发生汽车盗窃案件，于是自动派遣警察前往现场。

到场的警察随后逮捕了两个形迹可疑的女人，其中一个人是警局的常客，另外一个人身上携带着毒品。

这里的“预测执法”属于预测分析学的一部分。犯罪总是带有不确定的成分，这就好比没有谁能够确切地说谁会撞车、买房贷款银行也不知道谁会还不起钱。

那么，警察是如何做到预测犯罪的，以及买房贷款时银行是如何预测你是否能还的起贷款？

他们用的预测工具正是概率。那么，什么是概率呢？

1 什么是概率？

我们经常会在生活中听到这句话：选择比努力更重要。

相信你也无数次听过这句话，但是有没有想过：这句话背后的真实含义是什么呢？

我们每天拥有固定的时间和精力，注意这里“固定”是指你的资源和时间都是有限的。在这个前提下，把它们投入到哪些方向上能够取得最佳的效果，这是我们每天都要思考的问题。

举个具体的例子，假如你刚毕业，已经拿到3家公司的offer，一家传统企业的职位，一家创业公司的职位，一家上市互联网公司的职位，你选哪个？

因为你的时间和精力是有限的，所以你不能同时到这3个公司去上班赚钱，不然你就是孙悟空72变了。

你只能在有限的资源和时间下，做一个最佳选择，这个选择代表你去哪家公司工作，未来3年内能让你赚钱能力提升的可能性最大。

这里我们提到可能性，但是只知道可能性是无法做出判断的。

例如我告诉你腾讯股票明天上涨的可能性很大，同时我也告诉你阿里巴巴股票明天上涨的可能性很大。

但是你的钱是有限的，只能选择其中1个来购买。然而不幸的是，我只告诉你两个股票都可能上涨，但是你却没办法判断出买哪支股票是最好的选择。

所以只知道可能性是不行的，这时候数学家就出来吼了一嗓子：如果用某种办法计算出可能性，并用数值来表示这种可能性，不就解决了。

还是刚才的例子，我告诉你腾讯股票上涨的可能性是70%，阿里巴巴上涨的肯能新是90%，两个可能性的数值一比较，你立马知道该怎么选择了。

这里用数值来衡量可能性就是下面图片里描述的概率。

概率就是用数值来表示某件事发生的可能性。当你知道了概率这个数值，就代表你可以预测未来，因为你能通过概率来判断出哪种情况发生的可能性最大。

例如你在玩抛硬币游戏，正面朝上的可能性是多少呢？

由于硬币只有两面，也就是落地后有两种结果，要不正面朝上，要不就是反面朝上，所以抛硬币正面朝上的可能性用数值来表示，概率就是50%，

你看，概率就在我们的日常生活中。只要你面临选择的问题，概率就会用数值表达哪种可能性最大，然后帮助你做出最好的选择。

2 生活中的经典概率案例

通过下面图片的“概率线”里几个生活中常见的概率数值，让你对概率有个整体上的理解。

概率的值永远在0-1范围之间。

如果某件事不可能发生，则其概率为0，对应的就是这条直线上最左端的位置。

如果某件事肯定会发生，则其概率为1，，对应的就是这条直线上最右端的位置，也就是那个点赞的大拇指。

大多数时候，你所面临的都是介于0和1之间的概率事件。

比如这条直线上更靠近左端的抛筛子，某一面数值朝上的概率是1/6。

处于中间位置的是抛硬币，正面或者反面朝上的概率都是50%

靠近右端的从4个蓝色球，1个红色球里面选出4个蓝色球，正好都是蓝色球的概率是4/5。

这句话很简单，但是非常重要，在之后的投资，和数据分析中我会反复提到，跟我一起默念三遍：

如果你做的事情概率低于50%，那就别去做了，因为成功的概率还不如抛硬币可能性高呢。

你看，概率其实就是这条直线上的某个数值点，有时候它更靠左边一些，表示不太可能发生。有时候它更靠近右边一些，表示概率超过50%，更可能发生。

简单吧，很多老师上课都是把概率讲的复杂了。其实概率就来源于我们的生活，用于解决我们生活中的问题。

3 如何计算概率？

在理解了概率的本质含义后，我们一起聊下如何计算概率。

概率计算分为2种，一种是客观概率，一种是主观概率。

1）客观概率的计算

客观概率可以根据历史统计数据或是大量的试验来推定。比如抛硬币，你可以重复的做实验。

例如你在玩抛筛子游戏，想知道筛子落下来后正面朝上数字为1的概率是多大？

我们来想想这个过程，一个筛子有6个面，6个面的数字分别是1到6这6个数值，所以筛子落下来总共有6种可能的结果。

筛子正面朝上数字为1的情况只有1种，那么筛子正面朝上为1的概率=正面朝上数字为1的可能数目/所有可能结果的数目=1/6。

这里分母是6表示跑筛子这个事情总共有6种结果，分子是1表示正面朝上数字为1的可能结果只有1中，所以是1/6。

我们可以用一种更通用的方法表示以上情况，对于事件A的概率=发生事件A的可能个数/所有可能的结果总数。

在统计概率中用“事件”表示某件事情。例如刚才抛筛子上面朝上数值为1就是一个事件。

在一定条件下，可能发生，可能不发生的事件叫做随机事件。例如我们抛骰子就是一个随机事件。

当然这是最简单的概率计算，有时候概率计算很复杂。假如你不知道某件事情发生的可能结果，就没办法计算概率了。这时候该怎么办呢？

我这里给出两个经常用的求概率的办法。

第1个计算概率的办法是寻找这个行业里的权威机构或者网上查资料去了解，一般会有前人计算出的概率给你参考。

例如我们已经知道飞机是所有交通工具里最安全的，但是因为我们是懂概率的人，就想进一步知道飞机上哪些位置存活率最高。

这个概率你在网上就可以找到飞机存活率分布图。最后发现，飞机尾部的乘客座位，发生事故生还可能性最高，高达69%，

但是如果网上查不到前人计算的概率值，该怎么办呢？

可以用第2中计算概率的办法：数据分析。

这里我们举一个例子，你就明白啦。
保险公司在提出一个保险项目之前，都会有一名保险商计算出该项目的发送概率，一旦确定了确定了发生概率，保险商就能决定该项保险的投保费用是多少。

投保费用的计算我之后的文章会详细讲，这里我们重点来看下保险商是如何计算概率的。

例如林志玲小姐经常在高尔夫球场附近跑步，为了防止被突然飞过来的高尔夫球打破自己漂亮的脸蛋，她就去买保险。这时候保险商就要计算出一个高尔夫球场打伤1个人的概率是多少。

如何计算概率呢？

保险商要做的第一件事，就是去咨询一下职业高尔夫协会，了解一下一年里面有多少人被飞来的高尔夫球打的受伤。咨询后得知一年有35人被打伤。

第2步，保险商获取到全国高尔夫球的数据，然后统计出全国有20万的高尔夫球场。

第3步，该保险商用我们前面介绍的计算概率的公式，发生该事件的个数35，除以高尔夫球场的总数20万，就得到一个高尔夫球场打伤1个人的概率了。

同样的道理，在复杂的数据分析中，计算概率也是想办法从数据中找到发生某件事情的数目，然后除以总数目。

2）主观概率

主观概率无法用试验或统计的方法来检验其正确性。比如天气预报说明天下雨的概率是30%，你不可能把明天过上100次，然后说30天下雨。

贝叶斯定理就是一种计算主观概率的方法：猴子：怎样用非数学语言讲解贝叶斯定理（Bayes' theorem）？

4 概率对我有什么用？

现在，你已经知道了什么是概率，如何计算概率。

那么接下来我们一起思考一个问题：

概率对于提升我们的生活质量到底有什么帮助？

作为成年人，我们知道这个世界是不确定的，所以不会要求自己每件事都必须成功，但是我们要努力让每件事成功的可能性变得更大，也就是让每件事成功的概率变的更大。

概率就是这样一门研究不确定事件和结果的学问。

投资股市存在着不确定性，抛硬币同样也存在着不确定性，因为有的时候你得到的是硬币的正面，有的时候是硬币的反面。

连续4次抛一枚硬币更是增加了这种不确定性，因为每一次都有可能是正面或反面，如果你手里有一枚硬币并且连续抛了4次，我事先无从得知4次的准确结果（你也不能），但根据前面概率的计算公式，我们可以计算出：出现两个正面的概率要大于出现4个正面。

在获得并信任此类信息的前提下，决策者常常能够看清风险、作出决定。

举个例子，澳大利亚运输安全局曾经发布了一份有关乘坐不同交通工具导致死亡的风险报告。大家都觉得飞行非常可怕，但实际上商业航空旅行的风险是微乎其微的。

澳大利亚自20世纪60年代起就再没有发生过一起商业航空致死事故，因此航空旅行每一亿公里的死亡率基本为0。汽车每一亿公里旅行的死亡率为0.5，真正吓人的是摩托车的死亡率，因为摩托车的死亡率比汽车整整高出35倍。

那么，为什么在大多数人的直觉中飞机却是最不安全的呢？

那是因为如果飞机失事，必然会引起极大的关注，这时，你多半会觉得飞机很危险。但事实上。论每公里死亡率，坐飞机比坐汽车安全22倍。

但是很可悲的是，大多数人是缺乏概率常识的，下面图片里的例子是最好的证明。

这里的第1张图片是外卖小哥因交通事故死亡，据统计，2017年上半年，涉及到上海市送餐外卖行业的伤亡道路交通事故共76起，“饿了么”和“美团外卖”各占26%。

要知道，在统计概率里，骑摩托车死亡率是最高的，如果懂点统计常识，是如何都不能选择这个行业的。这无非等于拿命赚钱，根本不划算。

第2张图片是美国的911事件。

康奈尔大学的3位研究人员在一篇引人入胜的论文中这样说道，可能有数以千计的美国人在“9·11”恐怖袭击事件发生之后由于害怕坐飞机而死于非命。我们永远都不知道遭受恐怖袭击的真正风险到底有多大，但我们知道开车确实是一件危险的事。

在“9·11”恐怖袭击事件发生之后，越来越多的美国人选择自驾出行，而不选择乘坐飞机。

据统计，在考虑平均死亡率和天气等导致路面交通事故因素的前提下，2001年10～12月，平均每个月因交通事故致死的人数比以往多了344人。该效应随着时间的推移逐渐减弱，这是因为大家对恐怖主义的恐惧在慢慢消退。

但这项研究的作者认为，“9·11”恐怖袭击事件导致的驾车死亡人数或已超过2000人。

你看，在不懂概率的情况下，选择交通方式都会导致死亡率的提升。

现在我们回过头来看下学习概率到底对我们有什么用。

虽然概率并不会确凿地告诉我们将会发生什么，但我们通过计算概率能够知道很有可能发生什么、不太可能发生什么。

聪明的人会使用这类数据为自己的事业和生活指明方向。牛人就是持续对大概率事件下注，并同时有意识预防那些足以毁掉你生活的风险。

我认为每个人都应该学一些概率知识，它现在是公民必备基础知识。当不懂概率的人大惊小怪的时候，懂概率的你可以可以淡定自若。

其实，大多数人在中学的数学课中就学习过概率，但掌握概率的计算方法不等于真正理解概率。

实际上，概率中的几个关键思维，是多数数学老师没有讲明白，甚至这些老师自己就没有弄明白。理解这些思维不需要你会做任何计算，但是它们能让我们看世界的眼光发生根本的改变。

这些思维的逻辑很简单，我们可以从最简单的概率中得到4个生活中的智慧。

这4个生活中的智慧就是：赌徒谬论，大数定律，如何投资赚钱最多，如何预防风险。我后在后面有时间在详细展开聊。

所有，理解了下面3个知识点，你就理解了概率的本质。

1.什么是概率？

概率的本质是用数值表示某件事情发生的可能性。

我给出了概率线，让你对各类事件发生的概率有了大致的认识。

2.如何计算概率？

第1种方法是在网上查找前人计算的经验值。

第2种方法是用数据分析来计算出事件发生的数目，然后除以总数目。

3.概率对我有什么用？

虽然概率并不会确凿地告诉我们将会发生什么，但我们通过计算概率能够知道很有可能发生什么、不太可能发生什么。

聪明的人会使用这类数据为自己的事业，生活，和投资指明方向。牛人就是持续对大概率事件下注，并同时有意识预防那些足以毁掉你生活的风险。

编辑于 2018-01-01

杜福君a.c.m.p

如果概率论——以及统计理论——描述了现实世界，并且接受实验检验的话，那么在我看来，只有频率解释是合理的解释，而贝叶斯解释可以看成是频率解释的特殊情况。发布于 2017-09-04

JX Consp朱门酒肉臭，路有克苏鲁

平常遇到的统计学的概率，你可以认为这种遵循贝叶斯推到的，你可以假装是主观概率。
或者说，如果两种形式的概率无法被区别的话，那么你认为是主观概率和客观概率是一样的。至少密码学上面会倾向于认为是一样的

一个不符合贝叶斯推到的例子

Rev. Mod. Phys. 20, 367 (1948) 编辑于 2014-12-23

张晴认知主义

如果我是上帝，我会知道每一次抛硬币的结果，什么主观概率客观概率，统统走开！

人在变化，硬币在变化，“变化的人”在抛“变化的硬币”，每次抛掷过程都是独一无二的；人和硬币之间还存在相互作用，而且这种相互作用是无限反馈的。可怜的人类，总是把变化的事物当做不变的事物，把有差异的过程/事件/试验当做无差异的过程/事件/试验——认为存在相同的人，相同的硬币，相同的抛掷过程/事件/试验。当他们所认为的“相同的过程/事件/试验”出现不同的结果时，慢慢发明了概率（性）这个概念来描述这种确定性与不确定性并存的现象，还煞有介事地划分出主观概率和客观概率……

上帝作为主客系统之外独立的第三者，应该能够完全认识该主客系统；而该系统之中的主体，是绝对不能完全认识整个系统的。

———————————上帝的分割线————————————

所有的事物都处于变化之中：没有相同的认知主体（观测者）和认知客体（被观测者）；也没有相同的认知过程（观测过程）和认知结果（观测结果）。但是受限于我们（认知主体、观测者）的认知能力（因为认知能力有限所以导致信息不全/失真/滞后），我们总是通过近似化（approximation）或理想化（idealization）得到“相似的”或“相同的”“我们（主体）”和客体，“相似的” 或“相同的” 过程（事件）。然而，每次过程（事件）都是独一无二的，将有差别的过程（事件）视为无差别的过程（事件），就会导致这些“相似的”或“相同的”过程（事件）出现多种结果以及在多种结果之间分布的现象。我们将这种现象概念化为概率或概率性。

概率或概率性包含两面，一面为不确定性，一面为确定性。概率或概率性在单次事件上主要体现为不确定性。因为单次事件总是独一无二的，其可以出现任何一种结果，甚至是以前没有出现过的结果。不确定性源于事件之间的差异性。概率或概率性在多次事件上主要体现为确定性（概率分布），而且重复的次数越多，确定性越明显。因为，事件之间除了有差异，还有相似。确定性源于事件之间的相似性。

概率的初始值（或初始概率）建立于经验的归纳推理（可以是正向的，也可以是逆向的）。基于相似性的归纳推理总会遇到黑天鹅，我们据此修正认知过程和认知结果——凡是规律总有例外，凡是例外都有规律。随着认知过程和认知结果的不断修正，概率会被持续更新。如亨利·庞加莱所言，“概率是我们无知程度的度量”，我再补充半句，“概率也是我们已知程度的度量”。

由于有限的认知能力，我们的认知过程和认知结果无法摆脱概率性。我们在概率下思考，我们在概率下决策，我们在概率下行动。我们必须正视概率或概率性，才能克服概率的负面作用。我们所要考虑的，不仅要包括（最）好的情况，更要包括（最）坏的情况，还要尽可能包括所有的情况！

————————————人类的分割线—————————————

0、本质存在吗？

1、本质可知吗？

2、概率的本质是什么？

3、为什么会产生概率？

4、概率反映/描述什么？

……

概率首先是个概念，这个概念是用来表征某个或某类特殊现象的。其次这个概念在数学或物理领域有专有意义，并可以通过某个数学或物理模型来描述。当用某个模型描述它时，才有“概率的某个模型”或者“某某（模型）是概率的一种描述方式”这个说法，而不是“概率是某种模型”或“某某（模型）是概率”这类本末倒置的说法。举个例子，我拿一张相片说“这就是某人”，意思是它代表\表征某人；但是你要说这个人的本质就是这张相片，就要弄笑话啦，哈哈哈。

编辑于 2018-02-28

jerry tom

类似于这个问题，我们同样还可以问运动的本质是什么，时空的本质是什么，原子的本质是什么，等等。我们回答这些问题的方式，在我看来就是给这个问题赋予一个数学模型。比如，对运动的建模是单参量位于时空流形上的曲线，对时空的建模是微分流形(如果更进一步抽象，可能会有更丰富的结构)，对原子的建模是希尔伯特空间上的态(state or ray)，诸如此类。
回到概率这个问题上来，我们对它的建模是利用测度的数学工具，我们希望指出哪些事件是可以问概率的，我们还要求对可以问概率的这些事件有交，并的相应运算，于是我们引入sigma代数的概念，这就构成了概率的公理化定义。数学上的定义很好的符合我们的经验。于是我们就可以认为我们回答了这个问题(至少我们可以计算并作出预言)。

发布于 2017-06-05

范函子Skyline

维持世界粉饰乾坤的橘子少女

UPDATE：想到了一个稍微好点的表述。

我们所认识的所有的「确定性」是「不确定性」，概率是对「不确定性」的测度。

然并卵，好像没什么区别。Kolmogorov留下的这口大锅这个世纪到底能不能解决嘛(╯‵□′)╯︵┻━┻

随机绝对是第四次数学危机！危机QAQ

——原答案——

数学公理化和物理上的解释有人贴了我就不重复了，十分佩服

@灵剑的描述：

一种对事件的特殊的测度。

这里补一下他没展开的哲学上的问题。

频率派和贝叶斯派之间的矛盾也不是什么铁板一块，互不兼容，甚至恰恰相反，将二者结合起来才是一个完整的「概率」。这种想法类似于Cantor用「我们认识的所有的『有限』」来定义「无穷」——「我们认识的所有的『确定』的测度是概率」。

这个表述实在糟糕，等我想到更好的表述过来修改答案QAQ

欢迎讨论~编辑于 2017-09-10

刘伟互联网

一句话总结:我们命已经定了，每个原子每个时刻定死在精确的位置。信息缺失不仅让我们看到了概率分布，而且看到我们活着。
信息全开，事件概率只能是0和1，绝对发生或绝不可能发生。要讲概率分布，必须搞清楚你在什么信息之下，也就意味着此时信息是缺失的。而我们都是信息缺失的，但每人信息量不一样，所以每人眼中世界概率分布都不一样，虽说我们在同一个世界。
我觉得这问题，与唯物和违心的区别很相关。相对论是唯物，量子力学是唯心。概率论，在我看来就可以叫唯心论了。这是我之前对唯物和唯心的解释，现在看来用在这里回答更加适合这个题目:
先看唯物的定义:物质是第一性，意识是第二性。最符合唯物主义的，就是机械决定论:每个原子每个时刻是在一个确定的位置的，由此可推出宿命论。相对论和牛顿经典力学三大定律都是支持机械决定论的，因为他们的公式只会算出唯一结果。
再看唯心主义定义:意识是第一性的，物质是第二性的。唯心主义又分主观唯心和客观唯心，主观唯心就不提了，属于胡扯类的如宗教。客观唯心主义的最典型例子就是——概率论！我想肯定很多读者会认为概率论属于数学，怎么可能是唯心的，如果这样请再看唯心主义定义。举个丢色子的例子，唯心主义认为意识是第一性的，就是说:色子的结果是由我的观测决定的，在我的所知信息下，色子六个面朝上的概率相等，都是六分之一。那么同样例子在唯物主义眼中是怎样的？物质是第一性的，色子的结果是唯一的，有了这个结果你才能观测到这个唯一的结果。唯物主义认为，投色子时的角度投出高度速度角速度，与地面碰撞时的机械能转化效率，已经可以算出色子那一面朝上了，这是一个确定的结果，而不是六个面每个面概率均等！
最后，从信息论的观点，总结下两种观点的联系与区别:
唯心主义，如概率论，是在信息不全的情况下，人们意识中的“平行宇宙”。信息缺失量(称为“熵”)越大，概率越分散，越远离唯物主义;信息缺失越少，则一件事的概率接近于1，越接近唯物主义。信息全部获取后，概率为1，则就是唯物主义了。

======

另外我觉得概率论和信息论是一体的，要高清概率，就得高清信息是什么。推荐通信必修课:信息论，看香农定义并量化了信息这种东西，看看熟知的比特单位到底是怎么来的是什么含义。而概率论，就是在一定信息下的状态。信息全开，就是唯物主义，宿命论;信息缺失，世界就是眼前的概率分布，我们常人是信息缺失的。
说到这里不得不说上帝宣称全知全能是谎言，因为全知就是绝对宿命论包括自己，全知的上帝就会看到自己每个时刻每个原子精确定死在精确的位置，看到上帝是死的，是全无能的。

再说一点，那就是科学(除了量子力学)大多在信息全开假设下进行，以谋求最优解和最普世的结论。到了一定境界，发现有些信息太难获取了，于是大家就研究在信息缺失有啥结论，因为这种信息缺失是非常普遍的，于是有了量子力学，能在现实应用中算的更准。现实中上帝到底投不投色子呢？我认为把纠缠太理解为信息缺失，比理解成上帝投塞子好，因为万一那天缺失的信息获取到了，就又能改进量子力学了。

而我们平日生活做决策时，做现实工程项目时，信息缺失就更多了，所以要用到更多的概率的概念。人天生就有朴素概率的概念，只是数学家更精确的建模了。

编辑于 2017-05-27

邓丹阳Quantum Researcher + AI Thinker

在一个确定论（Deterministic)的世界观里，概率必须是主观的 - 概率反映的是人们对物体真实状态缺乏完整的信息（即主观论 - Subjective interpretation of probability）。在一个牛顿力学的世界里投硬币，只要你掌握足够多的信息（比如角度，力量，硬币的形状和重量分布，风速等），你可以每次都投出头，或者每次都投出尾（也就是概率为1或0）。

虽然伟大的麦克斯韦（Maxwell），吉布斯(Gibbs)的论述中等都含有主观论的思维，大部分的科学家还是频率论（Frequentist) 的思维，这和科学家们奉行操作主义（operationalism)有很大的关系。

在一个不确定的世界里，比如量子力学，要怎么诠释量子概率还是一项正在进行中的重要研究。虽然最直接的理解是频率主义，最近有越来越多的人开始关注量子贝叶斯主义的观点 - 量子概率乃一种epistemic probability (姑且译为概率的认知诠释)。意思是量子概率并非像速度和能量那样存在于外在世界中，而是人脑的产物，是人为了表达在和量子世界作用时各种可能结果的可能性。这种概率是会随着对物体系统的认识增加或减少而改变。而改变的方法是透过贝叶斯公式（的量子版本）。

发布于 2017-07-25

云游剑侠游戏后端

我觉得概率就应该是主体对客体信息掌握不足时进行的科学评估结果。

对于大自然中的概率、不确定性原理等现象，这种概率的解释也是行得通的，因为信息不足并不代表一定有一种方法能获取全信息。

有时获取信息的成本太大，在少数的条件上进行合理预测，有更好的性价比。

有时根本无法获取全信息，因为获取手段本身会打破信息的状态。发布于 2017-05-27

yangqingter

概率的本质是“不知道”，要是知道我就直接告诉你结果而不是告诉你概率。编辑于 2017-07-20

三流MFE/100本数学／星战／iwanna／巴萨／

他本质上什么都不是，但是我们认为这是需要存在的，我们认为我们需要有一种东西来描述可能性这个概念(注意是描述，不代表对等)，于是我们人为的定义，构造了概率，顺便再构造了柯尔莫哥洛夫的概率，因为它“看上去很合理”

看你怎么理解了，可以看做基于现有的信息流的一种预测，可以看做一个理想化模型去模拟现实，如果你闲着没事也可以直接真的把他和“可能性”这个概念独立开来，毕竟概率的定义不依赖“可能性”存在。编辑于 2017-05-30

Swift死忠,函数式死忠,Javascript粉,Kotlin粉.

这个世界既是物理随机,又是度量随机.其根本区别就是我们选择什么样的参考体系.你拿一块石头砸鸡蛋,鸡蛋被砸破,就是物理必然,在这个参考体系下,所有的随机,一定只是度量随机.但是,你要突破眼见的参考体系,考虑石头和鸡蛋中分子的碰撞,对上一层的参考体系来说,这一层是物理随机了.往上也是,一颗地球在太阳系的移动我们可以当做简单的运动,但是,随着星球的增加,运动的规则越来越复杂,从而达到一定的数据信息确定不可能,这就是物理随机了.发布于 2016-02-03

概率空间上的测度。

-END-

参考文献(414字)

1. 王怀伟．统计学教程：清华大学出版社，2004：84．

2. 叶俊、赵衡秀．概率论与数理统计：清华大学出版社，2005：5．

3. 许静，苏燕玲．《概率论与数理统计》应用实例选讲[J]. 大学数学,2014,30(04):123-126．

4. 百度百科．概率．[EB/OL] https://baike.baidu.com/item/%E6%A6%82%E7%8E%87，2018-03-23．

5. 《现代医学实验技巧全书·下册》．概率．

6. 路戍人．概率（Probability）的本质是什么？．[EB/OL] http://p.baidu.com/question/f9106162633564343831395c00，2017-12-06．

7. 知乎．概率（Probability）的本质是什么？．[EB/OL] https://www.zhihu.com/question/26895086，2017-05-28．

8. Lewis, David. “A Subjectivist's Guide toObjective Chance.” In Philosophical Papers Volume II. New York: OxfordUniversity Press, 1987.

9. Lewis, David. Philosophical Papers. New York:Oxford University Press, 1986.

10. Loewer, Barry. “Determinism and Chance.”Studies in History and Philosophy of Science Part B: Studies in History andPhilosophy of Modern Physics 32, no. 4 (2001): 609-620.

11. Maher, Patrick. Betting on Theories.Cambridge: Cambridge University Press, 1993.

12. Poundstone, William. “Omniscience: Newcomb’sParadox.” In Labyrinths of Reason: Paradox, Puzzles, and the Frailty ofKnowledge. Anchor, 2011.

13. Sklar, Lawrence. Physics and Chance:Philosophical Issues in the Foundations of Statistical Mechanics. Cambridge:Cambridge University Press, 1995.

14. Wallace, David. The Emergent Multiverse:Quantum Theory According to the Everett Interpretation. New York: OxfordUniversity Press, 2012.

15. 灵剑．概率．[EB/OL] http://weibo.com/hubo1016，2017-09-03．

16. Probability axioms，测度论与概率论基础，实变函数论．

17. scott.cgi．概率．[EB/OL] http://github.com/scottcgi，2017-08-14．

x. 秦陇纪．数据科学与大数据技术专业概论；人工智能研究现状及教育应用；纯文本数据神经网络训练；大数据简化之技术体系．[EB/OL]．数据简化DataSimp（微信公众号）http://www.datasimp.org，2017-06-06．

Appx(625字).数据简化DataSimp社区简介

信息社会之数据、信息、知识、理论持续累积，远超个人认知学习时间、精力和能力。应对大数据时代的数据爆炸、信息爆炸、知识爆炸，解决之道重在数据简化(Data Simplification)：简化减少知识、媒体、社交数据，使信息、数据、知识越来越简单，符合人与设备的负荷。数据简化2018年会议(DS2018)聚焦数据简化技术(Data Simplification techniques)：对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方面做简化，应用于信息及数据系统、知识工程、各类数据库、物理空间表征、生物医学数据，数学统计、自然语言处理、机器学习技术、人工智能等领域。欢迎投稿数据科学技术、简化实例相关论文提交电子版（最好有PDF格式）。填写申请表加入数据简化DataSimp社区成员，应至少一篇数据智能、编程开发IT文章：①高质量原创或翻译美欧数据科技论文；②社区网站义工或完善S圈型黑白静态和三彩色动态社区LOGO图标。论文投稿、加入数据简化社区，详情访问www.datasimp.org社区网站，网站维护请投会员邮箱DataSimp@163.com。请关注公众号“数据简化DataSimp”留言，或加微信QinlongGEcai（备注：姓名/单位-职务/学校-专业/手机号），免费加入投稿群或“科学Sciences学术文献”读者微信群等。长按下图“识别图中二维码”关注三个公众号（搜名称也行，关注后底部菜单有文章分类页链接）：

数据技术公众号“数据简化DataSimp”：

科普公众号“科学Sciences”：

社会教育知识公众号“知识简化”：

普及科学知识，分享到朋友圈

转发/留言/打赏后“阅读原文”下载PDF

阅读原文

微信扫一扫
关注该公众号