在机器学习领域,概率分布对于数据的认识有着非常重要的作用。不管是有效数据还是噪声数据,如果知道了数据的分布,那么在数据建模过程中会得到很大的启示。

首先,如下图所示8个特征数据概率分布情况(已经做归一化),这些特征是正态分布、伯努利分布,还是泊松分布、幂律分布?


在高斯法则生效的领域,平均值可以代表整体。但是在幂律法则统治的领域,平均值毫无意义。高斯法则和幂律法则的典型代表是分别身高和财富,把姚明放到100个人中,并不会显著改变平均身高,但把比尔·盖茨放到100个人中,就会极大改变平均财富。

在高斯法则生效的领域,所有人跟平均值的差距不会很大;但是在幂律法则分布的领域,跟平均值的差距就会大到惊人。

正态法则和幂律法则,细思极恐。带着问题,我们开始概率分布之旅。

1. 概率分布概述

概率分布,是指用于表述随机变量取值的概率规律。将随机变量作为横轴,概率作为纵轴,把随机变量与对应变量画上去,构成一个图形,这个图像就是概率分布的直观表示。通常也用概率分布函数表示F(x)F ( x )F(x)来描述一个概率分布,概率分布函数被定义为:
F(x)=P{X<x}F ( x ) =P\{X<x\}F(x)=P{X<x}

总之概率分布也可以理解为一个函数,它刻画了随机变量与概率的映射关系,给定一个概率分布,就可以求任何随机变量对应的概率了。当一个随机变量与它的概率满足某一个概率分布的映射关系时,则称这个随机变量服从该概率分布。

如下图为常用概率分别关系图。

2. 常用概率分布

2.1. 均匀分布

均匀分布在 [a,b] 上具有相同的概率值,是简单概率分布。
均匀分布可以很容易地从伯努利分布中得出。在这种情况下,结果的数量可能不受限制,并且所有事件的发生概率均相同。例如掷骰子,存在多个可能的事件,每个事件都有相同的发生概率。

2.2. 伯努利分布

伯努利分布(Bernoulli Distribution)是单个二值随机变量的分布,是一种离散分布,又称为 “0-1 分布” 或 “两点分布”。例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。

假设二值其中之一的概率等于ppp,而对于互斥对立面面则是(1−p)(1-p)(1−p)(包含所有可能结果的互斥事件的概率总和为1)。

对于伯努利分布来说,其离散型随机变量期望为:
E(x)=∑x×p(x)=1×p+0×(1−p)=pE(x) = ∑x\times p(x) = 1\times p+0\times (1−p) = pE(x)=∑x×p(x)=1×p+0×(1−p)=p
E(x2)=∑x×p(x2)=12×p+02×(1−p)=pE(x^2) = ∑x\times p(x^2) = 1^2\times p+0^2\times (1−p) = pE(x2)=∑x×p(x2)=12×p+02×(1−p)=p

方差为:
Var(x)=E(x2)−(E(x))2=p−p2=p(1−p)Var(x) = E(x^2)−(E(x))^2 = p−p^2 = p(1−p)Var(x)=E(x2)−(E(x))2=p−p2=p(1−p)

2.3. 二项分布

二项分布(binomial distrubution)就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

P{X=k}=(nk)pk(1−p)(n−k)P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)}P{X=k}=(kn​)pk(1−p)(n−k)

式中k=0,1,2,...,nk=0,1,2,...,nk=0,1,2,...,n,(nk)=n!k!(n−k)!\binom{n}{k}=\frac{n!}{k!(n-k)!}(kn​)=k!(n−k)!n!​是二项式系数,又记为CnkC_n^kCnk​。

二项式分布的主要特征是:

给定多个试验,每个试验彼此独立(一项试验的结果不会影响另一项试验)。

每个试验只能得出两个可能的结果(例如,获胜或失败),其概率分别为p和(1- p)。

如果获得成功概率(p)和试验次数(n),则可以使用以下公式计算这n次试验中的成功概率(x)。

如果二项分布满足p<q,np≥5,(或p>q,np≥5)时,二项分布接近正态分布。

E(X)=npE(X)=npE(X)=np
Var(X)=np(1−p)Var(X)=np(1-p)Var(X)=np(1−p)

2.4. 多项分布

多项式分布(Multinoulli distribution)二项分布的推广。二项分布(也叫伯努利分布)的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。而多项分布就像扔骰子,有6个面对应6个不同的点数。

某随机实验如果有k个可能结局A1、A2、…、AkA_1、A_2、…、A_kA1​、A2​、…、Ak​,分别将他们的出现次数记为随机变量X1、X2、…、XkX_1、X_2、…、X_kX1​、X2​、…、Xk​,它们的概率分布分别是p1,p2,…,pkp_1,p_2,…,p_kp1​,p2​,…,pk​,那么在n次采样的总结果中,A1A_1A1​出现n1n_1n1​次、A2A_2A2​出现n2n_2n2​次、…、AkA_kAk​出现nkn_knk​次的这种事件的出现概率P有下面公式:

P(X1=n1,X2=n2,⋯,Xk=nk)={n!n1!n2!⋯nk!p1n1p2n2⋯pknk,∑i=1kni=n0,ortherwiseP(X_1=n_1,X_2=n_2,⋯,X_k=n_k)=\left\{\begin{matrix} \frac{n!}{n1!n2!⋯nk!}p^{n1}_1p^{n2}_2⋯p^{nk}_k & , \sum_{i=1}^{k}n_i = n\\ 0 & , ortherwise \end{matrix}\right.P(X1​=n1​,X2​=n2​,⋯,Xk​=nk​)={n1!n2!⋯nk!n!​p1n1​p2n2​⋯pknk​0​,∑i=1k​ni​=n,ortherwise​

多项分布对其每一个结果都有均值和方差,分别为:

E(Xi)=npiE(X_i)=np_iE(Xi​)=npi​
Var(Xi)=npi(1−pi)Var(X_i)=np_i(1-p_i)Var(Xi​)=npi​(1−pi​)

2.5. 泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。【维基百科】

P(X=k)=λkk!e−λ,k=0,1,...P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,...P(X=k)=k!λk​e−λ,k=0,1,...

泊松分布的参数λλλ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为λλλ


一般来说,我们会换一个符号,让 μ=λ\mu=\lambdaμ=λ 。

2.6. 正态分布

若随机变量XXX服从一个数学期望为μμμ、方差为σ2\sigma ^2σ2的正态分布,记为N(μ,σ2)N(μ,σ^2)N(μ,σ2)。其概率密度函数为正态分布的期望值μμμ决定了其位置,其标准差σσσ决定了分布的幅度。当μ=0,σ=1μ = 0,σ = 1μ=0,σ=1时的正态分布是标准正态分布。

标准正态分布又称为uuu分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)N(0,1)N(0,1)。

一维正态分布
若随机变量XXX服从一个位置参数为μμμ 、尺度参数为σσσ的概率分布,且其概率密度函数为:
f(x)=12πσe(−(x−μ)22σ2)f(x)=\frac {1}{\sqrt{2π}σ}e^{(-\frac{(x-μ)^2}{2σ^2})}f(x)=2π​σ1​e(−2σ2(x−μ)2​)

标准正态分布
当μ=0,σ=1μ=0,σ=1μ=0,σ=1时,正态分布就成为标准正态分布:
f(x)=12πe(−x22)f(x)=\frac {1}{\sqrt{2π}}e^{(-\frac{x^2}{2})}f(x)=2π​1​e(−2x2​)

2.7. 伽马分布

伽玛分布(Gamma Distribution),Gamma分布中的参数α,称为形状参数(shape parameter),β称为尺度参数(scale parameter)。
“指数分布”和“χ2χ^2χ2分布”都是伽马分布的特例。

令X∼Γ(α,β)X \sim \Gamma(\alpha, \beta)X∼Γ(α,β);且令λ=1β\lambda = \frac{1}{\beta}λ=β1​: (即X∼Γ(α,1λ))X \sim \Gamma(\alpha, \frac{1}{\lambda}))X∼Γ(α,λ1​))。

f(X)=X(α−1)λαe(−λX)Γ(α),X>0f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)},X > 0f(X)=Γ(α)X(α−1)λαe(−λX)​,X>0

2.8. 几何分布

几何分布(Geometric distribution)在伯努利试验中,记每次试验中事件AAA发生的概率为ppp,试验进行到事件A出现时停止,此时所进行的试验次数为XXX,其分布列为:

P(X=k)=(1−p)(k−1)p,k=1,2,...P(X=k)=(1-p)^{(k-1)}p,k=1,2,...P(X=k)=(1−p)(k−1)p,k=1,2,...
此分布列是几何数列的一般项,因此称XXX服从几何分布,记为X~GE(p)X ~ GE(p)X~GE(p) 。
实际中有不少随机变量服从几何分布,譬如,某产品的不合格率为0.05,则首次查到不合格品的检查次数X~GE(0.05)X ~ GE(0.05)X~GE(0.05) 。

X∼GE(p),q=1−p,P(X=r)=pq(r−1)X\sim GE(p),q=1-p,P(X = r) = pq^{(r-1)}X∼GE(p),q=1−p,P(X=r)=pq(r−1),当r→∞r→∞r→∞时:

期望和方差:

E(X)=1pE(X) = \frac{1}{p}E(X)=p1​
Var(X)=qp2Var(X) = \frac{q}{p^2}Var(X)=p2q​

2.9. 指数分布

在概率理论和统计学中,指数分布(Exponential distribution也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是伽马分布的一个特殊情况。 它是几何分布的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。

f(x)={λe−(λx),x>00,x≤0f(x)=\left\{\begin{matrix} λe^{-(λx)} & , x>0\\ 0 & , x ≤ 0 \end{matrix}\right.f(x)={λe−(λx)0​,x>0,x≤0​

在概率论和统计学中,指数分布是一种连续概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等等。

许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。指数分布是伽玛分布和威布尔分布的特殊情况,产品的失效是偶然失效时,其寿命服从指数分布。

期望与方差:
E(X)=1λE(X)=\frac{1}{λ}E(X)=λ1​
Var(X)=1λ2Var(X) = \frac{1}{λ^2}Var(X)=λ21​

2.10. 卡方分布

卡方分布(chi-square distribution),也称为X2X^2X2分布,若nnn个相互独立的随机变量ξ1,ξ2,...,ξnξ_1,ξ_2,...,ξ_nξ1​,ξ2​,...,ξn​,均服从标准正态分布(也称独立同分布于标准正态分布),则这nnn个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

χ2(n)χ^2 ( n )χ2(n) 分 布 , 就 是 ΓΓΓ 分 布 的 一 种 特 殊 形 式:

其中α=n2,β=12α = \frac{n}{ 2} , β = \frac{1}{ 2}α=2n​,β=21​

f(x)={12n2Γ(n2)xn2−1e−12x,x>00,x≤0f ( x ) = \left\{\begin{matrix} \frac{1}{2^{\frac{n}{2}} Γ ( \frac{n}{ 2} )} x^{\frac{n}{2}-1}e^{-\frac{1}{2}x}& , x>0\\ 0 & , x ≤ 0 \end{matrix}\right.f(x)={22n​Γ(2n​)1​x2n​−1e−21​x0​,x>0,x≤0​

定义 如果随机变脸XiX_iXi​ 之 间 相 互 独 立 且 服 从 N(0,1)N ( 0 , 1 )N(0,1) , 分 布 , 则 称 随 机 变 量
χ2=X12+X22+...+Xn2χ^2 = X_1^ 2 + X_ 2^2 + ... + X_n^2χ2=X12​+X22​+...+Xn2​ 服从自由度为nnn 的 χ2χ^2χ2 分 布 记 为χ2∼X2(n)χ^2\sim X^2(n)χ2∼X2(n)

2.11. beta分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称BΒB分布,是指一组定义在(0,1) 区间的连续概率分布。
f(x:α,β)=1B(α,β)x(α−1)(1−x)(β−1)f(x:α ,β)=\frac{1}{B(α ,β)}x^{(α-1)}(1-x)^{(β-1)}f(x:α,β)=B(α,β)1​x(α−1)(1−x)(β−1)
其中Γ(z)Γ(z)Γ(z) 是ΓΓΓ函数。随机变量XXX服从参数为(α,β)(α ,β)(α,β) 的BΒB分布通常写作
X∼BeB(α,β)X \sim BeB(α ,β)X∼BeB(α,β)

2.12. 幂律分布

幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数(由于分布密度函数必然满足“归一律”,所以这里的幂函数,一般规定小于负1)的分布。

幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

假设变量x服从参数为 的幂律分布,则其概率密度函数可以表示为:
f(x)=cx−α−1,x→∞f(x)=cx^{-α-1}, x→∞f(x)=cx−α−1,x→∞

在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

Zipf定律与Pareto定律(帕累托定律)
对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者。Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。

3. 总结

回顾本文的开始,幂律分布的长尾现象很普遍,大数据中小概率数据普遍存在,如何解决呢?

我的方法是把数据x3\sqrt[3]{x}3x​,对模型的精度结果影响只有不到千分之一,也就是说数据变换缩短尾巴效果有限。另外的方法,是从整体模型上考虑细分,二八原则中,把20%的分离出来,自顶向下逐步精确。

参考:

【1】视学算法,数据分析必须掌握的概率分布!建议收藏! CSDN博客 ,2019.11
【2】数据派THU,深度学习必懂的 13 种概率分布(附链接) CSDN博客,2020.02
【3】马同学图解数学, 如何通俗理解泊松分布? CSDN博客,2019.04
【4】刘之帅,机器学习中的“分布” CSDN博客,2020.04
【5】我是8位的,概率统计14——几何分布 博客园 ,2020.01
【6】sam-X,正态和伽马分布族 CSDN博客,2018.09
【7】娜娜酱,生存法则—正态分布和幂律分布 知乎,2018.07

从幂律分布到特征数据概率分布——12个常用概率分布相关推荐

  1. 第10章* 网络 幂律分布

    幂律是说节点具有的连线数和这样的节点数目乘积是一个定值,也就是几何平均(对各变量值的连乘积开项数次方根)是定值. 例:有10000个连线的大节点有10个,有1000个连线的中节点有100个,100个连 ...

  2. 可推导出幂律分布的模型的文献小结

    可推导出幂律分布的模型的文献小结 看了一些paper后,一直想写一个关于幂律分布的文献综述,但近年来研究复杂系统,特别是复杂网络的文献增长迅速,而只要是涉及复杂网络的,基本上都谈到了类幂律分布,因此, ...

  3. tensorflow如何做幂律分布_离散概率分布与连续概率分布

    随机变量:随机变量(random variable)表示随机试验各种结果的实值单值函数.随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表 概率:,它反映随机事件出现的可能性(lik ...

  4. Python数据可视化系列之幂律分布

    1.幂律分布 首先要说的是中心极限定理--在复杂的多因素情况下,只要个体相互独立,集体效果就应该是正态分布.然而实际运用中,尤其是金融中,更多面对的是尖峰胖尾现象,比如下面这幅图描述的是标普500指数 ...

  5. Python数据可视化:幂律分布

    1.公式推导  对幂律分布公式:    对公式两边同时取以10为底的对数:    令,且为常数,所以公式变为:  所以对于幂律公式,对X,Y取对数后,在坐标轴上为线性方程. 2.可视化  从图形上来说 ...

  6. excel中读取数据拟合幂律分布

    首先要做的是绘制CDF或者PDF,概率密度分布图和概率分布图,cdf其实就是pdf求导后的结果.有了概率分布图对x和y同时取对数,就知道是不是幂律分布了. 我的数据只有一列,用pandas读进来就行了 ...

  7. 从excel中读取数据,然后拟合幂律分布

    主体思路和代码参考:https://blog.csdn.net/kevinelstri/article/details/52685934 幂律分布原理研究:https://blog.csdn.net/ ...

  8. 幂律分布图matlab代码,关于幂律分布,你还应该知道如何用代码实现!| 集智百科...

    今天我们继续学习幂律分布的基本概念--幂律概率分布,以及如何用代码实现幂律分布.内容来自集智百科,集智百科是复杂系统领域的百科全书,涵盖复杂系统领域的基本概念(持续完善中). 我们正在组织撰写翻译相应 ...

  9. 数理统计10.15 | 幂律分布

    数理统计10.15 | 幂律分布 定义 示例 幂律与"长尾" 克莱伯定律(Kleiber's Law) Zipf定律:书籍中单词频率的分布 Pareto定律(帕累托定律) 性质 标 ...

最新文章

  1. docker 容器访问宿主机的解决方式
  2. usaco ★Bessie Come Home 回家
  3. 动态注册客户端脚本的方法
  4. Java并发编程之ThreadLocal源码分析
  5. vue移动端过渡动画_Vue.js实现微信过渡动画左右切换效果
  6. 使用 Docker 部署 Grafana + Prometheus 监控 MySQL 数据库
  7. php扩展实现hook,ThinkPHP3.2 扩展(钩子,HOOK)
  8. [原创]windows server 2012 AD架构 试验 系列 – 15解决AD复制冲突
  9. android打包闪退,使用最新hx 进行android打包闪退
  10. Java学习笔记2.3.3 运算符与表达式 - 关系运算符
  11. wdatepicker不展示秒_华为电源键只能开关机?其实还隐藏了这5个作用,一般人不知道...
  12. 外部方式启动AndroidStudio模拟器
  13. 小火狐进化_口袋妖怪xy 三主进化的详细解析说明
  14. Qt系列文章之 Model/View 框架
  15. Pytorch实现word2vec(Skip-gram训练方式)
  16. 蓝奏云软件库源码分享下载
  17. 计算机英语期末试题,计算机英语期末考试试题
  18. php 入库出库 转义,PHP 转义详解
  19. 阿里云服务器CentOs中安装elasticsearch7.13.1
  20. 逆战小白提升日記——网红时钟罗盘北京时间页代码

热门文章

  1. 一键解锁,宿舍管理隐藏技能
  2. Visual Studio 2022调节字体大小
  3. spring boot 运行提示:Process finished with exit code 1
  4. Apache Solr 任意文件读取
  5. 30 个纯 HTML5 实现的游戏
  6. 新浪微博客户端开发详解-总结(四)
  7. 笔记本电脑能连接WiFi但浏览器无法打开网页的解决办法
  8. 微信公众号 Markdown 排版工具
  9. 4.python 系统批量运维管理器之paramiko模块
  10. 悟空CRM9从零开始搭建详细步骤——肯定成功