累积分布函数与概率密度函数的区别

本文简要介绍统计学中PDF (probability density function) 和 CDF (cumulative distribution function) 之间的差异。

随机变量

再讨论PDF 和 CDF之前，我们首先需要理解随机变量。

随机变量通常用x表示，表示一些随机过程中产生的数值类型结果，分为两类：离散和连续。

离散随机变量

离散随机变量(discrete random variable) 仅能够表示可数的离散值，如1，2，100，1000等。
离散随机变量的示例包括：

抛20次硬币，正面朝上的次数
扔骰子100次，其中为4点的次数

连续随机变量

连续随机变量(continuous random variable)有无数取值可能，举例：

身高
体重
跑3公里所需时间

身高为170cm，170.01，169.98 等等，身高值有无限可能的值。

经验法则:如果你能够数出结果的个数，则为离散随机变量(例如，计算硬币正面落地的次数)。但如果你能够测量结果，则为连续的随机变量(例如测量，身高，体重，时间等)。

概率密度函数(Probability Density Functions)

概率密度函数(pdf)随机变量取某个值的概率。举例扔骰子，用x表示获得的点数，那么PDF可以描述结果的分布情况：

P(x < 1) : 0

P(x = 1) : 1/6

P(x = 2) : 1/6

P(x = 3) : 1/6

P(x = 4) : 1/6

P(x = 5) : 1/6

P(x = 6) : 1/6

P(x > 6) : 0

上面示例结果为离散变量，x只能为整数。对于连续随机变量，不能直接使用PDF，因为x取任何精确值的概率几乎为零。

假设想了解特定餐厅面包的重量为0.15公斤的概率，因为重量是连续变量，所以它有无限个值。如可能为0.15001，或0.148 等，完全为0.15的概率几乎为零。

累积分布函数(Cumulative Distribution Functions)

累积分布函数(CDF) 是随机变量取值小于或等于x的概率。举例扔骰子，用x表示获得的点数，那么CDF可以描述结果的分布情况：

P(x ≤ 0) : 0

P(x ≤ 1) : 1/6

P(x ≤ 2) : 2/6

P(x ≤ 3) : 3/6

P(x ≤ 4) : 4/6

P(x ≤ 5) : 5/6

P(x ≤ 6) : 6/6

P(x > 6) : 0

我们看到x概率小于等于6的概率为1，因为骰子的点数可能为1~6，所以概率为100%。上面示例是针对离散随机变量，CDF也可以用于连续随机变量。

CDF有下列一些属性：

随机变量取值小于最小值的概率为零，上面示例中小于1的概率为零；
随机变量取值小于或等于最大值的概率为1，扔骰子的点数只能为1~6中的一个；
CDF总为非递减函数。如骰子点数小于等于1的概率为1/6，小于等于2的概率为2/6，依此类推，总是非递减的。

下面示例展示如何计算正太分布的累积概率分布，以及特定范围内变量的累积概率分布：

# 计算正太分布中随机变量小于等于 1.96 的概率
pnorm(1.96)# 0.9750021# 计算正太分布中随机变量大于 1.96的概率
pnorm(1.96, lower.tail=FALSE)# 0.0249979# 定义序列范围
x <- seq(-4, 4, .01)# 计算普通累积概率分布
prob <- pnorm(x)# 图示累积概率分布
plot(x, prob, type="l")
abline(v = 1.96, col="red", lty=3)

1.96处的红线，表示小于等于1.96的累积概率大概为97.5%

CDF 和 PDF 之间的关系

在计算角度来看，概率密度函数(pdf)是累积分布函数(cdf)的导数。

pdf曲线下的面积在负无穷到x之间等于cdf上x的值。

要深入解释pdf和cdf之间的关系，以及证明为什么pdf是cdf的导数，请参阅统计教科书。