为什么不能说“接受原假设”？

我们主要从几个方面来说明，当统计中假设检验不显著时，为什么需要说不拒绝原假设而不能说接受原假设。

1. Power（功效）的角度

从本质上说，我们之所以不能说接受原假设，是因为我们在对真实数据做检验时，做出的推断是建立在原假设（H0H_0H0）基础上，我们做出的推断也往往是拒绝原假设或者不拒绝原假设。而如果要说接受原假设，在假设检验这一小概率反证法的思想框架下，是需要以很小的概率拒绝备择假设（H1H_1H1）才能说得过去，而这就涉及到了第二类错误与功效，其取决于只有上帝才知道的真实值才能计算得到，我们是不知道真实情况的，也就是说我们没办法在检验前按照自己的想法来控制第二类错误。

在假设检验中，我们设置了显著性水平（连续情况下为第一类错误，离散情况下第一类错误通常小于显著性水平），通常为α=0.05\alpha = 0.05α=0.05。因此，我们拒绝了实际成立原假设这一犯错的概率（第一类错误）是可以控制的，其小于等于0.050.050.05。若在这种很小犯错概率的前提下都拒绝，那么其实可以认为发生H1H_1H1的概率还蛮大的，从而做出了推断。

但是反过来，如果我们在原假设的基础上，得不到充足的证据拒绝原假设，但此时，我们对此时犯错误的概率并不知道！当我们不能拒绝原假设的时候，这是可能犯的错误是第二类错误，也就是——真实情况下原假设为假，但是我们却接受了原假设的这个错误，如果第二类错误非常大，就会导致原假设也是错的这一结论。也因此从逻辑上说，我们不能得到接受原假设这一推断。

1）绘图解释

下面我们通过绘制分布图，来直观理解前面所讲的内容（代码均为R语言代码）。

首先构建绘图函数：

PlotDistributions <- function(sigma = 15, mu0 = 0, mu1 = 60, alpha = 0.05) {# sigma: Theoretical standard deviation# mu0:   Expected value under H0# mu1:   Expected value under H1# alpha: Probability of type I error# critical value for a level alpha testcrit <- qnorm(1 - alpha, mu0, sigma)# power: probability for values > critical value under H1pow <- pnorm(crit, mu1, sigma, lower.tail = FALSE)# plotxLims <- c(mu0 - 50, mu1 + 50)left <- seq(xLims[1], crit, length.out = 1000)right <- seq(crit, xLims[2], length.out = 1000)yH0r <- dnorm(right, mu0, sigma)yH1l <- dnorm(left, mu1, sigma)yH1r <- dnorm(right, mu1, sigma)curve(dnorm(x, mu0, sigma), xlim = xLims, lwd = 2, col = "red", xlab = "X", ylab = "概率密度",main = expression(H[0]*与*H[1]*下的正态分布), ylim = c(0, 0.03), xaxs = "i")curve(dnorm(x, mu1, sigma), lwd = 2, col = "blue", add = TRUE)polygon(c(right, rev(right)), c(yH0r, numeric(length(right))), border = NA,col = rgb(1, 0.3, 0.3, 0.6))polygon(c(left, rev(left)), c(yH1l, numeric(length(left))), border = NA,col = rgb(0.3, 0.3, 1, 0.6))polygon(c(right, rev(right)), c(yH1r, numeric(length(right))), border = NA,density = 5, lty = 2, lwd = 2, angle = 45, col = "darkgray")abline(v = crit, lty = 1, lwd = 3, col = "red")text(crit + 1, 0.03, adj = 0, label = paste0("临界值 = ", round(crit, 2)))text(mu0 - 10, 0.025, adj = 1, label = expression(H[0]*下的分布))text(mu1 + 10, 0.025, adj = 0, label = expression(H[1]*下的分布))text(crit + 8, 0.01, adj = 0, label = paste0("功效 = ", round(pow, 2)), cex = 1.3)text(crit - 12, 0.004, expression(beta), cex = 1.3)text(crit + 5, 0.0015, expression(alpha), cex = 1.3)
}

我们考虑两个方差为15的正态分布情形（这里考虑的是单边检验情形），显著性水平均设置为0.05。图中红色部分面积为犯第一类错误的概率α\alphaα，蓝色部分的面积是犯第二类错误的概率β\betaβ，阴影部分为功效。

首先考虑H0H_0H0与H1H_1H1下，均值分别为0和60的两种情形。

PlotDistributions(sigma = 15, mu0 = 0, mu1 = 60, alpha = 0.05)

可以发现，若我们不拒绝H0H_0H0，在这种情况下确实可以认为H0H_0H0成立的概率非常大！但如果真实分布是如下情形，H1H_1H1下的均值是5：

PlotDistributions(sigma = 15, mu0 = 0, mu1 = 5, alpha = 0.05)

这时，两个真实分布会非常接近，功效也会非常低，因此这时接受H0H_0H0会有很大的概率犯错。

2）模拟解释

这里我们构造几个例子进一步直观说明。在实际情况中，假设我们的两个样本总体分别来源于两种不同的真实分布，均假设为正态分布。这里的检验我们选择t test。H0H_0H0与H1H_1H1分别为：

H0:μ1=μ2,H1:μ1<μ2.H_0: \mu_1=\mu_2, \quad\quad\quad H_1: \mu_1 < \mu_2.H0:μ1=μ2,H1:μ1<μ2.

下面考虑三种很可能犯错的情形：

① 真实均值接近

set.seed(666)
X <- rnorm(100, mean = 0, sd = 1)
Y <- rnorm(200, mean = 0.1, sd = 1)
t.test(X, Y, alternative = "less")

##
##  Welch Two Sample t-test
##
## data:  X and Y
## t = -0.59424, df = 204.42, p-value = 0.2765
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf 0.1350024
## sample estimates:
##    mean of x    mean of y
## -0.066668378  0.009150546

② 真实方差大

set.seed(666)
X <- rnorm(100, mean = 0, sd = 15)
Y <- rnorm(200, mean = 2, sd = 15)
t.test(X, Y, alternative = "less")

##
##  Welch Two Sample t-test
##
## data:  X and Y
## t = -0.8555, df = 204.42, p-value = 0.1966
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 1.525036
## sample estimates:
##  mean of x  mean of y
## -1.0000257  0.6372582

③ 样本量小

set.seed(666)
X <- rnorm(10, mean = 0, sd = 1)
Y <- rnorm(5, mean = 1, sd = 1)
t.test(X, Y, alternative = "less")

##
##  Welch Two Sample t-test
##
## data:  X and Y
## t = -1.154, df = 7.1949, p-value = 0.1427
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf 0.6527017
## sample estimates:
##   mean of x   mean of y
## -0.09607573  0.93168703

上面三种情况，如果说接受原假设，其实都犯错了。所以，接受原假设需要承担非常大未知的犯错风险，因此我们需要说不能拒绝原假设。

2. 不同的假设方式

我们换一个角度来思考，接受原假设可能造成的其他问题。

1）不确定的H0H_0H0

我们分别考虑这样三种假设情形：

H0:μ=1,H1:μ≠1H_0: \mu = 1, \quad H_1: \mu \neq 1H0:μ=1,H1:μ=1
H0:μ=0,H1:μ≠0H_0: \mu = 0, \quad H_1: \mu \neq 0H0:μ=0,H1:μ=0
H0:μ=−1,H1:μ≠−1H_0: \mu = -1, \quad H_1: \mu \neq -1H0:μ=−1,H1:μ=−1

真实的情况我们假设 X∼N(0,10)X \sim N(0, 10)X∼N(0,10).

set.seed(666)
X <- rnorm(100, mean = 0, sd = 10)

三种检验结果如下：

t.test(X, mu = 1, alternative = "two.sided")

##
##  One Sample t-test
##
## data:  X
## t = -1.6191, df = 99, p-value = 0.1086
## alternative hypothesis: true mean is not equal to 1
## 95 percent confidence interval:
##  -2.709190  1.375823
## sample estimates:
##  mean of x
## -0.6666838

t.test(X, mu = 0, alternative = "two.sided")

##
##  One Sample t-test
##
## data:  X
## t = -0.64766, df = 99, p-value = 0.5187
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -2.709190  1.375823
## sample estimates:
##  mean of x
## -0.6666838

t.test(X, mu = -1, alternative = "two.sided")

##
##  One Sample t-test
##
## data:  X
## t = 0.3238, df = 99, p-value = 0.7468
## alternative hypothesis: true mean is not equal to -1
## 95 percent confidence interval:
##  -2.709190  1.375823
## sample estimates:
##  mean of x
## -0.6666838

如果我们说接受H0H_0H0，理应三种均接受，但具体究竟应该接受哪一个才正确呢？这样就会产生矛盾。

2）H0H_0H0与H1H_1H1的互换

我们再考虑原假设与备择假设互换的情形，如果我们说接受原假设会出现什么问题。这里主要参考[2]上的例子进行说明。

某种灯泡的质量标准是平均燃烧寿命不得低于1000小时。已知灯泡批量产品的燃烧寿命服从正态分布，且标准差为100小时。商店欲从工厂进货，随机抽取81个灯泡检查，测得Xˉ=990\bar{X}=990Xˉ=990 小时，问商店是否决定购进这批灯泡？（α=0.05\alpha = 0.05α=0.05）（来源：贾俊平《统计学》）

① 左侧检验

原假设与备择假设分别为：H0:μ≥1000,H1:μ<1000H_0: \mu \geq 1000, \quad H_1: \mu < 1000H0:μ≥1000,H1:μ<1000。假设这里知道总体标准差，因此统计量计算如下：

Z=990−1000100/81=−0.9Z=\frac{990-1000}{100 / \sqrt{81}}=-0.9Z=100/81990−1000=−0.9

由于−0.9>−1.645-0.9>-1.645−0.9>−1.645，因此没有落入左侧检验的拒绝域。下面使用右侧检验看一看。

② 右侧检验

原假设与备择假设分别为：H0:μ≤1000,H1:μ>1000H_0: \mu \leq 1000, \quad H_1: \mu > 1000H0:μ≤1000,H1:μ>1000。检验统计量同样是−0.9<1.645-0.9<1.645−0.9<1.645，因此同样未落入右侧检验的拒绝域。

如果我们说接受原假设，那么就会导出一个矛盾的结果，这批灯泡的质量究竟有没有问题呢？商店又该如何做出决策呢？

这种现象其实可以通过下图直观展示这种现象。

当我们将两种检验调换顺序时，左侧检验和右侧检验存在共同的无法拒绝区域，也就是正负临界值的区间内。当统计量落入该区域内，正反两种检验都无法拒绝原假设，如果我们承认接受原假设，将会得到相反的结论。

这种现象其实也牵涉到假设检验应该怎么做。其核心是小概率反证法思想，我们通常会将有很大优势出现的事件放在原假设，不易发生且希望证明的命题放在备择假设上。

当然，基于这一现象，我们也可以进一步引申。对上面的例子而言，不一样的主体，倾向的检验也是不一致的。

作为商店而言，当然希望工厂产的灯泡越耐用越好，尽可能不要出现坏的，这样消费者投诉的概率就小很多，因此希望有足够的证据说明灯泡没问题，因此会选用②右侧检验。
从工厂的角度出发，生产出的灯泡没有太大问题，没有足够的证据说明灯泡有问题，倾向选择①左侧检验，即不拒绝原假设。

3. 分布检验

说到这里，我们还想谈一谈对分布的检验。这类型的检验原假设通常为符合某种分布，备择解释为不符合某种分布。但实际上这个结论在很多时候都不管用，因为不拒绝这个原假设，不代表就接受了这种分布的假定。它可能还会出现其它分布（原假设）的情形，因此我们仍然不知道数据是什么分布。下面举一个统计中常见的 Kolmogorov-Smirnov 正态性检验。

如果我们随机生成50个服从标准正态分布的样本进行检验，很明显不拒绝原假设。那么此时我们就能说接受原假设了吗？

set.seed(666)
x <- rnorm(50)
ks.test(x, "pnorm")

##
##  One-sample Kolmogorov-Smirnov test
##
## data:  x
## D = 0.11602, p-value = 0.4762
## alternative hypothesis: two-sided

下面再看看自由度为5的t分布，发现KS检验同样没有拒绝原假设。

set.seed(666)
x <- rt(50, df = 5)
ks.test(x, "pnorm")

##
##  One-sample Kolmogorov-Smirnov test
##
## data:  x
## D = 0.16189, p-value = 0.13
## alternative hypothesis: two-sided

下面我们再构造一个混合正态分布的例子：

0.3×N(0,0.5)+0.5×N(0.5,1)+0.2×N(1,10)0.3 \times N(0, 0.5)+0.5 \times N(0.5, 1)+0.2 \times N(1, 10) 0.3×N(0,0.5)+0.5×N(0.5,1)+0.2×N(1,10)

样本量设置得更大，变为100.

set.seed(666)
N <- 100
components <- sample(1:3, prob = c(0.3, 0.5, 0.2), size = N, replace = TRUE)
mus <- c(0, 0.5, 1)
sds <- sqrt(c(0.5, 1, 10))
x <- rnorm(n = N, mean = mus[components], sd = sds[components])ks.test(x, "pnorm")

##
##  One-sample Kolmogorov-Smirnov test
##
## data:  x
## D = 0.12388, p-value = 0.0929
## alternative hypothesis: two-sided

同样，在显著性水平α=0.05\alpha=0.05α=0.05下，没有办法拒绝原假设。因此我们真的能说接受原假设，也就是数据服从正态分布吗？

最后，我们以《女士品茶》（The Lady Tasting Tea：How Statistics Revolutionized Science in the Twentieth Century）中，Fisher大牛的原话作为结尾。他认为比较大的P值（代表没有找到显著性证据）说明根据该组数据不能做出充分的判断。

“相信一个假设已经被证明是真的，仅仅是由于该假设与已知的事实没有发生相互矛盾，这种逻辑上的误解，在统计推断上是缺乏坚实根基的，在其它类型的科学推理中也是如此。当显著性检验被准确使用时，只要显著性检验与数据相矛盾，这个显著性检验就能够拒绝或否定这些假设，但该显著性检验永远不能确认这些假设一定是真的，……”

参考

【知乎】当统计检验不显著时，是否只能说此时不拒绝原假设而不能说接受原假设？
【知乎】关于单侧检验中备择假设和原假设的设定
【统计之都】不拒绝零假设意味着什么
统计百问|为什么不能说接受原假设？
统计分布的检验
How do I find the probability of a type II error?
What is the relation of the significance level alpha to the type 1 error alpha?
Generating random variables from a mixture of Normal distributions
假设检验（摘自《女士品茶》第11章）
张凌翔. 对假设检验中几个问题的思考——兼与韩兆洲, 魏章进商榷[J]. 统计与决策, 2006 (6): 32-34.