为什么统计检验中常关注假阳率（第一类错误）和假阴率（第二类错误），而机器学习中常关注准确率和精确率？

最根本的原因是统计检验的零假设和备择假设是“不平等“的两类。而机器学习的分类一般认为每一类都是”平等的“。对于”不平等“的两类，笼统地计算平均准确率逻辑上说不通。

1. 原假设的定义：原假设亦称待验假设、虚无假设、解消假设，一般记为H0。统计学的基本概念之一假设检验中，待检验的有关总体分布的一项命题的假设称为原假设。

2. 备择假设的定义：备择假设是统计学的基本概念之一，其包含关于总体分布的一切使原假设不成立的命题。备择假设亦称对立假设、备选假设。一般记为写为H1。

假设检验的基本思想是概率性质的反证法。根据所考察问题的要求提出原假设和备择假设，为了检验原假设是否正确，先假定原假设是正确的情况下，构造一个小概率事件，然后根据抽取的样本去检验这个小概率事件是否发生。

如果在一次试验中小概率事件竟然发生了，我们就怀疑原假设原假设的正确性，从而拒绝原假设。如果在一次试验中小概率事件没有发生，则没有理由怀疑原假设原假设的正确性，因此接受原假设。

确立原假设与备择假设时应遵循以下两个原则:

1.原假设是在一次试验中有绝对优势出现的事件，而备择假设在一次试验中不易发生(或几乎不可能发生)的事件。因此，在进行单侧检验时，最好把原假设取为预想结果的反面，即把希望证明的命题放在备择假设上。

2. 将可能犯的严重错误看作第一类错误，因为犯第一类错误的概率可以通过a的大小来控制。犯第二类错误的概率是无法控制的。如医生对前来问诊的病人作诊断时，可能会犯“有病看成无病”或者“无病看成有病’的错误，相比较而言，“无病看成有病“的错误更严重，故应将“问诊人有病”作为原假设。而在某项疾病普查中，将“被检查人有病’作为原假设就不恰当了(如核酸筛查，H0为阴性）。

假设检验的最终目的是：去伪存真，

那么它对应的两类错误就是弃真存伪。

接受或拒绝H0，都可能犯错误：

I类错误——弃真错误，发生的概率为α

II类错误——取伪错误，发生的概率为β

Ⅰ型错误又称第一类错误（type Ⅰ error）：拒绝了实际上成立的，为“弃真”的错误，其概率通常用α表示。可取单尾也可取双尾，假设检验时研究者可以根据需要确定值大小，一般规定α=0.05或α=0.01，其意义为：假设检验中如果拒绝时，发生Ⅰ型错误的概率为5%或1%，即100次拒绝的结论中，平均有5次或1次是错误的。
所以又称假阳性错误。

第一类错误—弃真错误：

即H0本来正确，却拒绝了它，犯这类错误的概率不超过α，即P{拒绝H0/H0为真}≤α

可能产生的原因：

1.样本中极端数值

2.采用决策标准较宽松

第二类错误—取伪错误

即H0本不真，却接受了他，犯这类错误的概率记为β，即P{接受H0/H1为真}＝β

可能产生原因：

1：实验设计不灵敏

2.样本数据变异性过大

3.处理效应本身比较小

两类错误的关系：

1：α与β是在两个前提下的概率，所以α+β不一定等于1

2：在其他条件不变的情况下，α与β不能同时增加或减少（因为对于同一个H0,一个拒绝一个接受）

当其他条件不变的情况下，α和β不可能同时增大或者减小。也就是说只改变影响β的因素或者只改变影响α的因素时，会影响到对方呈反方向变化。

那么什么时候可以减少两类错误呢？那就是把样本量放大，误差越小，两类错误都更小。这就是改变了其他条件。

统计学中的假设检验内核就包含这样的哲学，比如假设检验的基础 Neyman-Pearson引理：如果两类错误不能同时降低，那咱们就先控制一个压制在一个范围内，然后专心让另一个尽量低。人生大概也是这样，如果不能两全其美，那就一点集中，登峰造极。

首先需要弄清的是，我们到底“假设”了什么？我们的假设叫做“零假设”。比如有一种诊断方法，好比说叫NewC吧。现在要用在人身上，那么零假设是什么呢？就是说得先假设检测对象没病，然后给测一个NewC，一看，跟之前做研究搞出来的参考值差别不大，看来还不能说有病。假如说一看，和正常值偏差太多了，按照前期的研究，95%的正常人都不可能是偏差那么多，那也就是说我有95%的把握说，检测对象现在有了病。但假如检测对象恰恰就是那5%的骨骼清奇的练武奇才，我就犯了第一类错误。为什么这么说呢？因为我们原来的假设是你没病，而且你确实没病，但我却把原来的假设拒绝掉，认为你有病了，所以我这个检查误报了，而且确实是“假阳性”。而“去真”的“真”说的是什么呢？其实是“没病”是真，有病是假，也就是说“零假设”为真，我却把这个假设给拒绝了。

第一类错误又称为弃真错误，是将原本正确的H0拒绝了，接受了错误的H1。H0就相当于（-）（即大部分情况，没有确凿证据一般不会推翻的假设），H1（+），则从（-）到（+），就是假阳性的过程，将实际的阴性当成阳性结果了。第二类错误就是将不成立的H0（-）取了，则是实际上正确的H1（+）没取，从（+）到（-），取伪。

统计学假设检验的两类错误_Andy_shenzl的博客-CSDN博客_假设检验的两类错误

假设检验的两类错误 - 知乎

假阳率（第一类错误）、假阴率，召回率、精确率相关推荐

广告召回率是什么意思_准确率、精确率、召回率的含义
最近在看机器学习的,要理解准确率.精确率.召回率的含义,首先要理解 TP.FN.FT 和 TN 的含义. TP.FN.FT 和 TN 这几个概念一直搞得不太清楚.记录一下.看了别人的文章,举的例子 ...
Precision(精确率，正确率)， Recall(召回率，查全率)，Accuracy(准确率)，F-Measure(F值)...
一.指标概念 TP - 将正类预测为正类 FN - 将正类预测为负类, 类似假设检验中的第一类错误,拒真 FP - 将负类预测位正类,类似假设检验中的第二类错误,取伪 TN - 将负类预测位负类假设 ...
[机器学习-总结] 什么是准确率, 精确率，召回率和(精确率和召回率的调和平均)
准确率, 精确率,召回率和精确率和召回率的调和平均 1. 背景介绍 2. 准确率(accuracy) 3. 精确率(precision) 4. 召回率(recall,也称为查全率) 5. 精确率和召回 ...
准确率、精确率、召回率、F1-score
准确率.精确率.召回率.F1-score 概念理解准确率(accuracy) 精确率(也叫查准率,precision) 召回率(也叫查全率,recall) F1-score 概念理解 TP(True ...
搞懂敏感性、特异性以及精确率和召回率的关系
文章目录 1.引言 2.定义 3.例子 1.低精确率,高召回率,高特异性 2.高精确率,高召回率,低特异性 3.高精确率,低召回率,高特异性 4.低精确率,低召回率,高特异性 5.高精确率,低召回率, ...
混淆矩阵中的精确率和召回率与置信度之间有什么关系
True 表示正样本,False 表示负样本,Positive 表示预测为真,Negative 表示预测为假 -- 题记混淆矩阵假阳性 F P FP FP 在左下角,假阴性 F N FN F ...
准确度(accuracy)、精确率（precision)、召回率（recall）、F1值谈谈我的看法
目录前言基本概念准确率 Accuracy 精确度 Precision 召回率 Recall F1 值 sklearn 的评估函数 pyspark 的评估函数 tensorflow 的评估函数多 ...
机器学习（15）精确率召回率F1-score（查看癌症预测结果的精确率、召回率）
目录一.基础理论 1.混淆矩阵 2.精确率 3.召回率 4.F1-score 二.查看癌症预测结果的精确率.召回率 API 查看癌症预测结果的精确率.召回率总代码一.基础理论 1.混淆矩阵预测 ...
召回率、精确率、精确度、F值
召回率.准确率和F值召回率精确率例子召回率.准确率和F值信息检索.分类.识别.翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查 ...
精确率和召回率与置信度之间的关系
文章目录 1️⃣前言 2️⃣召回率 3️⃣精确率 4️⃣总结 1️⃣前言混淆矩阵的更多信息可以查看我另外一篇文章 2️⃣召回率可以看到召回率的分母是TP+FN,表示正样本的个数,是没有办法改变的, ...

假阳率（第一类错误）、假阴率，召回率、精确率

为什么统计检验中常关注假阳率（第一类错误）和假阴率（第二类错误），而机器学习中常关注准确率和精确率？

假阳率（第一类错误）、假阴率，召回率、精确率相关推荐

最新文章

热门文章