深度学习分类问题中accuracy等评价指标的理解

在处理深度学习分类问题时，会用到一些评价指标，如accuracy（准确率）等。刚开始接触时会感觉有点多有点绕，不太好理解。本文写出我的理解，同时以语音唤醒（唤醒词识别）来举例，希望能加深理解这些指标。

1，TP / FP / TN / FN

下表表示为一个二分类的混淆矩阵（多分类同理，把不属于当前类的都认为是负例），图中的四个参数均用两个字母表示，第一个字母表示判断结果正确与否（正确用T（True），错误用F（False），第二个字母表示判定结果（正例用P(Positive)，负例用N(Negative)）。四个参数的具体意思如下：

TP (True Positive)：表示实际为正例，判定也为正例的次数，即表示判定为正例且判定正确的次数。

FP (False Positive): 表示实际为负例，却判定为正例的次数，即表示判定为正例但判断错误的次数。

TN (True Negative)：表示实际为负例，判定也为负例的次数，即表示判定为负例且判定正确的次数。

FN (False Negative): 表示实际为正例，却判定为负例的次数，即表示判定为负例但判断错误的次数。

为了帮助理解，我以智能音箱中的语音唤醒（假设唤醒词为“芝麻开门”）来举例。这里正例就是唤醒词“芝麻开门”，负例就是除了“芝麻开门”之外的其他词，即非唤醒词，如“阿里巴巴”。设定评估时说唤醒词和非唤醒词各100次，TP就表示说了“芝麻开门”且被识别的次数（假设98次），FN就表示说了“芝麻开门”却没被识别（判定成负例）的次数（假设2次），FP就表示说了非唤醒词却被识别（判定成正例）的次数（假设1次），TN就表示说了非唤醒词且没被识别的次数（假设99次）。

2，accuracy / precision / recall

accuracy是准确率，表示判定正确的次数与所有判定次数的比例。判定正确的次数是(TP+TN)，所有判定的次数是(TP + TN + FP +FN)，所以

在语音唤醒例子中，TP = 98，TN = 99，FP = 1, FN = 2, 所以accuracy = (98 + 99) / (98 + 99 + 1 + 2) = 98.5%，即准确率为 98.5%。

precision是精确率，表示正确判定为正例的次数与所有判定为正例的次数的比例。正确判定为正例的次数是TP，所有判定为正例的次数是(TP + FP)，所以

在语音唤醒例子中，TP = 98, FP = 1, 所以precision = 98 / (98 + 1) = 99%，即精确率为 99%。

recall是召回率，表示正确判定为正例的次数与所有实际为正例的次数的比例。正确判定为正例的次数是TP，所有实际为正例的次数是(TP + FN)，所以

在语音唤醒例子中，TP = 98, FN = 2, 所以recall = 98 / (98 + 2) = 98%，即召回率为 98%。在语音唤醒场景下，召回率也叫唤醒率，表示说了多少次唤醒词被唤醒次数的比例。

3，FAR / FRR

FAR (False Acceptance Rate)是错误接受率，也叫误识率，表示错误判定为正例的次数与所有实际为负例的次数的比例。错误判定为正例的次数是FP，所有实际为负例的次数是(FP + TN)，所以

在语音唤醒例子中，FP = 1, TN = 99, 所以FAR = 1 / (99 + 1) = 1%，即错误接受率为 1%。在语音唤醒场景下，错误接受率也叫误唤醒率，表示说了多少次非唤醒词却被唤醒次数的比例。

FRR (False Rejection Rate)是错误拒绝率，也叫拒识率，表示错误判定为负例的次数与所有实际为正例的次数的比例。错误判定为负例的次数是FN，所有实际为正例的次数是(TP + FN)，所以

在语音唤醒例子中，FN = 2, TP = 98, 所以FRR = 2/ (2 + 98) = 2%，即错误拒绝率为 2%。在语音唤醒场景下，错误拒绝率也叫不唤醒率，表示说了多少次唤醒词却没被唤醒次数的比例。

4，ROC曲线 / EER

ROC(receiver operating characteristic curve)曲线是“受试者工作特征”曲线，是一种已经被广泛接受的系统评价指标，它反映了识别算法在不同阈值上，FRR(拒识率)和FAR(误识率)的平衡关系。ROC曲线中横坐标是FRR(拒识率)，纵坐标是FAR(误识率)，等错误率（EER Equal-Error Rate）是拒识率和误识率的一个平衡点，等错误率能够取到的值越低，表示算法的性能越好。

上图是ROC曲线的示意图，我以语音唤醒的例子来解释。从上图看出FRR低/FAR高时，即拒识率低、误识率高时，智能音箱很容易被唤醒，即很好用。FRR高/FAR低时，即拒识率高、误识率低时，智能音箱不容易被唤醒，即不太方便用，但是很难误唤醒，安全性很高。真正使用时要找到一个FAR和FRR的平衡点(EER)，也就是不那么难唤醒，方便使用，同时也不会有高的误唤醒，保证安全。

深度学习分类问题中accuracy等评价指标的理解相关推荐

深度学习分类任务常用评估指标
摘要:这篇文章主要向大家介绍深度学习分类任务评价指标,主要内容包括基础应用.实用技巧.原理机制等方面,希望对大家有所帮助. 本文分享自华为云社区<深度学习分类任务常用评估指标>,原文作者: ...
深度学习分类pytorch_pytorch使用转移学习的狗品种分类器
深度学习分类pytorch So have you heard the word deep learning before? Or have you just started learning it? ...
深度学习在基因组学中的应用
深度学习(deep learning)是机器学习的一个分支,是一种以人工神经网络为架构,对数据进行表征学习的算法(简而言之就是深度学习模仿我们人类大脑运行的方式,从经验中进行学习,进而对未来接触的事物 ...
使用深度学习分类猫狗图片
使用深度学习分类猫狗图片前言一.下载数据二.构建网络三.数据预处理四.使用数据增强总结前言本文将介绍如何使用较少的数据从头开始训练一个新的深度学习模型.首先在一个2000个训练样本上训 ...
深度学习在计算机视觉中的应用长篇综述
深度学习在计算机视觉中的应用长篇综述前言 2012年ImageNet比赛,使深度学习在计算机视觉领域在全世界名声大震,由此人工智能的全球大爆发.第一个研究CNN的专家使Yann LeCun,现就职于 ...
微信高级研究员解析深度学习在NLP中的发展和应用 | 公开课笔记
作者 | 张金超(微信模式识别中心的高级研究员) 整理 | Just 出品 | 人工智能头条(公众号ID:AI_Thinker) 近年来,深度学习方法极大的推动了自然语言处理领域的发展.几乎在所有的 ...
[王晓刚]深度学习在图像识别中的研究进展与展望(转发）
[王晓刚]深度学习在图像识别中的研究进展与展望(转发) (2015-06-04 08:27:56) 转载▼ 深度学习是近十年来人工智能领域取得的最重要的突破之一.它在语音识别.自然语言处理.计 ...
Lesson 12.1 深度学习建模实验中数据集生成函数的创建与使用
Lesson 12.1 深度学习建模实验中数据集生成函数的创建与使用为了方便后续练习的展开,我们尝试自己创建一个数据生成器,用于自主生成一些符合某些条件.具备某些特性的数据集.相比于传统的机器学 ...
【深度学习】caffe 中的一些参数介绍
[深度学习]caffe 中的一些参数介绍标签: 深度学习caffe 2016-05-30 14:33 7122人阅读评论(1) 收藏举报本文章已收录于: 分类: [机器学习&深度 ...
第六章深度学习（上中）
其他的深度学习模型在整本书中,我们聚焦在解决 MNIST 数字分类问题上.这一"下金蛋的"问题让我们深入理解了一些强大的想法:随机梯度下降,BP,卷积网络,正规化等等.但是该问题 ...

深度学习分类问题中accuracy等评价指标的理解

深度学习分类问题中accuracy等评价指标的理解相关推荐

最新文章

热门文章