深度学习常用性能评价指标

前言
基于准确度的指标
基于排名的指标
基于图数据的指标

前言

深度学习性能指标是用于评价深度学习模型性能的依据，是设计模型的重要依据。

基于准确度的指标

对于模型而言仅统计预测正确或错误的个数其意义有限，标准化的衡量具有更准确的参考价值。
准确率(Accuracy, ACC)：判断正确的结果与所有观测样本之比，ACC=TP+TNTP+FP+FN+TNACC= \frac{TP+TN}{TP+FP+FN+TN}ACC=TP+FP+FN+TNTP+TN
精确率(precision)或阳性预测值(Positive Predictive Value, PPV)：判断正确的结果占预测为positive的比例，Precision=TPTP+FPPrecision= \frac{TP}{TP+FP}Precision=TP+FPTP
灵敏度(Sensitivity)或称召回率(Recall)或真阳率(True Positive Rate, TPR)：模型预测正确的个数占真实值为positive的比例，Sensitivity=TPTP+FNSensitivity= \frac{TP}{TP+FN}Sensitivity=TP+FNTP
特异度(Specificity)或选择率(Selectivity)或真阴率(True Negative Rate, TNR)：判断正确的个数占真实值为Negative的比例，Specificity=TNTN+FPSpecificity= \frac{TN}{TN+FP}Specificity=TN+FPTN
阴性预测值(Negative Predictive Value, NPV)：判断正确的结果占预测为negative的比例，NPV=TNTN+FNNPV= \frac{TN}{TN+FN}NPV=TN+FNTN
假阴率(False Negative Rate, FNR)：判断错误的个数占真实值为positive的比例，FNR=FNFN+TPFNR= \frac{FN}{FN+TP}FNR=FN+TPFN
假阳率(False Positive Rate, FPR)：判断错误的个数占真实值为negative的比例，FPR=FPFP+TNFPR= \frac{FP}{FP+TN}FPR=FP+TNFP
错误发现率(False Discovery Rate, FDR)：预测错误的个数占预测值为positive的比例，FDR=FPFP+TPFDR= \frac{FP}{FP+TP}FDR=FP+TPFP
错误遗漏率(False Omission Rate, FOR)：预测错误的个数占预测值为negative的比例，FOR=FNFN+TNFOR= \frac{FN}{FN+TN}FOR=FN+TNFN
威胁分数(Threat score, TS)或临界成功指数(critical success index, CSI)：TS=TPTP+FN+FPTS= \frac{TP}{TP+FN+FP}TS=TP+FN+FPTP
F分数(F-Score)是精度和召回率的调和平均值：F=2×precision×recallprecision+recall=2×TP2×TP+FN+FPF= 2\times\frac{precision\times recall}{precision+recall}= \frac{2\times TP}{2\times TP+FN+FP}F=2×precision+recallprecision×recall=2×TP+FN+FP2×TP
阳性似然比(Positive likelihood ratio, LR+)：LR+=TPRFPRLR+= \frac{TPR}{FPR}LR+=FPRTPR
阴性似然比(Negative likelihood ratio, LR-)： LR−=FNRTNRLR-= \frac{FNR}{TNR}LR−=TNRFNR
诊断优势比(Diagnostic odds ratio, DOR)：DOR=LR+LR−DOR= \frac{LR+}{LR-}DOR=LR−LR+
接收者操作特征曲线(receiver operating characteristic curve, ROC)是坐标图式的分析工具，其横轴为FPR，纵轴为TPR。
曲线下面积(Area Under Curve, AUC)是ROC曲线下的面积。
平均精度(Average Precision, AP)是衡量精确率和召回率的一种指标，当Recall阈值从0增加到1时，Precision越高，AP越高。Precision-Recall曲线描述了Precision和Recall之间的关系。好的模型应该改善Recall，同时将Precision保留相对较高的分数。相反，较弱的模型可能会损失更多的Precision以改善Recall。与Precision-Recall曲线相比，AP可以更直观地显示模型的性能。

基于排名的指标

平均倒数排名(MRR)： MRR是衡量排名模型的常用指标。对于目标查询，如果第一个正确的项目排在第n位，则MRR分数为1/n，一旦不匹配，则分数为0，模型的MRR是所有查询的分数之和。
Hits@K：通过计算所有真实元组的排名（例如MRR），Hits @ K是排名在前K位的正确实体的比例。

基于图数据的指标

归一化互信息（NMI）和模块度是用来评估图上社区检测（即聚类）性能的两个指标。NMI起源于测量两个变量之间相互依赖性的信息理论。在社区检测场景中，NMI用于度量两个社区之间的共享信息量（即相似性）。模块度被设计用来衡量一个图划分成簇的强度。具有高模块度的图在簇内节点之间具有密集连接，而在不同簇中节点之间连接稀疏。
图属性统计数据指标包括基尼系数、特征路径长度、分布熵、幂律指数和三角形计数。一些更多的图统计指标包括度排序、接近中心性排序、中介中心性排序和使用的聚类系数、最短路径长度、对角线距离。