machine learning measurements

一. 分类（classification）

1. confusion matrix

	预测阴性	预测阳性
实际阴性	True Negative(TN)	False Positive(FP)
实际阳性	False Negative(FN)	True Positive(TP)

在这里的二分类中，以阴阳区分两类别，以真假代表预测是否符合。可有以下指标：

（1）准确率：

$accuracy = \frac{TN + TP}{TN+FN+TP+FP}$

相当偏颇的统计值，测试集里类别越不均衡，这个值越不可信。下面F1 score， AUC等都是修正它的。

（2）召回率（阳性）：

$recall=\frac{TP}{TP+FN}$

（3）精确率（阳性）：

$precision = \frac{TP}{TP+FP}$

（4） $F_{\beta}$ score：

$F_{\beta} = (1+\beta^2)\frac{precision*recall}{\beta^2*precision+recall}$

precisoin和recall差别很大时用，为二者的调和平均数。 $\beta$ 为权重，当 $\beta=1$ 时，权重相等，是为F1 score。

在医学领域，若以阴性为无病，阳性为有病，则有：

（1）敏感度：

$sensitivity=\frac{TP}{FN + TP}$

等同于阳性召回率，代表把所有阳性病人找到的能力。若为100%，则无漏诊。

（2）特异度：

$specificity=\frac{TN}{TN+FP}$

等同于阴性召回率，代表把所有无病的人找到的能力。

（3）精确度（Positive Predictive Value, PPV）:

$PPV=\frac{TP}{TP+FP}$

等同于阳性准确率，说你有病是不是真有病。

（4）负预测性（Negative Predictive Value, NPV）:

$NPV=\frac{TN}{TN+FN}$

等同于阴性准确率，说你没病是不是真没病。

2. ROC(Receiver Operating Characteristic)曲线：

横坐标为FPR（假阳率，所有阴性样本中阳性概率）=FP/(N-)，纵坐标为TPR（真阳率，所有阳性样本中阳性概率）=TP/(N+)。这个图怎么画的呢？因为每个样本都有预测为阳性的概率值，将这些概率值排序，通过设置各个概率值为阳性阈值，可以得到不同的混淆矩阵，得到不同的FPR和TPR，则得到一系列图上的点。

（1）EER（Equal Error Rate）：FPR=FNR（假阴率，所有阳性样本中阴性概率）的时候的点。由于FNR=1-TPR，这个点可由ROC曲线和（0，1），（1，0）之间连线的交点得到。越靠近（0，1）点，说明在较小的假阳情况下，可以达到更多的真阳性效果，则分类效果越好。若为（0，1），则分类器每次预测都是对的，且信念100%。

（2）AUC（Area Under Curve）：ROC曲线下面积，越大，则说明在较小的假阳情况下，可以达到更多的真阳性效果，则分类效果越好。若为1，则分类器每次预测都是对的，且信念100%。（物理意义：首先AUC值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。）

最差ROC为（0，0）和（1，1）之间连线，此时AUC=0.5，EER=（0.5，0.5），如果凹进去了，则把预测值01互换，可得到较好的反向操作分类器。

3. Kappa值：

$K = \frac{p_o-p_e}{1 - p_e}$

$p_o = \frac{sum \quad of \quad diagonal \quad values}{N} = accuracy$

$p_e=\frac{\sum_i sum(row_i)*sum(column_i)}{N^2}$

一致性检验，-1～1，越高越好。

考虑二分类的混淆矩阵，第一行为a,b，第二行为c,d，化简可得到 $K=\frac{2ad-2bc}{(a+b)(b+d)+(a+c)(c+d)}$

当ad=bc时，纯瞎蒙，K=0；ad<bc时，还不如瞎蒙，最好反向预测。

二、分割（segmentation）

1. Dice

$Dice = \frac{2*P\cap G}{P+G}$

P: prediction, G: ground truth

完全重合时等于1。

注： $IOU=\frac{P\cap G}{P\cup G}$

2. pixel accuracy

$accuracy = \frac{correct}{N}$

类别不均衡的时候很偏颇。

3. Hausdorff distance

$H(A,B) = max(h(A,B), h(B,A))$

$h(A,B) = max_{a\in A}(min_{b\in B}\left \| a-b \right \|)$

集合A中所有点，到集合B中所有点最短距离的最大值。

4. image level，pixel wise

level对应的是统计的集合个体，wise是指统计的单位。例如：lesion level，pixel wise就是对各个病灶，以模型在pixel上的表现进行统计。

三、回归（regression）

1. Mean Absolute Error

$MAE =\frac{1}{n} \sum_i^n \left | y_i - \hat y_i \right |$

2. Mean Squared Error

$MSE=\frac{1}{n}\sum_i^n(y_i-\hat y_i)^2$

3. Root Mean Squared Error

$RMSE=\sqrt {\frac{1}{n}\sum_i^n(y_i-\hat y_i)^2}$

四、检测（detection）

0. NMS（Non-Maximum Suppression）

根据score进行bounding box排序，对于最大的那个，在剩余的bounding box里面去掉和它重合度较高的（IOU大于某个阈值）。然后是score第二大的，以此类推，直到遍历所有bounding boxes。

1. precision， recall

TP：IOU > 0.5的检测框数量

FP：IOU <= 0.5的检测框数量，以及对应同一个ground truth多余检测框的数量

FN：没有检测到的检测框数量

$precision = \frac{TP}{TP+FP}$ $recall=\frac{TP}{TP+FN}$

2. PR曲线（Precision Recall Curve）

类似ROC曲线的绘制方法，将每个样本预测为阳性的概率值排序，通过设置各个概率值为阳性阈值，可以得到不同的混淆矩阵，得到不同的precision和recall，则得到一系列图上的点。

（1）平衡点（Break-Event point, BER）为PR曲线和y=x直线的交点。代表precision=recall二者的取值，这个值越高，分类器越好。

（2）检测任务面临大量负样本的问题，更关注的是模型区分正样本的能力。相较于ROC曲线，PR曲线更关注正样本，是一个更有效的评价指标。

（3）AP（Average Precision）是PR曲线下的面积，越大越好。

（4）上面的PR图我个人认为并不精确，因为不会出现recall=1，precision=0的情况，当然如果正负样本比例非常悬殊可能非常接近这个点。

3. mAP（mean Average Precision）

每一类都有各自的AP，将这些AP求均值。

五、其他

1. 速度（FLOPs：floating point operations ，浮点运算次数，可理解为计算量，可以用来衡量算法/模型的复杂度）

2. 参数量

3. 显存占用