偏差、方差、精确率、召回率

1. 偏差、方差、精确率、召回率四个概念

偏差
从直观上来讲，“偏”是偏离，放在分类任务上，也就是偏离了真实值、真实标签。
含义：偏差度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。
方差
在统计学上，一个随机变量的方差描述的是它的离散程度, 也就是该随机变量在其期望值附近的波动程度
含义：方差度量了同一个模型在不同的训练集上的稳定性，也就是同样大小的训练集的变动所导致的学习性能的变化，, 即刻画了数据扰动所造成的影响
准确率、精确率、召回率
TP: 预测为正，实际为正
TN: 预测为负，实际为负
FP:预测为正，实际为负
FN: 预测为负，实际为正
T/F：表示预测结果是否正确
P/N：表示预测结果是正或负样本
（1）准确率 = 预测正确的数量/总数 = (TP+TN)/(TP+TN+FN+FP)
（2）精确率（查准率） = 正确预测为正类的/预测为正类的 = TP/ (TP+FP)
精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本
（3）召回率（查全率） = 正确预测为正类的/全部实际为正类的 = TP/ (TP+FN)
召回率是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了

偏差与方差 - 射击举例详解
假设在飞机上，射击地面上的敌军军队，会有以下几种情况：

子弹基本上都打在队伍经过的一棵树上了，连在那棵树旁边任何事物都毫发无损 —— 方差小（子弹打得很集中），偏差大（跟目的相距甚远）
子弹打在了树上，石头上，树等除敌军外的任何事物上，但是敌军安然无恙 —— 方差大（子弹到处都是），偏差大
子弹打死了一部分敌军，但是也打偏了些打到花花草草了 —— 方差大（子弹不集中），偏差小（已经在目标周围了）
子弹一颗没浪费，每一颗都打死一个敌军，跟抗战剧里的八路军一样 —— 方差小（子弹全部都集中在一个位置），偏差小（子弹集中的位置正是它应该射向的位置）

方差，是形容数据分散程度的，算是“无监督的”，客观的指标，
偏差，形容数据跟我们期望的中心差得有多远，算是“有监督的”，有人的知识参与的指标

2.一个好的模型对这几个指标有什么样的要求？（如何通过分析这几个指标，判断模型训练的效果？）

偏差与方差
以射箭为例：一个人有斜视，无论怎样训练，都无法准确地射中靶心，这样形成的就是偏差，是学习能力不足；一个人学习地很好，在训练时准确率很高，但是在测试时风速、光线改变，按照原来的方法射靶，准确率降低，这就造成了方差。

即：学习能力不行造成的误差是偏差，学习能力太强造成的误差是方差。

一般来说, 偏差与方差是有冲突的, 称为偏差-方差窘境 (bias-variance dilemma)。

给定一个学习任务, 在训练初期, 由于训练不足, 学习器的拟合能力不够强, 偏差比较大, 也是由于拟合能力不强, 数据集的扰动也无法使学习器产生显著变化, 也就是欠拟合的情况，此时偏差主导了泛化错误率
随着训练程度的加深, 学习器的拟合能力逐渐增强, 训练数据的扰动也能够渐渐被学习器学到
充分训练后, 学习器的拟合能力已非常强, 训练数据的轻微扰动都会导致学习器发生显著变化, 当训练数据自身的、非全局的特性被学习器学到了, 则将发生过拟合，此时是方差主导了泛化错误率

3.基于问题2，若出现指标不理想的情况，都可能是什么原因？如何验证原因？如何解决？

偏差

原因：当模型复杂度较低时，训练误差和验证误差都比较高，且两者比较接近，这时就是模型欠拟合
解决方法：避免欠拟合
（1）增加网络模型的规模：增加网络的深度、增加每层神经元的数量，这样能够是算法更好的拟合训练集
（2）寻找更好的特征：具有代表性。
（3）用更多的特征：增大输入向量的维度。（增加模型复杂度）

方差

原因：当模型过于复杂时，训练误差很小，验证误差很大。也可以说训练误差在下降，而验证误差开始上升，这时就要考虑是否出现了过拟合
解决办法：避免过拟合
（1）增大数据集合：使用更多的数据，减少数据扰动所造成的影响
（2）减少数据特征：减少数据维度，减少模型复杂度
（3）正则化方法：降低模型复杂度
（4）交叉验证法