aic值检验 p值_模型选择方法：AIC和BIC

经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：
AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
L是在该模型下的最大似然，n是数据数量，k是模型的变量个数
三个模型A, B, C，在通过这些规则计算后，我们知道B模型是三个模型中最好的，但是不能保证B这个模型就能够很好地刻画数据，因为很有可能这三个模型都是非常糟糕的，B只是烂苹果中的相对好的苹果而已。
这些规则理论上是比较漂亮的，但是实际在模型选择中应用起来还是有些困难的，我们不可能对所有这些模型进行一一验证AIC, BIC，HQ规则来选择模型，工作量太大。
AIC
赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上。AIC越小，模型越好，通常选择AIC最小的模型
在一般的情况下，AIC可以表示为【2】：

AIC=(2k-2L)/n
它的假设条件是模型的误差服从独立正态分布。
其中：k是所拟合模型中参数的数量，L是对数似然值,n是观测值数目。k小意味着模型简洁，L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。
具体到，L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量，sse为残差平方和，L主要取决于残差平方和，为负数
（所以还可以写成：AIC = （2k + 2|L|）/n

解释【1】：
在AIC之前，我们需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。对于一批数据，假设存在一个真实的模型f，还有一组可供选择的模型g1、g2、g3…gi，而K-L 距离就是用模型 gi 去估计真实模型 f 过程中损失的信息。可见K-L 距离越小，用模型 gi 估计真实模型 f 损失的信息越少，相应的模型 gi 越好。
然后，问题来了。怎么计算每个模型 gi 和真实模型 f 的距离呢？因为我们不知道真实模型 f，所以没办法直接计算每个模型的K-L距离，但可以通过信息损失函数去估计K-L距离。日本统计学家Akaike发现log似然函数和K-L距离有一定关系，并在1974年提出Akaike information criterion，AIC。通常情况下，AIC定义为：AIC=2k-2ln(L)，其中k是模型参数个数，L是似然函数。
-2ln(L)反映模型的拟合情况，当两个模型之间存在较大差异时，差异主要体现在似然函数项-2ln(L)，当似然函数差异不显著时，模型参数的惩罚项2k则起作用，随着模型中参数个数增加，2k增大，AIC增大，从而参数个数少的模型是较好的选择。AIC不仅要提高模型拟合度，而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。然后，选一个AIC最小的模型就可以了。

BIC
BIC=-2 ln(L) + ln(n)*k
BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。
AIC和BIC的原理是不同的，AIC是从预测角度，选择一个好的模型用来预测，BIC是从拟合角度，选择一个对现有数据拟合最好的模型，从贝叶斯因子的解释来讲，就是边际似然最大的那个模型
作者：龙鹰图腾223
链接：https://www.jianshu.com/p/4c8cf5df2092
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

另外解释说明

首先看几个问题

1、实现参数的稀疏有什么好处？

一个好处是可以简化模型、避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数作用，会引发过拟合。并且参数少了模型的解释能力会变强。

2、参数值越小代表模型越简单吗？

是。越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反应了在这个区间的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。

一、AIC

1、简介

AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性(Goodness of fit)的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

2、表达式

k为参数数量
L是似然函数

增加自由参数的数目提高了拟合的优良性，AIC鼓励数据拟合的优良性但是尽量避免出现过拟合的情况。所以优先考虑的模型应是AIC值最小的那一个，假设在n个模型中作出选择，可一次算出n个模型的AIC值，并找出最小AIC值对应的模型作为选择对象。

一般而言，当模型复杂度提高（k）增大时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。

二、BIC

1、简介

BIC= Bayesian Information Criterions，贝叶斯信息准则。

2、表达式

BIC=ln(n)k-2ln(L)

L是似然函数
n是样本大小
K是参数数量

三、总结

1、共性

构造这些统计量所遵循的统计思想是一致的，就是在考虑拟合残差的同事，依自变量个数施加“惩罚”。

2、不同点

BIC的惩罚项比AIC大，考虑了样本个数，样本数量多，可以防止模型精度过高造成的模型复杂度过高。
AIC和BIC前半部分是一样的，BIC考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。