赤池信息量准则是由日本统计学家赤池弘次创立的,以熵的概念基础确定。

赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

历史

Akaike 信息准则是由统计学家Hirotugu Akaike制定的。它最初被命名为“信息标准”。Akaike 在 1971 年的一次研讨会上首次用英文宣布;研讨会论文集于 1973 年出版。然而,1973 年的出版物只是对这些概念的非正式介绍。第一个正式出版物是 1974 年 Akaike 的一篇论文。截至 2014年10 月,这篇 1974 年的论文在Web of Science 上的引用次数超过 14,000 次:使其成为有史以来被引用次数最多的研究论文第 73 位。

如今,AIC 已经变得足够普遍,以至于经常在不引用 Akaike 1974 年论文的情况下使用它。事实上,有超过 150,000 篇学术文章/书籍使用 AIC(由Google Scholar评估)。

AIC 的初始推导依赖于一些强有力的假设。Takeuchi (1976)表明假设可以变得更弱。然而,竹内的作品是用日语写的,多年来在日本以外的地方并不广为人知。

AICc 最初由Sugiura (1978)提出用于线性回归(仅)。这激发了Hurvich & Tsai (1989) 的工作,以及同一作者的几篇进一步的论文,这些论文扩展了 AICc 可以应用的情况。

Burnham & Anderson (2002) 的著作是对信息论方法的第一次一般性阐述。它包括竹内工作的英文介绍。这本书让 AIC 的使用量大大增加,现在它在Google Scholar上的引用次数超过 48,000 次。

赤池称他的方法为“熵最大化原理”,因为该方法建立在信息论中的熵概念之上。事实上,在统计模型中最小化 AIC 等效于最大化热力学系统中的熵。换句话说,统计学中的信息论方法本质上是应用热力学第二定律。因此,AIC 源于路德维希·玻尔兹曼( Ludwig Boltzmann)关于熵的工作 。有关这些问题的更多信息,请参见Akaike (1985)和Burnham & Anderson (2002,第 2 章)。

公式:

在一般的情况下,AIC可以表示为:

AIC=(2k-2L)/n

参数越少,AIC值越小,模型越好

样本数越多,AIC值越小,模型越好

这和调整的R方思路一致,即对变量多的模型加重惩罚力度

它的假设条件是模型的误差服从独立正态分布。

其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。

AIC的大小取决于L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k小意味着模型简洁,L大意味着模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性。

具体到,L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量,sse为残差平方和

表明增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

AICc和AICu

在样本小的情况下,AIC转变为AICc:

AICc=AIC+[2k(k+1)/(n-k-1)

当n增加时,AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下(Burnham and Anderson, 2004)。

McQuarrie 和 Tsai(1998: 22)把AICc定义为:

AICc=ln(RSS/n)+(n+k)/(n-k-2),

他们提出的另一个紧密相关指标为AICu:

AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2).

QAIC

QAIC(Quasi-AIC)可以定义为:

QAIC=2k-1/c*2lnL

其中:c是方差膨胀因素。因此QAIC可以调整过度离散(或者缺乏拟合)。

在小样本情况下, QAIC表示为:

QAICc=QAIC+2k(2k+1)/(n-k-1)

一些统计软件计算不可靠

一些统计软件将报告 AIC 的值或对数似然函数的最大值,但报告的值并不总是正确的。通常,任何不正确都是由于省略了对数似然函数中的常数。例如,n 个 独立的相同正态分布的对数似然函数是

——这是在获得 AIC 值时最大化的函数。一些软件,然而,省略了常数项( n /2) ln(2 π ),因此报告了对数似然最大值的错误值,因此也报告了 AIC。_如果_所有模型的残差都是正态分布的,_则_此类错误对于基于 AIC 的比较无关紧要:因为这样错误就会抵消。然而,一般而言,常数项需要包含在对数似然函数中。 因此,在使用软件计算 AIC 之前,通常最好在软件上运行一些简单的测试,以确保函数值正确。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

欢迎学习csdn学院更多金融风控相关知识《python金融风控评分卡模型和数据分析》

赤池信息量准则 ( Akaike information criterion)-统计学术语相关推荐

  1. 赤池信息量准则(AIC)和贝叶斯信息准则(BIC)

    一 AIC 赤池信息量准则(Akaike information criterion,AIC)是评估统计模型的复杂度和衡量统计模型"拟合"资料之优良性(Goodness of fi ...

  2. R计算赤信息指标(Akaike information criterion,AIC)

    R计算赤信息指标(Akaike information criterion,AIC) 目录 R计算赤信息指标(Akaike information criterion,AIC) 计算AIC AIC结果 ...

  3. AIC+BIC+HQ+赤池信息量+贝叶斯信息量

    AIC+BIC+HQ AIC=-2 ln(L) + 2 k  中文名字:赤池信息量 akaike information criterion BIC=-2 ln(L) + ln(n)*k 中文名字:贝 ...

  4. 赤池信息准则AIC,BIC

    很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题--过拟合.所以,模型选择问题在模型复杂度与模型 ...

  5. Bayesian information criterion和 Akaike information criterion中的模型参数个数(自由度)计算 | 以高斯混合分布为例

    在Scikit-Learn库里面调用sklearn.mixture.GaussianMixture,有3个重要的属性n_clusters, n_weights和n_covariance,分别对应着簇中 ...

  6. R计算贝叶斯信息指标(Bayesian Information Criterion,BIC)实战

    R计算贝叶斯信息指标(Bayesian Information Criterion,BIC)实战 目录 R计算贝叶斯信息指标(Bayesian Information Criterion,BIC)实战

  7. (转)格拉布斯准则(Grubbs Criterion)处理数据异常

    (转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...

  8. 统计学术语及解释(一)

    部分统计学术语英汉解释(一): 备择假设 ,Alternative hypothesis :参数除零假设外中所标之外的其他可能性. 方差分析,Analysis of variance:用于分析一个或多 ...

  9. AIC-赤池信息准则、BIC-贝叶斯信息准则

    1.AIC准则 2.BIC准则

  10. 【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据

    介绍: 在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段. 肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它 ...

最新文章

  1. 《算法竞赛进阶指南》打卡-基本算法-AcWing 93. 递归实现组合型枚举:递归与递推、dfs、状态压缩
  2. 我的Android进阶之旅------Android如何去除GridView的按下或点击选中后的背景效果...
  3. 三码合一方法 制作QQ、微信、支付宝收款码合一
  4. JAVA 使用 pdfbox实现打印 PDF 文件 (横版,竖版)
  5. 习题 6.13 编一程序,将两个字符串连接起来,不要用strcat函数。
  6. Python Web开发的完整指南
  7. oracle加减乘除怎么写,加减乘除怎么写-加减乘除的名称怎么写-加减乘除的笔画怎么写...
  8. python实现火车票查询_火车票查询(python版)
  9. 安装sql 无法重启计算机,win10系统安装sQL server 2008显示重新启动计算机失败的步骤介绍...
  10. 数字证书基本知识总结
  11. java 电子实时看板,物理看板还是电子看板?
  12. 大数据营销的优势和核心
  13. 人体神经系统分布图图片,神经系统分布图片高清
  14. 2019ICPC上海区域赛 补题(12/13) 总结
  15. boss直聘zp_stoken逆向分析源码放送
  16. Open3D Distance Queries 距离查询
  17. 汕头大学计算机专业荣誉,广西考生进入汕头大学要超一本线三四十分,但我想学的计算机专业在全国排名很低,真不知汕大的这专业有啥...
  18. 互联网架构(一)总体架构设计
  19. 微信小程序中实现点击导航条切换页面(可左右滑动视图)
  20. oracle创建触发器的作用,Oracle触发器简介

热门文章

  1. 【SpringBoot_ANNOTATIONS】组件注册 02 @ComponentScan 自动扫描组件 指定扫描规则
  2. 轨迹绕圈算法_算法程序解决如下问题:质点在平面坐标系中运动,每次x或者y坐标增加或减少1,如何判断质点是否顺时针质点的轨迹我们是知道的,当我们已经知道质点在绕圈运动了,那么怎么判断它是在顺时...
  3. 如何用python计算函数的值域_用Python解数独[3]:求总值域
  4. python中bif是什么_python类与对象(BIF详细分析及实例讲解)
  5. python画图x轴时间间隔_matplotlib绘图-设置横坐标为日期显示范围与间隔
  6. Spring基于注解管理bean(一文搞懂注解及使用注解)
  7. SaltStack系列(二)之常用模块介绍
  8. 性能优化之无阻塞加载脚步方法比较
  9. iSCSI远程块存储配置实验
  10. VS2010 配置PCL1.6.0AII in one 无法启动程序ALL_BUILD