机器学习中,研究者们对分类集成的关注与日俱增,尤其关注分类精度的提升。IJAC近期发表了来自纽约石溪大学研究者的最新成果,该研究基于项目反应理论,提出一种加权投票方法---基于IRT理论的集成学习算法,该方法可正确处理分类难题。研究还构建三个模型用以评估能力参数,并介绍了模型背后的假设。

全文下载:

Item Response Theory Based Ensemble inMachine Learning

机器学习中基于项目反应理论的集成学习

Ziheng Chen, Hongshik Ahn

机器学习领域,研究者们对分类问题的集成学习(Classification ensembles)的关注与日俱增。集成学习(ensemble learning)区别于其他类型学习最重要的特征是它综合了一组分类器的预测结果,而不仅仅依赖于单个分类器。当前,在多种情况下已证实:在集成学习算法中,聚合性能指标(aggregated performance metrics),如Bagging、Boosting和增量学习(incremental learning)的表现均优于其他同类算法。

集成学习算法中最核心的内容,便是组合判定规则(combination rule)。根据组合的方法,可分类为:简单多数投票(simple majority voting)和加权多数投票(weighted majority voting)。简单多数投票是一种综合了分类器决策的决策规则。由于其简单、适用性强,已经在集成学习中得到广泛应用。加权多数投票则是将每个分类器的决策乘以一个权重,而后把加权决策组合起来完成最终决策。这两种方法基于分类器的性能来训练数据,因此,一旦单个分类器完成训练,就不再需要调节任何参数。

借鉴项目反应理论(Item Response Theory, IRT)中的思想, 本文提出了一种新的加权投票分类集成(weighted voting classification ensemble)算法。IRT广泛应用于心理学或教育学中评价试题难度或者学生能力,我们将之迁移到集成学习策略中来评价不同基础分类器的效果。我们把每个数据点(data point)当作一个问题,把不同的分类器当作在课堂上完成考试的学生。众所周知,一个学生解决问题时的表现取决于两个主要因素:问题的难度及学生的能力。训练数据当中,有些特征显著且易于分类,而有些接近类别边界(class boundaries)的数据却很难分类。因此,与课堂考试类似,我们将分类器的性能定义为可正确分类复杂案例的能力,而不是正确完成分类的案例数量。例如,假设一个分类器正确完成了简单案例的分类,却不能处理复杂案例。另一个分类器正确分类了一些复杂案例,而错误地分类了简单案例。那么,第二个分类器所得的权重就比第一个分类器高。

本文提出一种同时评价分类器能力和分类难度的方法。本研究所采用的项目反应理论(item response theory, IRT)框架已广泛应用于心理和教育研究中,用以评估分类器的潜在能力。在UCI分类数据的实验中,这种集成学习方法有效的提升了分类效果。值得一提的是,该方法有效解释了基础分类器的强弱与训练集中数据点难易的关系。

转载本文请联系原作者获取授权,同时请注明本文来自陈培颖科学网博客。

链接地址:http://blog.sciencenet.cn/blog-749317-1258227.html

上一篇:科研小工具 | 基于LaTex轻松制作PPT

下一篇:最新 | 2020研究前沿及热点解读

php 项目反应理论,科学网—好文 | 纽约石溪大学:机器学习中基于项目反应理论的集成学习 - 陈培颖的博文...相关推荐

  1. 计算机领域澳大利亚成就,科学网—【编委特写】澳洲Top5科学家:韩清龙 最新成果 - 陈培颖的博文...

    ​转眼又到一年丰收时,2019年,IJAC喜讯连连.全面开花!迄今已连续3次.11年获"中国科技期刊影响力提升计划"."中国科技期刊卓越行动计划"项目支持,资助 ...

  2. matlab流量结构分析,科学网-分享求解“结构分解分析(SDA)”各项均值的MATLAB程序-计军平的博文...

    点此下载(MATLAB File Exchange) [2015.02.18补充]其他研究人员的MATLAB代码 Sayago-Gomez, Juan Tomas, (2014), Matlab Co ...

  3. 计算机安全会议2017,科学网-第四届中国密码学与数据安全学术会议(CCDS2017)在衡阳师院召开-李浪的博文...

    7月26日,由西电密码公社.智能信息处理及应用湖南省重点实验室.衡阳师范学院嵌入式计算与信息安全研究所组织,衡阳师范学院计算机科学与技术学院承办的第四届中国密码学与数据安全学术会议(CCDS2017) ...

  4. 差分电荷密度怎么画_科学网—差分电荷密度图、电荷局域密度图(ELF)的画法及分析 - 叶小球的博文...

    关注: 1) 电荷密度图.差分电荷密度图及ELF的原理 2)  计算方法及参数设置 影响ELF准确性的参数有哪些?  在计算效率与准确性/精确性之间权衡. Ecut, KPOINTS? 3)  画法及 ...

  5. lego ev3 matlab,科学网—[转载]【源码】乐高MINDSTORMS EV3硬件的MATLAB支持包 - 刘春静的博文...

    MATLAB的乐高Mindstorms EV3硬件支持包使您能够使用Matlab通过USB电缆.无线网络或蓝牙与乐高Mindstorms EV3通信. MATLAB® Support Package ...

  6. openacc的Linux安装教程,科学网—opensuse 13.1 系统 openACC编译器使用及GPU并行编程环境配置 - 马小军的博文...

    本文讲述opensuse13.1系统openACC编译器使用及GPU并行编程环境配置. 这里以笔记本显卡驱动为NVIDIA为例 在安装前,请确保系统已经安装kernel-devel ,kernel-s ...

  7. matlab批量生成灰度图像_科学网—matlab彩色图像的批处理转换为灰度、二值和主成分图图像 - 金秀良的博文...

    这段代码主要用来进行图像的批处理转换为灰度.二值和主成分图图像,希望给大家借鉴.其中 RGB to bw可以直接实现,但是效果不好,所以先用RGB to gray,之后再gray to bw.RGB ...

  8. 2018ei期刊目录计算机,科学网—2018年智能计算与信息系统国际会议(ICIS2018)征文期刊EI检索 - 周建国的博文...

    2018年第二届智能计算与信息系统国际会议(2018 the 2nd international conference on intelligent computing andinformation ...

  9. 无线无法解释服务器域名,科学网—Ubuntu 17.10 WIFI无线网络无法解析DNS域名的解决方法 - 徐勇刚的博文...

    把笔记本电脑(联想Y460)的操作系统从Ubuntu 16.04LTS升级到了Ubuntu 17.10, 发现WIFI无线网络能够连接上, 但就是上不了网, 比如无法访问百度(www.baidu.co ...

最新文章

  1. php中使用mysql_fetch_array输出数组至页面中展示
  2. python复制文件夹到另一个目录_【python】复制文件到另一个相同目录的文件夹中...
  3. Spring+Hibernate的典型配置
  4. 云话题 | 你女朋友在买买买时,程序员小哥在干嘛?
  5. 解决mac升级后,出现的 xcrun: error: invalid active developer path, missing xcrun 错误
  6. Coding Party 邀你出战!飞桨黑客马拉松线下场来啦
  7. Sequence operation3397
  8. 指数函数图像怎么画?
  9. 怎么查看自己本地的ip地址
  10. 关于windows Server2008 R2 操作系统无法修改Internet时间问题
  11. matlab实训助教总结,助教自我评价简历范文
  12. [等保测评]Web应用防火墙WAF产品汇总
  13. 搞机攻略(Android Root iOS越狱)
  14. 云服务器测速脚本_VPS服务器常用性能测试脚本
  15. 开发webgl应用时,cesium快速定位相机角度、相机位置的方法
  16. 多项式求和 SDUT25044
  17. AirServer 7.3.0中文版手机设备无线传送电脑屏幕工具
  18. 统计学python是什么方向的_python--统计学理论基础
  19. Kaggle神器LightGBM最全解读(附代码说明)!
  20. python读取excel某列数据

热门文章

  1. 手动计算Q-Learning的一个实例
  2. 计算机英语冯敏课后题答案,(中学篇)2020年第10期:例谈基于协同效应的读后续写教学(浙江:冯敏)一文涉及的读后续写试题...
  3. 读书笔记 摘自:《你坏》
  4. 如何开发Android安卓RFID读卡APP
  5. 建设一个网站需要多少钱?
  6. 实现ins照片的爬取
  7. 检查评分汇总表缺项计算机,综合检查评分表.docx
  8. Mac-----Mac安装虚拟机
  9. 数据分析面试手册《指标篇》
  10. 计算机与音乐,计算机音乐与midi