active learning 是半监督式的机器学习的一种,这种机器学习算法能够交互式地查询用户或者信息源,从而对于一个新的数据样例得到可人的输出。在统计学文献中,它有时也被称为最佳实验设计。

在这样的一种情形下:无标签的数据量很大,而且手工打标签很昂贵。在这样的一种局面下,学习算法就可以主动向用户或者教员查询标签。这种迭代监督学习被称为主动学习。 由于学习者选择了这些例子,因此学习概念的例子数量往往比普通监督学习所需的例数少得多。 采用这种方法,算法会被无用的例子淹没。 最近的发展致力于多标签主动学习,混合主动学习和单通道(在线)情境下的主动学习,结合机器学习领域的概念(如冲突 和无知)与在线机器学习领域的适应性增量学习策略。

1、定义

设T是考虑中的所有数据的总集合。 例如,在蛋白质工程问题中,T将包括已知具有特定有趣活性的所有蛋白质以及人们可能想要测试该活性的所有其他蛋白质。
在每次迭代中,T,T被分解为三个子集
标签已知的数据点。
标签未知的数据点。
TU的一个子集,我选择标记。
目前大部分主动学习研究都涉及到为选择数据点的最佳方法。

2、查询策略

用于确定哪些数据点应该被标记的算法可以被组织成许多不同的类别【1】:

  • 不确定性采样:标记当前样例,从而使得当前模型一定程度上和正确的输出是保持一致的。
  • 委员会投票选择算法:使用当前的有标签数据集在几个模型中进行训练,然后对无标签数据的输出进行投票,标定那些委员会们最不同意的样本。
  • 预期模型更改:标定那些最可能改变当前模型的样本。
  • 预期错误减少:标定那些最可能降低模型的泛化误差。
  • 减小方差:标定那些可能减小输出方差的样本,方差是影响错误的指标之一。
  • 平衡探索与利用:在数据空间中,标定样本是探索和利用两者之间两难选择。该策略通过将主动学习问题建模为上下文匪徒问题来管理这种折衷。例如,Bouneffouf等人[8]提出了一种名为主动汤姆森采样(ATS)的序列算法,该算法在每一轮中对池分配一个采样分布,从该分布中采样一个点,并向oracle查询该采样点标签。
  • 主动学习的指数梯度探索:【9】在本文中,作者提出了一种顺序算法 - 指数梯度(EG)-active,可以通过最优随机探索来改进任何主动学习算法。
  • 从不同子空间或分区查询:当底层模型是树林时,叶节点可能代表原始特征空间的(重叠)分区。这提供了从非重叠或最小重叠分区中选择实例进行标记的可能性。

已经研究了各种各样的算法,这些算法属于这些类别。[1] [4]

3、最小边界超平面

一些主动学习算法主要是建立在支持向量机的基础之上的,都是利用支持向量机的结构来决定给数据打标签。这样的算法通常都计算每一个无标签数据集的margin,W,也都视这个margin平面从数据集到分离超平面之间的n维距离。最小化边界超平面方法认为最小W的数据就是SVM最不确定的数据,因此应该放置在Tci中以标记。如最大边际超平面,其他W最大的数据。权衡方法同城会选择最小和最大的W之间的混合。

4、相关会议

  • 2016 "Workshop Active Learning: Applications, Foundations and Emerging Trends" at iKNOW, Graz, Austria[11]
  • 2018 "Interactive Adaptive Learning" Workshop at ECML PKDD, Dublin, Ireland[12]

参考文献:

【0】https://en.wikipedia.org/wiki/Active_learning_(machine_learning)

active learning主动学习相关推荐

  1. Active Learning 主动学习

    最近读了一篇paper,题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification  ...

  2. 半监督学习:semi-supervised learning 直推学习:transductive learning 主动学习:active learning

    目前,利用未标记示例的主流学习技术主要有三大类:半监督学习(semi-supervised learning).直推学习(transductive learning)和主动学习(active lear ...

  3. 主动学习(Active Learning,AL)综述

    目录 1. 基本概念 2. 基于不确定性的主动学习方法 3.基于最近邻和支持向量的分类器的方法 3.1 NNClassifier 3.2 RBF network + Gradient Penalty ...

  4. 主动学习active learning方法汇总

    更新2021/12/6 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧. 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法, ...

  5. 四两拨千斤!深度主动学习综述2020

    本文转载自知乎,为最近新出的论文 A Survey of Deep Active Learning 中文版介绍,原文作者调研了189 篇文献综述了深度主动学习的进展.文章较长,建议先收藏再阅读. ht ...

  6. 深入学习“主动学习”:如何显著地减少标注代价

    写在前面 这篇博文很早之前就整理好啦,一直想继续完善再发布.但接下来一年的时间,估计会忙于各种事情,毕竟下半年就研三了.再者,最近在阿里实习,因某个业务场景需人工标注数据,借此机会尝试着做了主动学习的 ...

  7. 深度主动学习综述2020

    A Survey of Deep Active Learning 中文版仅作参考,以正式的pdf版为主. https://arxiv.org/pdf/2009.00236.pdf西北大学等最新< ...

  8. 主动学习入门篇:什么是主动学习?有哪些具体应用

    文 | 淘系技术部 初类 来源 | 知乎 在大数据和算力的助力下,深度学习掀起了一波浪潮,在许多领域取得了显著的成绩.以监督学习为主的深度学习方法,往往期望能够拥有大量的标注样本进行训练,模型能够学到 ...

  9. Active Learning

    怎么办?进行Active Learning主动学习 Active Learning是最近又流行起来了的概念,是一种半监督学习方法. 一种典型的例子是:在没有太多数据的情况下,算法通过不断给出在决策边界 ...

最新文章

  1. 利用Windows自带服务架设免费邮件服务器
  2. mysql整形溢出报错_MySQL整型数据溢出的解决方法
  3. 互联网人职业发展之路,你中招了吗?| 每日趣闻
  4. Java Web Application 自架构 四 Log4j2日志管理
  5. php 提取全部html标签,php提取html中的img标签
  6. Oracle SQL 空值排序(Nulls)
  7. python polar contour_Python将2darray的最后一行和第二列添加到最后位置 - Polar Contour图...
  8. 会员中心 收藏动态消息创作SELECT LAST_INSERT_ID() 的使用和注意事项
  9. Android之提示javax.net.ssl.SSLHandshakeException: Chain validation failed
  10. django之视图函数
  11. [转]Sandboxie 的工作原理
  12. how-to-change-the-windows-pagefile-size win10分页虚存大小
  13. android 微信 amr转mp3格式,微信amr格式转换器使用教程 如何批量转换微信amr为mp3音频格式文件...
  14. 吴裕雄--天生自然 诗经:临江仙·滚滚长江东逝水
  15. Shopify独立站注册建站教程,Shopify独立站怎么做
  16. Android面试题Java基础篇
  17. 备案提示 尊敬的ICP用户: 您的短信核验失败,请您重新验证
  18. 原子操作(Atomic)
  19. Java POI SXSSFWorkbook 读取模板,输出
  20. CICD使用阿里云 云效实现自动发布代码

热门文章

  1. 袁枚的美食人生:不过是人间烟火——从一粥一饭、一菜一面出发,食物背后,是万千故乡。
  2. 记一次失败的幸运召唤师抽奖之 动态网页技术
  3. 地图坐标转换 -- 火星坐标与GPS坐标
  4. 史上最强的MySQL数据库设计规范(互联网大厂都使用的2021年最新版本)
  5. [wp7软件]相机 画图 截屏 photo 集合 软件(三)
  6. 数学建模竞赛常用算法介绍及对应国赛获奖论文分类整理分享
  7. Asterisk PJSIP中继(IMS)呼叫开启VoLTE手机出现一接通就自动挂机问题
  8. 投资理财-要有家国情怀
  9. git项目如何打patch以及打patch的注意事项
  10. Formal Evaluation