active learning 是半监督式的机器学习的一种，这种机器学习算法能够交互式地查询用户或者信息源，从而对于一个新的数据样例得到可人的输出。在统计学文献中，它有时也被称为最佳实验设计。

在这样的一种情形下：无标签的数据量很大，而且手工打标签很昂贵。在这样的一种局面下，学习算法就可以主动向用户或者教员查询标签。这种迭代监督学习被称为主动学习。由于学习者选择了这些例子，因此学习概念的例子数量往往比普通监督学习所需的例数少得多。采用这种方法，算法会被无用的例子淹没。最近的发展致力于多标签主动学习，混合主动学习和单通道（在线）情境下的主动学习，结合机器学习领域的概念（如冲突和无知）与在线机器学习领域的适应性增量学习策略。

1、定义

设T是考虑中的所有数据的总集合。例如，在蛋白质工程问题中，T将包括已知具有特定有趣活性的所有蛋白质以及人们可能想要测试该活性的所有其他蛋白质。
在每次迭代中，T，T被分解为三个子集
标签已知的数据点。
标签未知的数据点。
TU的一个子集，我选择标记。
目前大部分主动学习研究都涉及到为选择数据点的最佳方法。

2、查询策略

用于确定哪些数据点应该被标记的算法可以被组织成许多不同的类别【1】：

不确定性采样：标记当前样例，从而使得当前模型一定程度上和正确的输出是保持一致的。
委员会投票选择算法：使用当前的有标签数据集在几个模型中进行训练，然后对无标签数据的输出进行投票，标定那些委员会们最不同意的样本。
预期模型更改：标定那些最可能改变当前模型的样本。
预期错误减少：标定那些最可能降低模型的泛化误差。
减小方差：标定那些可能减小输出方差的样本，方差是影响错误的指标之一。
平衡探索与利用：在数据空间中，标定样本是探索和利用两者之间两难选择。该策略通过将主动学习问题建模为上下文匪徒问题来管理这种折衷。例如，Bouneffouf等人[8]提出了一种名为主动汤姆森采样（ATS）的序列算法，该算法在每一轮中对池分配一个采样分布，从该分布中采样一个点，并向oracle查询该采样点标签。
主动学习的指数梯度探索：【9】在本文中，作者提出了一种顺序算法 - 指数梯度（EG）-active，可以通过最优随机探索来改进任何主动学习算法。
从不同子空间或分区查询：当底层模型是树林时，叶节点可能代表原始特征空间的（重叠）分区。这提供了从非重叠或最小重叠分区中选择实例进行标记的可能性。

已经研究了各种各样的算法，这些算法属于这些类别。[1] [4]

3、最小边界超平面

一些主动学习算法主要是建立在支持向量机的基础之上的，都是利用支持向量机的结构来决定给数据打标签。这样的算法通常都计算每一个无标签数据集的margin，W，也都视这个margin平面从数据集到分离超平面之间的n维距离。最小化边界超平面方法认为最小W的数据就是SVM最不确定的数据，因此应该放置在Tci中以标记。如最大边际超平面，其他W最大的数据。权衡方法同城会选择最小和最大的W之间的混合。

4、相关会议

2016 "Workshop Active Learning: Applications, Foundations and Emerging Trends" at iKNOW, Graz, Austria^[11]
2018 "Interactive Adaptive Learning" Workshop at ECML PKDD, Dublin, Ireland^[12]

参考文献：

【0】https://en.wikipedia.org/wiki/Active_learning_(machine_learning)

active learning主动学习相关推荐

Active Learning 主动学习
最近读了一篇paper,题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification ...
半监督学习：semi-supervised learning 直推学习：transductive learning 主动学习：active learning
目前,利用未标记示例的主流学习技术主要有三大类:半监督学习(semi-supervised learning).直推学习(transductive learning)和主动学习(active lear ...
主动学习（Active Learning，AL）综述
目录 1. 基本概念 2. 基于不确定性的主动学习方法 3.基于最近邻和支持向量的分类器的方法 3.1 NNClassifier 3.2 RBF network + Gradient Penalty ...
主动学习active learning方法汇总
更新2021/12/6 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧. 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法, ...
四两拨千斤！深度主动学习综述2020
本文转载自知乎,为最近新出的论文 A Survey of Deep Active Learning 中文版介绍,原文作者调研了189 篇文献综述了深度主动学习的进展.文章较长,建议先收藏再阅读. ht ...
深入学习“主动学习”：如何显著地减少标注代价
写在前面这篇博文很早之前就整理好啦,一直想继续完善再发布.但接下来一年的时间,估计会忙于各种事情,毕竟下半年就研三了.再者,最近在阿里实习,因某个业务场景需人工标注数据,借此机会尝试着做了主动学习的 ...
深度主动学习综述2020
A Survey of Deep Active Learning 中文版仅作参考,以正式的pdf版为主. https://arxiv.org/pdf/2009.00236.pdf西北大学等最新< ...
主动学习入门篇：什么是主动学习？有哪些具体应用
文 | 淘系技术部初类来源 | 知乎在大数据和算力的助力下,深度学习掀起了一波浪潮,在许多领域取得了显著的成绩.以监督学习为主的深度学习方法,往往期望能够拥有大量的标注样本进行训练,模型能够学到 ...
Active Learning
怎么办?进行Active Learning主动学习 Active Learning是最近又流行起来了的概念,是一种半监督学习方法. 一种典型的例子是:在没有太多数据的情况下,算法通过不断给出在决策边界 ...

active learning主动学习

1、定义

2、查询策略

3、最小边界超平面

4、相关会议

active learning主动学习相关推荐

最新文章

热门文章