最近读了一篇paper,题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification of Hyperspectral Imagery。(题目这么长我也不想的......)这篇文章主要说了马尔科夫随机场还有active learning (AL)结合的问题。刚开始让给我学习AL的时候我是拒绝的,因为网上根本很少资料好吗?!居然还有一大堆关于如何教育孩子的相关结果......所以我就决定为我们机器学习领域的AL正名,它可不是教育孩子的方法哦~~

PS:如果你把机器学习算法看作自己的孩子,上面那句话当我没说....另外,请收下我的膝盖...

絮絮叨叨一大堆,让我们进入正题吧~~关于AL的定义,似乎一直没有很确切的定论,那么首先让我们看看维基百科是怎么说的:

主动学习是半监督机器学习的一个特例,在主动学习中,一个学习算法可以交互式的询问用户(或其他信息源)来获得在新的数据点所期望的输出。

Active learning is a special case of semi-supervised machine learning  in which  a learning  algorithm  is able  to interactively  query the  user (or some other information source)  to obtain  the  desired  outputs at new data points. 

不知道大家感觉怎么样,反正我感觉这个解释很差强人意。根据维基百科的描述,主动学习算法的一部分训练样本的标签是在算法运行的过程中主动询问用户才得到的。那么我认为这并不算是一种半监督的学习方法。众所周知,半监督学习方法是在不需要人工干预的条件下由算法自行完成对无标记数据的利用,这明显与上面的说明相悖。

鉴于维基百科上给出的定义让我很不满意(画外音:卧槽,你以为你是谁啊!!!),所以我根据论文中对主动学习的描述以及自身的理解从AL适用范围的角度做出下面的定义:

在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂。在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数据送到砖家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练。这一过程叫做主动学习。

简直通俗易懂有木有~~从我给出的定义上我们可以看出来,主动学习最重要的部分就是选择策略,即选择哪些数据提出标注请求。当然,通常我们对这种策略的要求是迭代次数尽量少并且结果尽量更加精确。

另外,由于是学习算法自己对样本提出要求,那么用来训练的样本数量一般是远远低于普通的学习方法的。这个道理很好理解啊,因为只有算法自己最了解自己吗~~就像女人最了解女人一样,所以女生的心思不要去猜,猜也猜不到,说不定还会付出比她真正需要的多很多倍的努力,结果却不一定很完美,这真是个悲伤的故事~~跑题了,跑题了....sorry!!!

下面我们就来建立以下主动学习(AL)的模型吧~~

首先当然是notation啦~我们定义为最开始的训练样本集,当然,这里面的数据都是有标记的。定义为未被标记的候选集,简称备胎。OK,就这两个数据集就可以说明问题了。

我们不妨形象的比喻一下,从前有个白富美叫做学习算法,她的目标就是经历众多的男人从而完善自身。在她出生时,她的父亲算法工程师给她安排了一个男人列表,也就是。可惜,在睡遍,哦不,是经历遍里面的男人后,她还是觉得自己不够完美,用数据量化一下就是她的全局精确度(OA)不够高。既然这样,学习算法小姐就开始在备胎里也就是里寻找下一个男人。一旦有男人满足了学习算法小姐的某种需求(也就是我们后面要讲到的选择策略),那么这个男人就会被挑出来,送往专家那里打上诸如“高富帅”,“欧巴”等等的标签中的一种,然后被收入后宫中。然后这个循环就会这样继续下去,直到学习算法小姐的全局精确度(OA)达到了要求,她就变成了女神喽~~(说起来真是个悲伤的故事...)

从上面的故事可以看出,主动学习这个过程最重要的就是两点:一、由学习算法主动提出对未标记的样本的标记需求;二、选择策略相当重要。另外,我从论文中的数据看出,主动学习过程的收敛也是很快的。

下面我想说说选择策略的问题,论文中提到了三种策略,分别是RS,LC和BT。为了一般化,我在这里只对多分类(也就是有很多种类标签)的情况进行说明。

RS:

即random selected,随机选择。顾名思义,这种方法是在中随机选择未标记的数据。

LC:

,策略公式如上所示。其中y为类标签,m为一实数,是标签的种类。这个式子的意思是寻找中,最难判别类别的数据,也就是说,对于这个,现有的分类器没有足够的自信心。这样的数据应该被人工标注,因为它的信息量很大。

BT:

,策略公式如上所示。其中m+指的是使式子前半部分取最大值的m,后半部分取最大值时,要去除掉这个m。我们不妨设使前半部分最优的m值为m1,后半部分为m2。如果要达到最优化的目标,那这式子前后两部分的结果应该十分相近,也就说明了这个样点很难区分到底是m1和m2哪一类的。这样的数据应该被人工标注,因为它的信息量很大。

选择策略也说完了,关于选择策略可能有些地方说的不清楚,如果大家不满意的话,可以直接去看我最开始提到的那篇论文,说得更加明白。

Active Learning 主动学习相关推荐

  1. active learning主动学习

    active learning 是半监督式的机器学习的一种,这种机器学习算法能够交互式地查询用户或者信息源,从而对于一个新的数据样例得到可人的输出.在统计学文献中,它有时也被称为最佳实验设计. 在这样 ...

  2. 半监督学习:semi-supervised learning 直推学习:transductive learning 主动学习:active learning

    目前,利用未标记示例的主流学习技术主要有三大类:半监督学习(semi-supervised learning).直推学习(transductive learning)和主动学习(active lear ...

  3. 主动学习(Active Learning,AL)综述

    目录 1. 基本概念 2. 基于不确定性的主动学习方法 3.基于最近邻和支持向量的分类器的方法 3.1 NNClassifier 3.2 RBF network + Gradient Penalty ...

  4. 主动学习active learning方法汇总

    更新2021/12/6 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧. 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法, ...

  5. 四两拨千斤!深度主动学习综述2020

    本文转载自知乎,为最近新出的论文 A Survey of Deep Active Learning 中文版介绍,原文作者调研了189 篇文献综述了深度主动学习的进展.文章较长,建议先收藏再阅读. ht ...

  6. 深入学习“主动学习”:如何显著地减少标注代价

    写在前面 这篇博文很早之前就整理好啦,一直想继续完善再发布.但接下来一年的时间,估计会忙于各种事情,毕竟下半年就研三了.再者,最近在阿里实习,因某个业务场景需人工标注数据,借此机会尝试着做了主动学习的 ...

  7. 深度主动学习综述2020

    A Survey of Deep Active Learning 中文版仅作参考,以正式的pdf版为主. https://arxiv.org/pdf/2009.00236.pdf西北大学等最新< ...

  8. 主动学习入门篇:什么是主动学习?有哪些具体应用

    文 | 淘系技术部 初类 来源 | 知乎 在大数据和算力的助力下,深度学习掀起了一波浪潮,在许多领域取得了显著的成绩.以监督学习为主的深度学习方法,往往期望能够拥有大量的标注样本进行训练,模型能够学到 ...

  9. Active Learning

    怎么办?进行Active Learning主动学习 Active Learning是最近又流行起来了的概念,是一种半监督学习方法. 一种典型的例子是:在没有太多数据的情况下,算法通过不断给出在决策边界 ...

最新文章

  1. 核磁共振影像数据处理-1(上)-个人简介和系列内容介绍、Li‘s have a solution and plan.
  2. centos6.5 mysql下载_Centos6.5在线安装mysql 8.0详细教程
  3. .net 显示时间为YYYY-MM-DD格式
  4. SAP WebIDE 是如何加载SAP UI5里自定义的XML view的 - JerryMaster.view.xml
  5. Linux tee的花式用法和pee
  6. 老年机按键串号_为什么老人机依然很多人在用?
  7. hadoop: Operation category READ is not supported in state standby
  8. POJ 3133 Manhattan Wiring(插头DP)
  9. SQL Server 823,824 错误
  10. 几张图五分钟让你轻松读懂TCP协议(图文并茂)
  11. __index元方法
  12. 欧姆龙编程软件(CXONE)使用教程
  13. Excel使用VBA自动调整列宽
  14. C#学习笔记:矩形判断
  15. python使用requests库爬取淘宝食品信息,包含sign参数破解
  16. 转载-中文文案排版指指南
  17. 软工学子与你一起了解资金时间价值 之 复利(利滚利)+ 贷款的基本常识 + 现金流量图 ——《工程经济学》
  18. 密码学基础:群、环、域概念总结
  19. MATLAB plot3绘制的不是三维图
  20. hdoj 4544 贪心

热门文章

  1. android换手机怎么同步,换了新手机,怎么可以快速将旧手机上的信息迁移到新手机上?...
  2. PageHelper 补充
  3. VIVO开发者平台上架APP
  4. [Python Study Notes]进程信息(丁丁软件监控进程,http-post)
  5. 工程师职称的专业分类
  6. GSM模块_Android建立GPRS通信的流程
  7. 2018年秋招记录-前端开发-更新完结
  8. 连锁零售系统怎么选择?好的零售管理系统有什么优点?
  9. IPGuard如何注册
  10. 计算机在自动化未来领域方向,计算机在电力自动化系统中的应用实践(原稿)