目录

  • 1 Informativeness
  • 2 Representativeness
  • 3 Diversity
    • 3.1 Global consideration
    • 3.2 Local consideration
  • 4 Combinations of three criteria
    • 4.1 Strategy 1
    • 4.2 Strategy 2
    • 4.3 Strategy 1 vs. Strategy 2
  • References

Active Learning (AL) 的 query criteria 大致可以分为 3 类:informativenessrepresentativenessdiversity

下面我将分别介绍这三种 criteria,并介绍论文 [1] 中是如何结合三种 criteria 的。(这里并不对 NER 部分做介绍。)

1 Informativeness

这种 criterion 用的应该是最多的,其中包括最简单最常用的 uncertainty sampling。

论文 [1] 也是将 sample 和 decision boundary 之间的距离来衡量该 sample 的 information。Closer to decision boundary, more informative.

仅用 informativeness 的 strategy 有可能会选到 outlier,故而需要考虑 representativeness。

Fig. 1 [2] Outlier sample A is more informative than sample B and will be selected by informativeness query strategy.

2 Representativeness

Representativeness 的衡量需要比较两个 samples 的 similarity,论文 [1] 中采取余弦相似度来衡量 similarity。

一个 sample 的 representativeness 可以用它的 density 来量化,即等于该 sample 与其它所有 unlabeled set 中样本 similarity 的均值。即:
\[ Density(\boldsymbol x_i) = \frac{\sum_{j \not = i} Sim(\boldsymbol x_i, \boldsymbol x_j)}{N-1} \]

其中,\(N\) 表示 unlabeled set 的大小。

如果某一个 sample \(\boldsymbol x^*\) 的 density 最大,那么 \(\boldsymbol x^*\) 也就是 unlabeled set 的 centroid。

当然,representativeness 的衡量不止论文 [1] 提到的这种方式,如论文 [3] 使用样本与部分邻居的 similarity 来表示 density,而不是整个 unlabeled set。

3 Diversity

Diversity 这个 criterion 是对 batch-mode active learning 才有的,当我们需要一次选择多个 samples 时,如果不考虑 diversity,很可能会重复选择同一区域的点,造成浪费。

论文 [1] 提出了两种利用 diversity 的方法:GlobalLocal

3.1 Global consideration

这种方式将 unlabeled set 用 K-means 划分成 K 个区域,在每一轮选择中,一个 batch 内的点需要从 K 个不同的区域中分别选择。

在实际利用时,可能不会对整个 unlabeled set 进行 K-means 划分,有可能只是对 unlabeled set 的一个子集进行划分,提高效率。

3.2 Local consideration

这种方式就不太考虑 unlabeled set,关注的重点在要选择的 batch 上。

在每一轮的 query 中,我们如果想要将一个 selected sample \(\boldsymbol x_{new}\)加入到 current batch,需要该 selected sample 和已经在 current batch 中的样本有足够大的区别,即 \(Similarity(\boldsymbol x_{new}, \boldsymbol x_{old}) > \beta\),其中 \(\beta\) 可以取整个 unlabeled set 样本之间 similarity 的均值。

在 local method 的情况下,一个个 selected samples 将经过筛选顺序加入到 batch 中。selected sample 是如何被 select 出的?可以 random,也可以用 informativeness 和 representativeness 的方式。

4 Combinations of three criteria

single-criterion 的 query strategy 在很多时候不如 multi-criteria 的 strategy。论文 [1][3] 中都有类似结论。

以下将介绍论文 [1] 提出的关于如何结合 informativeness、representativeness 和 diversity 三种 criteria 的两种方式。

4.1 Strategy 1

流程:

  1. 使用 Informativeness 这一 single criterion 选出 top M 个 most informative 的 samples,将其组成一个集合 interSet;
  2. 对 interSet 集合进行 K-means 聚类,聚成 K 个 clusters,并选择出每个 cluster 的 centroid 作为 selected sample 加入到 batch 中。(batch 的 size 也为 K。)

K-means 的 centroids 既代表了 interSet,又有 diversity。该 strategy 使用了 diversity 的 global method。

4.2 Strategy 2

流程:

  1. 按照 \(\lambda \operatorname{Info}\left(\boldsymbol x_{i}\right)+(1-\lambda) \text {Density}\left(\boldsymbol x_{i}\right)\) 结合 informativeness 和 representativeness 这两个 criteria,然后按照得分的高低选择出 selected samples;
  2. 一个 selected sample 想要加入到 batch 中,必须要满足新加入的点与已经在 batch 中的点的 similarity 大于某个阈值 \(\beta\),即使用 diversity 的 local method 对 selected samples 再进行一次 diversity 筛选。

\(\lambda\) 是一个超参数,需要人工设定,用来控制 informativeness 和 representativeness 的权重。论文 [3] 对 \(\lambda\) 的取值做了更加详细的研究,可以动态设定 \(\lambda\) 的值。

4.3 Strategy 1 vs. Strategy 2

在论文 [1] 的实验中,strategy 2 的效果要好于 strategy 1。

References

[1] Shen, D., Zhang, J., Su, J., Zhou, G., & Tan, C.-L. (2004). Multi-criteria-based active learning for named entity recognition. (ACL) https://doi.org/10.3115/1218955.1219030
[2] Burr Settles. (2009). Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of Wisconsin-Madison.
[3] Ebert, S., Fritz, M., & Schiele, B. (2012). RALF: A reinforced active learning formulation for object class recognition. (CVPR) https://doi.org/10.1109/CVPR.2012.6248108

转载于:https://www.cnblogs.com/wuliytTaotao/p/10748942.html

[Active Learning] Multi-Criteria-based Active Learning相关推荐

  1. 【Active Learning - 03】Adaptive Active Learning for Image Classification

    主动学习系列博文: [Active Learning - 00]主动学习重要资源总结.分享(提供源码的论文.一些AL相关的研究者):https://blog.csdn.net/Houchaoqun_X ...

  2. 文献学习(part16)--Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering

    学习笔记,仅供参考,有错必纠 文章目录 Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering A ...

  3. 【论文阅读】DeepGauge: multi-granularity testing criteria for deep learning systems.

    文章目录 一.论文信息 二.论文结构 三.论文内容 摘要(原文) 摘要(中文版) 实验结果分析与总结 三.相关笔记 一.论文信息 题目: DeepGauge: multi-granularity te ...

  4. 阅读笔记《Class Incremental Learning With Few-Shots Based on Linear Programming for Hyperspectral Image 》

    Class Incremental Learning With Few-Shots Based on Linear Programming for Hyperspectral Image Classi ...

  5. 论文阅读笔记(5):Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering

    论文阅读笔记(5):Oracle Based Active Set Algorithm for Scalable Elastic Net Subspace Clustering,基于Oracle的可伸 ...

  6. (转)Paper list of Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning

    Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning 2018-08-03 19:16:56 本文转自:http ...

  7. 转【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

    原文出处:http://blog.csdn.net/zhongwen7710/article/details/45331915 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决 ...

  8. 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现

    网址:https://github.com/NLP-LOVE/ML-NLP 此项目是机器学习(Machine Learning).深度学习(Deep Learning).NLP面试中常考到的知识点和代 ...

  9. 论文理解【Offline RL】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning

    标题:BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning 文章链接:BAIL: Best-Action ...

  10. Active Spring transaction synchronization or active JTA transaction with specifi

    1,写了一个保存日志方法,在无事务方法体里执行. 2,使用hibernate的save方法保存时报错 java.lang.IllegalStateException: Active Spring tr ...

最新文章

  1. rstudio怎么安装ggplot2_如何基于ggplot2构建相关系数矩阵热图
  2. JavaScript的基础学习篇
  3. php微信公众号开发入门
  4. 官方乌镇定调互联网金融,P2P、众筹专项对待
  5. iOS提交审核:您的 App 正在使用广告标识符 (IDFA)
  6. 二十一 JDK注解注解案例
  7. web漏洞扫描工具_如何使用Arachni扫描web漏洞
  8. 在vivado hls软件上打开zynqnet工程,Vivado HLS Command Prompt(Vivado HLS 命令提示符)是什么
  9. 1177: 按要求排序(指针专题)_L2算法基础第10课 排序中
  10. 【已解决】关于SQL2008 “不允许保存更改。您所做的更改要求删除并重新创建以下表。您对无法重新创建的标进行了更改或者启用了‘阻止保存要求重新创建表的更改’” 解决方案...
  11. linux 初始化全部操作
  12. silverlight 中缓存应用程序相应的库文件
  13. o(n)复杂度下实现数组去除重复项
  14. cocos2d里面如何实现mvc系列
  15. HTML+CSS实现小米账号注册界面
  16. 汇编语言子程序设计 查找电话号码
  17. python提取cad坐标_从CAD图里提取坐标的方法
  18. 【漏洞复现】Hadoop YARN 资源管理系统 REST API未授权访问
  19. viso 画背景框_officevisio怎么设置背景图和图纸...
  20. mmap内存映射原理

热门文章

  1. linux+redhat+5下载地址,Redhat_Linux5下载地址集锦最终.docx
  2. jquery筛选方法-选取父子元素
  3. Python入门--集合生成式
  4. Python入门--元组的遍历,获取元组元素
  5. Unity3D实践4:带有出入特效的提示框
  6. C++ #include iostream #include iostream.h #include string.h区别及作用
  7. k8s nodeSelector和affinity
  8. matlab2c使用c++实现matlab函数系列教程-histc函数
  9. jquery中的attr函数attr(name)、attr(key,value)、attr(properties)、attr(key,fn)、removeAttr
  10. MySQL 8.0查找my.ini文件位于C:\ProgramData\MySQL\MySQL Server 8.0