原文:《A Brief Introduction to Weakly Supervised Learning》
作者:周志华

弱监督学习

  • 1. 概览
  • 2. 不完全监督(incomplete supervision)
    • 2.1 主动学习
    • 2.2 半监督学习
      • 2.2.1 为什么未标注数据对构建预测模型有用?
      • 2.2.2 基本假设
      • 2.2.3 主要方法
  • 3. 不确切监督(inexact supervision)
  • 4. 不准确监督(inaccurate supervision)
  • 5. 总结
  • 6. 参考资料

1. 概览

在强监督条件下,监督学习任务是从训练数据集 D={(x1,y1),…,(xm,ym)}D=\lbrace (x_1, y_1), …, (x_m, y_m) \rbraceD={(x1​,y1​),…,(xm​,ym​)} 中学习 f:X−>Yf: X -> Yf:X−>Y ,但是由于标注数据成本高,实际上在很多任务中我们很难获得含有真值标签的大规模数据集,因此弱监督学习成了研究的一个热点。

2. 不完全监督(incomplete supervision)

不完全监督是指训练数据中只有一小部分数据有标签,而大部分数据没有标签,且这一小部分有标签的数据不足以训练一个好的模型。该学习任务是从 D={(x1,y1),…,(xl,yl),xl+1,…,xm},D = \lbrace (x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m \rbrace,D={(x1​,y1​),…,(xl​,yl​),xl+1​,…,xm​}, 中学习 f:X−>Yf: X -> Yf:X−>Y ,目前主要有两种方法解决此问题:主动学习(active learning)和半监督学习(semi-supervised learning)。

  • 主动学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,其目标是使用尽量少的“查询”(query)来获得尽量好的性能。
  • 直推学习假设未标记的数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。
  • 纯半监督学习在学习时并不知道最终的测试用例是什么。

2.1 主动学习

主动学习在训练过程中有人为干预,其假设未标注数据的真值标签可以向专家(Oracle)查询,如果标注成本只与查询次数有关,那么主动学习的目标就是最小化查询次数,以使训练一个好模型的成本最小。
给定少量标注数据以及大量未标注数据,主动学习倾向于选择最有价值的未标注数据来查询先知。衡量选择的价值,有两个广泛使用的标准,即信息量(informativeness)和代表性(representativeness)。
信息量衡量一个未标注数据能够在多大程度上降低统计模型的不确定性。
代表性衡量一个样本在多大程度上能代表模型的输入分布。

2.2 半监督学习

半监督学习是指在无人为干预的情况下利用未标注数据。

2.2.1 为什么未标注数据对构建预测模型有用?


如果我们只能根据唯一的正负样本点来预测,那我们就只能随机猜测,因为测试样本恰好落在了两个标注样本的中间位置;如果我们能够观测到一些未标注数据,例如图中的灰色样本点,我们就能以较高的置信度判定测试样本为正样本。在此处,尽管未标注样本没有明确的标签信息,它们却隐晦地包含了一些数据分布的信息,而这对于预测模型是有用的。

2.2.2 基本假设

在半监督学习中有两个基本假设,其本质为相似的输入应该有相似的输出:

  • 聚类假设(cluster assumption):假设数据具有内在的聚类结构,因此,落入同一个聚类的样本类别相同。
  • 流形假设(manifold assumption):假设数据分布在一个流形上,因此,相近的样本具有相似的预测。

2.2.3 主要方法

  • 生成式方法(generative methods):假设标注数据和未标注数据都由一个固有的模型生成。因此,未标注数据的标签可以看作是模型参数的缺失,并可以通过EM算法(期望-最大化算法)等方法进行估计。
  • 基于图的方法(graph-based methods):该方法构建一个图,其节点对应训练样本,其边对应样本之间的关系(通常是某种相似度或距离),而后依据某些准则将标注信息在图上进行扩散。
  • 低密度分割法(low-density separation methods):该方法强制分类边界穿过输入空间的低密度区域。
  • 基于分歧的方法(disagreement methods):该方法生成多个学习器,并让它们合作来挖掘未标注数据,其中不同学习器之间的分歧是让学习过程持续进行的关键。

3. 不确切监督(inexact supervision)

不确切监督是指训练样本只有粗粒度的标签,该学习任务是学习 f:X−>yf : X -> yf:X−>y ,训练集为 D={(X1,y1),…,(Xm,ym)}D = \lbrace (X_1, y_1), …, (X_m, y_m)\rbraceD={(X1​,y1​),…,(Xm​,ym​)} ,其中 Xi={xi,1,…,xi,mi}⊆XX_i = \lbrace x_{i, 1}, …, x_{i, m_i}\rbrace \subseteq XXi​={xi,1​,…,xi,mi​​}⊆X 被称为一个包,xi,j⊆Xx_{i,j} \subseteq Xxi,j​⊆X 是一个实例,当存在 xi,p⊆Xix_{i,p} \subseteq X_ixi,p​⊆Xi​ 是一个正样本时,则 XiX_iXi​ 为正包,其目的是预测未知包的标签,这被称为多示例学习(multi-instance learning)。

在计算机视觉中,通常从一张图像中提取多个图像块作为实例,例如下图:

假设每张图片的尺寸为88个像素,每个小块的尺寸为22个像素。单块(Single Blob, SB)以无重叠地滑动的方式,会给一个图片生成16个实例,即每个实例包含4个像素。领域单块(SBN)以有重叠地滑动的方式,则会给每一个图片生成9个实例,即每个示例包含20个像素。
多示例学习试图识别使得正包为正的关键实例。

4. 不准确监督(inaccurate supervision)

不准确监督关注样本的标签并不总是真值的情况,即存在错误标签。

一个典型的情况是在标签有噪声的条件下学习,这些研究大多都假设存在随机类型的噪声,即标签受制于随机噪声。在实际中,一个基本的想法是识别潜在的误分类样本,而后进行修正。例如,数据编辑(data-editing)方法构建了一个相对邻域图:

另一个最近出现的不准确监督的情景发生在众包模式中(crowdsourcing),即一个将工作外包给个人的流行模式。具体而言,将大量数据交给来自社会的工人去标注,并向这些工人支付少量的报酬,这对机器学习来讲是一种经济的方式,但是由于实际中通常存在不可靠的工人,因此,用从众包返回的不准确的监督信息进行学习,并保持学习到的性能,是有意义的。

很多研究试图从众包标签中推理出真值标签,有集成方法的理论支持的多票数策略在实际中得到了广泛应用,并有不错的性能,因此常常作为基线标准。

5. 总结

在带有真值标签的大量训练样本的强监督条件下,监督学习技术已经取得了巨大的成功。然而,在真实的任务中,收集监督信息往往代价高昂,因此探索弱监督学习通常是更好的方式, 总之,不论何种数据、何种任务,弱监督学习正在变得越来越重要。

6. 参考资料

  1. A brief introduction to weakly supervised learning(原文)
  2. A brief introduction to weakly supervised learning(简要介绍弱监督学习)
  3. 浅谈弱监督学习(Weakly Supervised Learning)
  4. 主动学习、纯半监督学习与直推学习

简要介绍弱监督学习(by 周志华)相关推荐

  1. A brief introduction to weakly supervised learning(简要介绍弱监督学习)

    文章转载自http://www.cnblogs.com/ariel-dreamland/p/8566348.html A brief introduction to weakly supervised ...

  2. 南京大学周志华教授综述论文:弱监督学习

    点击上方"磐创AI",选择"置顶公众号" 精品文章,第一时间送达 来源:NSR 转载自:机器之心,未经允许不得二次转载 在<国家科学评论>(Nati ...

  3. 【周志华机器学习】十三、半监督学习

    文章目录 参考资料 1. 未标记样本 1.1 主动学习 1.2 常见假设 1.3 半监督学习划分 2. 生成式方法 3. 半监督SVM 4. 基于分歧的方法 5. 半监督聚类 5.1 Constrai ...

  4. 周志华教授发表首届国际学习与推理联合大会IJCLR开场Keynote:探索从纯学习到学习+推理的AI...

    来源:机器之心 本文约4700字,建议阅读10+分钟 最权威的课程之一.探索"学习+推理"领域,你不可错过这场推理大会. 首届国际学习与推理联合大会(IJCLR)已于 10 月 2 ...

  5. 周志华教授力作,豆瓣10分好评,集成学习如何破解AI实践难题 | 赠书

    本文内容节选自<集成学习:基础与算法>一书.由南京大学人工智能学院院长周志华教授编著,中文版由其学生李楠博士翻译. 回顾机器学习最近30 年的发展历程,各种学习方法推陈出新.不断演进.但是 ...

  6. 周志华:“数据、算法、算力”,人工智能三要素在未来还要加上“知识”

    点击蓝字  关注我们 作者丨李雨晨 来源丨AI科评论 2020 年 8 月 7 日,全球人工智能和机器人峰会(CCF-GAIR 2020)正式开幕.CCF-GAIR 2020 峰会由中国计算机学会(C ...

  7. 周志华:“数据、算法、算力”人工智能三要素,在未来还要加上“知识”

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来源:AI科技评论 作者:李雨晨 2020 年 8 月 7 日,全球人工智能和机器人峰会(CC ...

  8. 周志华:“数据、算法、算力”人工智能三要素,在未来要加上“知识”| CCF-GAIR 2020...

    来源:雷锋网 作者 | 李雨晨 如何将"机器学习"与"逻辑推理"相结合,是人工智能领域的"圣杯问题" " 编者按:2020 年 8 ...

  9. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  10. 论坛报名 | Sanjeev Arora,周志华,马毅,张长水……

    2021年6月1日-3日,第三届北京智源大会将隆重举办.现正式开放大会线上和线下报名渠道. 2021年北京智源大会召开在即,6月1日至6月3日,持续三天,13场主旨报告/重磅对话,29场由各领域领军学 ...

最新文章

  1. 【Qt】在Qlayout中Qlabel::setScaledContents(true);失效
  2. 【算法】二分图的判定
  3. C++STL容器,你真的会用了吗?——插入、删除、遍历和查找操作性能对比——插入(精简易懂版,句句干货)
  4. 在Asp.net+FCKEditor设置最新最完整配置方法(转帖)
  5. 开发人员安全行为规则_为开发人员改善生活的7条简单规则
  6. ea 备份码是什么_EA的原始访问是什么,值得吗?
  7. SQLServer优化二
  8. azure不支持哪些语句 sql_排查 Azure SQL 数据库的常见连接问题 - Azure SQL Database | Microsoft Docs...
  9. 陈天奇的tvm更新了:VTA,开源AI芯片栈
  10. linux opendir php,php目录遍历函数opendir用法实例
  11. 写论文之LaTex-安装texlive
  12. idea取消英语拼音提示绿色波浪线
  13. 1.2版走迷宫小游戏(C++)
  14. matlab vrp 线性规划,VRP算法学习
  15. Spring Cache使用Redisson分布式锁解决缓存击穿问题
  16. Go语言自学系列 | golang标准库bufio
  17. 6.2 扑克牌游戏(project)
  18. centos7 安装 oceanbase 单机版测试
  19. js中clearInterval的重新执行/重新开始
  20. 安装语音计算机到桌面,桌面百度推出 语音搜索技术让电脑听“人话”

热门文章

  1. (转自MBA智库百科)弗兰克·吉尔布雷斯
  2. VBA-Excel重心法求解最优地址
  3. windows命令修改IP地址
  4. Win10双网卡上网冲突(内网、外网)
  5. Java软件设计师 中级
  6. 基于天猫精灵的智能家居物联网设计(F103+ESP8266+贝壳物联)
  7. c语言指针民航管理系统,C语言编程民航管理系统
  8. k6前级效果器怎么用_K6效果器功能说明
  9. coreldraw怎样定数等分_cdr怎样将一个圆形平均划分为三等分?
  10. 计算机ec键起什么作用,主板acpi 隐形的管家——EC的EC控制器芯片芯片手册