关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning
目录
介绍
主动学习
半监督学习
多实例学习
带噪学习
Snorkel 框架介绍
参考
介绍
在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。
监督学习的训练数据由两部分组成:描述事件/对象的特征向量(x),以及 ground-truth 的标签(y)。而非监督学习的训练数据只有一个部分:描述事件/对象的特征向量(x),但是没有标签(y)。分类问题和回归问题是监督学习的代表,聚类学习是非监督学习的代表。
南京大学周志华教授在2018年1月发表的论文《A Brief Introduction to Weakly Supervised Learning》中,将弱监督详细分为不完全监督(Incomplete supervision)、不确切监督(Inexact supervision)、不准确监督(Inaccurate supervision)。
- incomplete supervision:只有一部分子集给出标签;
- inexact supervision:训练集样本只给出大概的标签;
- inaccurate supervision:训练集样本不一定可信。
对于这三种典型的弱监督学习,我们可以考虑使用不同的技术去进行改善和解决。
为了解决不完全监督,我们可以考虑两种主要技术,主动学习和半监督学习。前者是有人类干预的,后者是没有人类干预的。
为了解决不确切监督,我们可以考虑多实例学习。
为了解决不精确监督,我们考虑带噪学习。
下面对以上进行介绍。
主动学习
首先为了解决不完全监督,我们考虑主动学习(Active learning),这个方法是训练过程中有人工干预的。由以上图,输入的是一些标注过的数据和没有标注过的数据,首先,我们先训练这些标注过的数据,然后根据得到的经验对这些没有标注过的数据进行聚类。在这些未标记数据中,主动学习尝试选择最有价值的未标记实例进行查询。主动学习的目标是最小化查询的数量。
2019年CVPR有一篇主动学习的相关论文,叫《Large-scale interactive object segmentation with human annotators》(如下图)。
由于手动注释对象分割掩码非常耗时,所以这篇论文考虑交互式对象分割方法,其中人类注释器和机器分割模型协作完成分割任务。
半监督学习
接下来我们看看解决不完全监督的第二种技术,半监督学习(Semi-supervised learning),这种方法没有人类干预。
以上图举例,如果我们已知一个数据是positive,另一个数据是negative,在两个数据点正中间有一个test data,此时我们是很难去判断这个test data到底是positive 还是negative的。但是如果我们被允许去观察一些未被标注的数据分布(右边部分的灰点),这时我们还是可以较肯定的认为test data是positive。
多实例学习
为了解决不确切监督,我们可以考虑多实例学习(Multi-instance learning)。
实际上,几乎所有监督学习算法都有其多实例对等体。
训练数据集中每一个数据看做一个包(Bag),每个包由多个实例(Instance)构成,每个包有一个可见的标签,在上图例子中,假设这个包大小为8*8,如果我们用size为2*2的图片包生成器(Image bag generators)去获得实例,那么我们可以得到16个实例(Instance)。显而易见,我们这个包是有标签的(左图),老虎,而包中的每个实例是没有标签的(右图)。
多实例学习假设每一个正包必须存在至少一个关键实例。这意味着,假设这个例子中关键实例是示例9,那么这个包的标签为正(positive)。多实例学习的过程就是通过模型对包及其包含的多个实例进行分析预测得出包的标签。
带噪学习
最后,解决不精确监督,我们可以考虑带噪学习(Learning with label noise)。
在实践中,基本的思想是识别潜在的误分类样本,然后尝试进行修正。例如,我们用数据编辑的方法去构建一个关系相邻表。然后我们判断一个点是否为可疑点。我们判断这个点和相邻的点是否一样。如果一样,那这个点就不是可疑的,将保持原样。如果这个点和相邻的点不一样,那么这个点是可疑的,这个点将被删除或者被重新标记。
Snorkel 框架介绍
Snorkel 是一种快速产出训练数据的弱监督系统,利用标签函数,可以快速产生、管理、建模训练数据。在Snorkel中,不需要使用手工标记的训练数据,而是要求用户编写标记函数 ( LF ),即用于标记未标记数据子集的黑盒代码片段。
研究人员可以使用一组这样的标注函数来为机器学习模型标注训练数据。由于标记函数只是任意的代码片段,所以它们可以对任意信号进行编码:模式、启发式、外部数据资源、来自众包人员的带噪声的标签、弱分类器等等。还可以获得标注函数作为代码所特有的优点,比如模块化、可重用性和可调试性。例如,如果建模目标发生了变化,可以调整标注函数来快速适应这种变化。
参考
浅谈弱监督学习(Weakly Supervised Learning) - 知乎
干货 | 弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践_携程技术的博客-CSDN博客
(1条消息) 弱监督学习——A brief introduction to weakly supervised learning_shaoyue1234的博客-CSDN博客_弱监督学习
关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning相关推荐
- A brief introduction to weakly supervised learning(简要介绍弱监督学习)
文章转载自http://www.cnblogs.com/ariel-dreamland/p/8566348.html A brief introduction to weakly supervised ...
- 弱监督学习 weakly supervised learning 笔记
周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言 在机器学习领域,学习任务可以划分为监督学习.非监督学习.通常,两者都需要从 ...
- 多示例学习(Multi Instance Learning)和 弱监督学习(Weakly Supervised Learning)
目录 弱监督: 多示例学习: 弱监督: 1. 弱在缺标签:标签是不完全的,有的有标签,有的无标签 2. 弱在标签不准确:有的标签正确,有的标签错误 3. 弱在标签不精准: 标签不是在样本上,而是在更高 ...
- 南京大学周志华教授综述论文:弱监督学习
点击上方"磐创AI",选择"置顶公众号" 精品文章,第一时间送达 来源:NSR 转载自:机器之心,未经允许不得二次转载 在<国家科学评论>(Nati ...
- 独家 | 2019 ICCV 收录论文:基于弱监督学习的病理影像分析框架
论文传送门 ▼ 扫描下方二维码,或点击文末"阅读原文" 基于弱监督学习的病理影像分析框架 一.研究背景 恶性肿瘤是全球第二大死因,每年导致近千万人死亡.病理报告是肿瘤临床诊断和治疗 ...
- 自监督学习、半监督学习、弱监督学习
一.自监督学习 总结来说:就算利用没有标签的数据,训练模型的提取特征的能力,相当于对模型进行预训练,详细解释可以参考文章:自监督学习 二.弱监督学习 1.三种类别:不完全监督(Incomplete s ...
- 挑战弱监督学习的三大热门问题 AutoWSL2019挑战赛正式开赛
AutoWSL2019作为11月17-19日亚洲机器学习大会(ACML)主会议竞赛单元之一,由第四范式.ChaLearn.RIKEN和微软联合举办,其中竞赛分享和颁奖将与大会WSL-Workshop共 ...
- 挑战弱监督学习的三大热门问题,AutoWSL2019挑战赛正式开赛
AutoWSL2019 作为 11 月 17-19 日亚洲机器学习大会(ACML)主会议竞赛单元之一,由第四范式.ChaLearn.RIKEN 和微软联合举办,其中竞赛分享和颁奖将与大会 WSL-Wo ...
- 卷积神经网络超详细介绍
文章目录 1.卷积神经网络的概念 2. 发展过程 3.如何利用CNN实现图像识别的任务 4.CNN的特征 5.CNN的求解 6.卷积神经网络注意事项 7.CNN发展综合介绍 8.LeNet-5结构分析 ...
最新文章
- 机器学习实战源码数据集
- 一步一步学Linq to sql(一):预备知识
- “五心”知“五感”,平安打造有温度的智慧城市
- spring bean配置_在运行时交换出Spring Bean配置
- ant-build.xml打包报错解决方法
- 高阶函数 / abs方法
- Windows Server定时执行bat
- LINUX系统下跑分测试脚本:unixbench.sh
- retrofit+rxjava+mvp网络请求数据
- ce变速注入dll失败_调用CE变速DLL注入的软件含HOOK模块
- Docker关闭容器命令(docker stop)
- 2022西藏最新消防设施操作员模拟考试试题题库及答案
- select update delete
- 【洛谷】P2689 东南西北 c++
- 用PPT做的微信红包封面还可以这么玩?
- Explain执行计划key_len详解
- 阿里云产品推荐——轻量应用服务器
- 最贵服务器多少钱_买一台服务器需要多少钱?
- Android中使用通知
- poj 2245 lotto