本文为亚利桑那州立大学在读计算机博士生周耀的2018年独家投稿,他给大家介绍了一个基于机器教学为基础的自适应交互型众包教学框架——JEDI ,它假设每个 learner 都有指数型的记忆遗忘曲线,并且能够保证教学的有效性,多样性,以及教学样本的质量。作者的原论文(http://cn.arxiv.org/abs/1804.06481)入选了2018的 KDD 会议。以下为投稿全文。

在很多机器学习的问题中,一个模型的表现往往取决于标注数据集的数据规模和标注质量。很多的监督式机器学习(supervised learning)模型,尤其是深度学习,都需要大量的标注数据来进行模型训练。比如说,ImageNet 是一个广为人知的用于计算机视觉领域的图像识别,物体检测,物体定位的数据集,里面包含了 1400 万张有人工标注和分类的图片。然而,很多的研究者都比较关注如何能够有效的使用这些数据进行模型设计和改良,却只有比较少的研究在跟进如何更有效的获得这些高质量的大规模标注数据。目前互联网存在的,人为标注的大规模数据集通常都会使用众包(crowdsourcing)技术来进行标注。

图 1:深度学习和 ImageNet

相比较于外包数据集给专业公司做标注,众包标注的优势有以下几点:

价格低廉。很多非职业的标注者(worker)愿意以较低的报酬在一些平台上,比如说 AMT(Amazon Mechanical Turk),帮助科研工作者或者公司来标注数据。

标注周期短。因为对于标注质量的要求并不是很严格,放置在众包平台的数据往往可以在短期内得到标注。

标注数量大。在众包的标注平台上,一般每个数据(item)都会得到多个标注者的标注,因此每一个数据都会得到大量的冗余标签。

图 2:众包标注的平台

图 2 和图 3 是一个典型的众包标注的例子:目标是让 worker 把图片的类型标注为两类:驯化的猫,野生的猫。如果 AMT 给出了图 2 中的 item,大多数的 worker 都可以很容易的给出正确的标签。
图 3:众包平台的标注者标注一个简单的家猫图片

然而,很多时候,图片标注也需要一些专业知识。图 4 中的猫,对与一些 worker 来讲,就不是很好辨别这只猫是驯化过的还是野生的。比如说,和动物打交道比较多的 worker 就可以相对容易的解决这个标注问题,但是一个不太有经验的小女孩就可能给出错误的标签。因此,对于一个特定的标注问题,worker 和 worker 之间有着标注能力的差异,这种差异也会在标注的时候在他们给出的标签上体现出来。这种差异往往会对众包标签融合的算法带来一些挑战。
图 4:众包平台的标注者标注一个比较难的家猫图片

目前,比较成熟的众包标签融合的算法主要有两类方法:

第一类方法主要是用收集的众包标签对 worker 的标注能力进行估计,然后在标签融合的过程中加大优秀 worker 的权重并且降低较差 worker 的权重。

第二类方法一般是通过设计更好的激励机制(incentive mechanism)来引导 worker 提供更优质的 label。

然而,现在常用的方法都忽略了一个很重要的事实,那就是:相比于机器,人类是非常擅长学习一个新的概念(concept),而且可以很容易的将所学的概念很好的泛化并且转移到相似的问题中。图 5 中,人类可以通过看一些插画展示从而学会如何正确标注家猫和野猫的图片。因此,一个更有效的使用众包标注的方式其实应该是在监督 worker 标注的同时对他们进行教学(teach)。

图 5:人类的学习和泛化迁移能力

基于机器教学的众包教学框架——JEDI

为了充分利用 worker 的学习能力,我们提出了一个基于机器教学(machine teaching)的众包教学框架 JEDI。首先,我们会先介绍什么是机器教学?机器教学其实是机器学习的反过程。如图 6 所示,如果给予一个数据集和一个算法(e.g. SVM, Logistic Regression),机器学习的目标是在模型空间(model space)里学习一个概念(concept)。然后,对于机器教学,目标概念(target concept)和算法是已知的,最终的目标是找到最优的数据集。关于数据集最优的定义可以很多元化,e.g. 数据集规模最小,学习速度最快,等等。

图 6:机器学习和机器教学

我们提出的 JEDI 众包教学实际上是 adJustable Exponentially Decayed memory Interactive Crowd Teaching 的缩写,JEDI 的特点是:

自适应教学,每个 worker/learner 的教学过程都是不同的。

记忆遗忘,每个 worker/learner 都会在学习的过程中逐渐遗忘过往所学。

指数衰减,记忆遗忘的曲线是呈指数衰减的。

交互教学,worker/learner 和 teacher 是有多次交互的。

关与交互教学,图 7 是一个简单的例子:

图 7:交互式教学

如图 8 所示,JEDI 的每一轮教学(这里假设是第 t 轮)包括以下三个步骤:

Teacher 估计 learner 的学习进度,根据 learner 之前的标注反馈得到上一次的学习概念,然后 teacher 向 learner 推荐一个新的样本进行教学。

Teacher 向 learner 展示教学样本(隐藏样本真实标签),要求 learner 提供他自己对当前样本的标注标签。

Teacher 展示样本真实标签,learner 辨识样本真实标签,并结合样本本身进行概念学习。

图 8:JEDI 的交互式教学示意图

学生(learner)模型:

-每一个 learner 的学习过程都假设遵循梯度下降的规律:

-我们进一步假设每一个 learner 对于学过的 concepts 的可收回度(retrievability)呈指数型递减:

老师(teacher)模型:

-Teacher 的目标是通过教学减少 learner 学到的当前概念(current concept)和目标概念之间的差异,所以教学的目标方程是:

-这个目标方程可以被分解,具体细节请参考论文:

-如果我们将预测错误的概率简写为如下表达,总体的教学目标可以进一步简化为:

JEDI 模型的具体运作
JEDI 模型理解:

-教学有效性(usefulness)和教学多样性(diversity)的平衡(tradeoff):JEDI 的目标函数经过简化,优化问题的目标函数会包括有效性和多样性两部分组成。直观的来讲,这个平衡意味着 JEDI 可以通过最大化下一个教学样本的有效性和最大化教学样本之间的多样性从而引导 learner 向着目标概念的方向学习。

图 9:教学有效性和多样性的平衡

-探索(exploration)和利用(exploitation)的选择:如图 10 所示,如果 teacher 选择的下一个教学样本 xt 和上一个教学样本 xt-1 有标签相同,我们称之为利用(exploitation);如果 teacher 选择的下一个教学样本 xt 和上一个教学样本 xt-1 有标签不同,我们称之为探索(exploration)。

图 10:教学中的探索和利用

-教学样本的质量:如果上一个教学样本 xt-1 是一个有效性(usefulness)比较低的样本,JEDI 众包教学可以保证下一个教学样本 xt 具有以下特性:

在 exploitation 的教学场景下,teacher 会推荐跟 xt-1 特征非常不同的教学样本 xt。因为 xt-1 的有效性比较低,同一个类型(class)的但是特征(feature)非常不同的样本可能会有比较高的教学有效性。

在 exploration 的教学场景下,teacher 会会推荐跟 xt-1 特征非常接近的教学样本 xt。因为不同类型(class)的但是特征(feature)非常接近的样本可能会有比较有代表性,从而有较高的教学有效性。

图 11:JEDI 教学的教学样本

真实场景的教学:

-JEDI 教学在现实场景中是无法直接估计 learner 学到的当前概念 wt 的,因此我们在 JEDI 里使用原目标函数的下限来解决这个优化问题:

-JEDI 教学也需要样本的预测为正类的概率和预测为负类的概率作为输入,这两个参量也不是直接给予的,我们使用 harmonic function 来对他们进行估计:

总结:

JEDI 是一个基于机器教学为基础的自适应交互型众包教学框架,它假设每个 learner 都有指数型的记忆遗忘曲线,并且能够保证教学的有效性,多样性,以及教学样本的质量。

具体信息请参考我们的论文:

http://www.public.asu.edu/~yzhou174/

源代码:

https://github.com/collwe/JEDI-Crowd-Teaching

demo 展示:

http://198.11.228.162:9000/memory/index/

视频讲解:

https://www.youtube.com/watch?v=345o0QazwO8&t=4s

本文转载自:AI科技评论

更多数据:https://www.datatang.com/

如何有效的获得高质量的大规模标注数据?相关推荐

  1. 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

    今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...

  2. 如何设计问卷,才能收集到高质量的客户体验数据?

    1997年的初夏,农夫山泉董事长钟睒晱(shǎn)眉头紧锁地坐在办公桌前,他要为公司即将推出的农夫山泉矿泉水选一句主广告语,但无法在"农夫山泉有点甜"."好水喝出健康来& ...

  3. 如何进行高质量的图像标注

    首先,来看下PASCAL VOC标注规则 然后,分享一个标注博客: 在算力满足要求的前提下,模型效果会随着素材数量的增多而变好,理论上没有上限.实践证明,在普通基于深度学习的应用开发过程中,素材的数量 ...

  4. [数据集][VOC]高质量的目标检测数据集合集(持续更新)

    [1][数据集名称]数据集VOC正版消防灭火器数据集VOC格式-5156张 [数据集信息]数据集格式:Pascal VOC格式(仅包含jpg图片和对应的xml) 图数量(jpg文件个数 xml文件个数 ...

  5. 企业进行高质量数据管理,实施数据治理的关键是什么?

    随着数据通过各种方式创造了巨大价值,各领域的企业开始不断挖掘数据的作用,数据的重要性得到了社会各界的共同认可.像我们熟知的数据治理.数据管理.数据标准以及数据资产都是因为数据地位不断提升,企业开始重视 ...

  6. AI时代的幕后英雄:谁在生产高质量的AI训练数据?

    在AI浪潮的推动下,软件正在朝着更「智能」的方向发展.2017年,特斯拉人工智能部门主管.李飞飞高徒Andrej Karpathy提出了「软件2.0」的概念. 什么是「软件2.0」?其实就是神经网络. ...

  7. 数据仓库笔记(高质量建模)02——数据规范

    数据规范前,需注意: 1.列出实体:名词(表): 2.勾勒出关系:动词: 3.尽量消除多对多关系: 4.列出所有属性(列): 5.数据规范需满足:1NF >2NF >3NF >BC ...

  8. ChatGPT爆火出圈,高质量文本标注数据成关键

    "2022年11月30日,OpenAI发布了ChatGPT--一个对话式AI,上线仅五天,注册用户数突破100万,爆火出圈,成为社会热议话题.截止今年1月末,ChatGPT的月活用户数量破亿 ...

  9. 证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023...

    转载自 微软亚洲研究院 量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果.例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他" ...

  10. 以“新基建”助推经济高质量发展

    前不久,中共中央政治局常务委员会召开会议强调,要加大公共卫生服务.应急物资保障领域投入,加快5G网络.数据中心等新型基础设施建设进度.今年的<政府工作报告>再次对加强新型基础设施建设作出重 ...

最新文章

  1. openstack-Mitaka Glance上传镜像报错
  2. tp5 if 如果有html判断,tp5条件判断,in,notin,between,if等
  3. idam oracle_oracle错误代码大全(超详细)
  4. 使用DPM 2010备份还原Exchange2010单个邮箱
  5. VMware Workstation 8正式版下载+密钥序列号
  6. php cdi_集成CDI和WebSockets
  7. mybatis依赖_这大概就是公司一直用Mybatis的原因!真的太强了
  8. Real-time HTML Editor (实时网页编辑器)
  9. SpringMVC→简介、MVC、SpringMVC工作原理、Maven搭建第一个SpringMVC、请求参数接收、重定向、文件上传、AJAX异步访问、请求参数接收绑定JSON、@注解及传参
  10. 具有动态效果的响应式设计
  11. [PeterDLax著泛函分析习题参考解答]第4章 Hahn-Bananch 定理的应用
  12. 江苏2021168查询高考成绩,重磅!高考成绩查询!!
  13. js里获取表单输入值进行比对的方法
  14. 京东架构专家分享京东架构之路
  15. sublime text里面中文字体显示异常解决方案
  16. 基于Elastic Search的搜索广告召回方案
  17. AWS 云上安全最佳实践
  18. Python多线程编程详解,文章比较长,需耐心浏览
  19. oracle12c 删除磁盘组,12C RAC重装无法识别磁盘组(AFD新特性)
  20. 微信网页授权:网页版(一)

热门文章

  1. 电脑电源问题,导致攒机电脑无法开机
  2. Git基础-生成SSH密钥+配置密钥到远程仓库中
  3. 通达OA流程中心触发器使用实例
  4. 马云选择了西雅图模式,你家公司选硅谷还是西雅图?
  5. 请把西游记倒过来看!
  6. [宝塔]配置ssl证书,提示错误:证书错误,请粘贴正确的PEM格式证书
  7. 网络广告计费形式有那些?
  8. 卡内基梅隆大学计算机科学博士,美国卡内基梅隆大学博士需要几年
  9. outlook设置263邮件服务器,Outlook 2010中263邮箱客户端设置
  10. 荒野行动pc版显示连接不到服务器,荒野行动PC版连接不上服务器怎么办 进不去游戏...