0. 写在前面

这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。

1. 众包

众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的。细想起来,我对外包(outsourcing)这个词更加熟悉。

其实众包就是大家一起外包,把部分工作交给一批人去做,这就是众包。准确来说,“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出,它的描述正是一种基于网络的商业模式:公司或组织公开地把自己遇到的问题发布到一个分布式公共网络中,使得来自网络的各个个体可以协作地解决问题。

而这篇文章里,主要提到的是众包数据标注,这其实是非常必要的,尤其是对于大量数据的标注,单靠研究人员是很难标注完成的。

2. 众包标注的困难

众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:
1. 标注者的复杂程度
由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
2. 评价困难
标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。
3. 标注稀疏性
如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。

3. 标注整合基本模型

整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。这里我们给出2类模型。

第一类是多数投票模型,这种整合我们最熟悉,无论是在什么领域,多数表决都是一种高效而又简单的决策方法。但是这个表决法太过简单,以至于正确的标注很容易被噪声所掩盖。

第二类是混淆矩阵模型,这也是非常常见的整合模型,下面是一个混淆矩阵示例:

下观察值右真实值 水果 蔬菜
水果 0.4 0.1
蔬菜 0.2 0.3

也就是说,把预测对的值和预测错的值都给出,这样才称为是混淆矩阵。混淆矩阵比多数投票法要进步的多,但是仍然有一些缺陷。首先它对于标注者出错的来源有了一个初步的假设,并且通过概率的方法给出了一个较为严谨的问题表述,最终还提出了通过期望最大化算法求解问题的方法,总的来说是一套比较完整的思路。

但是它仍然存在两个问题:
1. 它对于正确的估量值更多的依赖跟它同出现的其他种情况。例如,对于黄色标注时,给他红色或者绿色作为对比时,其变化趋势是不同的。
2. 这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每个数据都可能有不同的要素来组成,因此标注者再给出标注时,对其产生影响的内容可能来自于多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。

不过最近也有人提出了新的模型,例如Raykar是将训练分类器与标注整合相对模型,而zhou则使用基于最小最大化熵学习的整合模型,还有的提出了针对特定假设的模型。

4. 分类标注中的隐类别结构

所谓的隐类别,就是没有被标注的类别,就像是给出一个图片,我们去标注是水果还是蔬菜的时候,实际上也是包含了像香蕉-水果,黄瓜-蔬菜这种隐含的二级分类。但是对于这些二级分类,我们之前的方法并不能给出一个很好的描述,例如番茄,有的人认为是水果,有的人认为是蔬菜。而像南瓜这种,更多的人会被认为是蔬菜,因此这些隐含变量对于标注的结果也有相当大的影响。

因此,我们就对于这种未知的问题,提出两条新的假设:
1. 数据集中每一个项目属于一个特定的隐类别。
2. 每个隐类别属于一个特定的标注类别。

众包数据标注中的隐类别分析相关推荐

  1. 【NLP】NER数据标注中的标签一致性验证

    最近看到一篇论文,是探讨关于NER数据标注中标签一致性问题的. 数据标注在建立基准和确保使用正确的信息来学习NER模型方面起着至关重要的作用.要想获得准确的标签,不仅需要时间还需要专业知识.然而标签错 ...

  2. AI发电厂——数据标注公司(国内数据标注公司服务调研)

    众所周知,深度学习需要大量的标记数据和高效的运算来做支撑. 计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已. 应用时代而生的就是一大批数据众包 ...

  3. 2022-2028年中国数据标注行业市场前瞻与投资战略规划分析报告

    [报告类型]产业研究 [报告价格]¥4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国数据标注行业市场行业相关概述.中国数据 ...

  4. 全球与中国数据标注软件市场深度研究分析报告

    [报告篇幅]:101 [报告图表数]:133 [报告出版时间]:2022年1月 报告摘要 本文研究全球及中国市场数据标注软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中 ...

  5. Deep Learning Applied to Steganalysis of Digital Images: A Systematic Review 深度学习在数字图像隐写分析中的应用:系统综述

    Deep Learning Applied to Steganalysis of Digital Images: A Systematic Review (深度学习在数字图像隐写分析中的应用:系统综述 ...

  6. 我猜,你还不知道数据标注公司在做什么吧?

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源:觉醒向量 大多数AI实验室.初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临 ...

  7. bp神经网络分类器c语言,基于BP神经网络的隐写分析分类器设计

    [ 摘 要 ] 设计并实现了基于BP神经网络的隐写分析分类器.首先对图像库中的图像进行格式变换,并使用扩展修改方向和钻石编码两种隐写方法进行不同嵌入率的隐写嵌入,然后计算载体图像和载密图像中平面域.D ...

  8. 击碎数据标注五大误解,这门生意真不是你想象的“富士康” | 钛媒体深度

    关注ITValue,看企业级最新鲜.最价值报道! ▎"数据标注师是最后一批被AI取代的群体,因为总有些工作需要人来做." "我觉得标注行业一直在承受误解,特别是在被贴上人 ...

  9. 人工智能数据标注都有哪些类型

    人工智能数据标注都有哪些类型 人工智能数据标注指的是,将非结构化数据转换成电脑可以识别理解的结构化数据. 例如,将下图中的车识别出来,人看到车的外轮廓是: 但是需要让电脑去识别认知这个图中的车,电脑需 ...

最新文章

  1. php ajax session失效,PHP中解决ajax请求session过期退出登录问题
  2. 13、SpringBoot-CRUD员工修改操作/删除
  3. 节点插入--对比jQuery和JavaScript方法(一)
  4. 预编码 matlab,无线通信-预编码-MATLAB代码合集
  5. CodeForces - 1058A. In Search of an Easy Problem
  6. 2020最新Java面试题大全,赶紧收藏吧!
  7. Acwing 277. 饼干
  8. 操作系统中的死锁_操作系统中的死锁介绍
  9. mysql 批量建表_mysql 如何实现循环批量插入?
  10. 实例解析网络编程中的另类内存泄漏
  11. 进程管理 systemctl控制
  12. 【Network In Network】Global Average Pooling(GAP)的由来
  13. [AaronYang]C#人爱学不学[2]
  14. 【非参数统计01】非参数统计基本概念:假设检验,经验分布,ARE,分位数,秩检验,U统计量
  15. 48 页小米用户画像实战PPT
  16. graphpad prism图标设置_科研绘图软件-Graphpad prism使用教程(六)
  17. 测试opencl软件,我该如何测试OpenCL的可兼容性?
  18. k近邻算法的原理、示例与分析
  19. 计算机计算累计公式,““请问Excel表格求的合计数为什么和用计算器累加出的合计数不一致...
  20. C语言位运算-实现Photoshop反向功能

热门文章

  1. Docker思维导图汇总
  2. Unity实用小工具或脚本——录屏工具
  3. Vue3轮播图插件 vue-splide
  4. 内网、外网、内网穿透、端口映射、IPV4、IPV6场景探讨
  5. AcWing 861. 二分图的最大匹配
  6. 利用python编写手机脚本
  7. 2021-05-26wms系统的出库单价是这样自动生成的?
  8. 川教版初中一年级计算机教案,川教版信息技术教案六年级下册.doc
  9. 简谱播放器(初学WINDOW库)
  10. 使用 better-scroll 实现纵向横向双向滚动并设置吸顶