整个世界正充斥着各种各样的数据,仅仅在2018年,就产生了超过30ZB的数据。

任何一个AI项目中,对专业人员来说,数据的好坏都是一个非常关键的部分。

有时候,我们项目所需要的数据根本就不存在,另外一些时候,这些数据是存在的,但是我们无法获取 — 比如被竞争对手所垄断。当然,还有时候,我们可以获取到数据,但是这些数据却不能直接拿来被我们使用,本文就讨论在这种情况下我们该如何处理。

什么是数据标注?

现如今,大量的数据并不少见,但若你想拿他们来训练Machine Learning和Deep Learning的model,就需要对这些数据进行处理,让他们可以被用来部署,训练和调试对应的Model。Machine Learning和Deep Learning的Model需要大量的被仔细标注过的数据进行训练。而这个对原始数据进行处理和准备的过程我们就称之为数据的标注(Labeling)或者数据注解(Annotation)。AI分析公司Cognilytica的数据显示,对数据相关的处理消耗了整个AI项目的超过80%的时间(如图红色数字所示):

如何进行数据的标注?

一个公司或组织所拥有的数据大部分都是没有被标注的,而标注数据是AI工作或者项目的基础。

标注数据:为特定model进行数据的标注和注解,以便这些数据可以被用来预测。通俗地讲,数据标注包括数据的标志,注释,调节(moderation),分类,抄写和加工。

被标注的数据可以突出相关的特性并且可以根据不同的特征进行分类–可以用来被model分析模式并预测新的目标。比如自动驾驶中使用的计算机视觉,专业人员可以用专门的视频标注工具来显示街道路标,行人的位置以及其他的车辆,并用这些信息来训练相应的Model。

数据标注包括以下的部分:

  1. 使用工具加强数据
  2. 品质保证
  3. 处理迭代
  4. 管理数据标签
  5. 训练新的数据标签
  6. 项目的计划
  7. 成功的衡量
  8. 流程的操作化

数据标注的挑战

在一个典型的AI项目中,专业人员可能会遇到下面这些挑战:

  1. 低质量的数据标注:低质量的数据标注可能是由五花八门的原因导致的。而其中最显著的原因之一就是任何组织和流程背后都存在的三大要素:人,流程以及技术。
  2. 不能够大规模地进行数据的标注:当数据量很大或者商业、项目的体量变大之后,规模化的数据标注就显得尤为重要。因为很多组织都是内部人员进行数据标注的,他们也经常会遇到数据标注规模化的问题。
  3. 难以忍受的成本或者得不到想要的结果:通常一些公司或者AI的项目经理要么会雇佣高薪的数据科学家和专业人员来处理数据标注,要么会雇佣一批业余人员来做这件事。然后这两者都会产生意想不到的问题。前者因为他们的薪水很高,所以带来的成本就会很大。后者则会因为业余人员的标注不能很好的满足数据训练的要求。如何在这两者之间找到一个平衡将会特别重要。

谁可以标注数据?

训练一个machining learning的model需要大量的标注的数据。更为重要的是这些数据通常都是由人工进行标注的。有调查显示:2019年,公司在数据标注上的花费查过17亿美元。而预计到2024年这个数据可能会到41亿美元。这样的预测昭示着数据标注将会是一个很有前途的职业。Cognilytica认为数据标注并不需要对相应的领域特别精通。当然,也有很多AI专家说有相关领域的工作经验是非常重要的。这也就意味着即使业余的同学经过相应的培训也是可以胜任这一工作的。

切记:训练一个machining learning的model需要大量的标注的数据。而这些数据通常都是由人工进行标注的。

当前的趋势:各个公司都是如何进行数据标注的?

大的公司经常使用内部人员来进行数据标注。而没有足够资源的工作则会把这一工作外包出去。

MBH(莫比嗨客)就是一个中国很大的数据标注外包公司。

亚马逊有一个服务称之为土耳其机器人(Mechanical Turk)它可以帮助中小型工资联系人工标注,按劳付费。

公司使用软件,人工以及相关的流程来清洗和组织数据。总的来说他们有四种方式来开发:

  1. 雇佣:包括雇佣全职或者兼职的人员(包括专业人员)来处理AI项目的方方面面,当然也包括数据标注。
  2. 管理的团队:他们是有经验的并且培训过的专门从事数据标注工作的人员。
  3. 合同工:包括自有职业者和临时工。
  4. 众包:最后,公司也可能选择一个大的第三方平台来满足大的人员的需求。

因此,最后你觉得哪一种方式是你喜欢的呢?使用内部人员还是外包给一个专业的代理?

原文地址:

http://donggeitnote.com/2020/06/28/ai%e4%b8%ad%e6%95%b0%e6%8d%ae%e6%a0%87%e6%b3%a8%ef%bc%88labeling%ef%bc%89%e7%9a%84%e4%bb%8b%e7%bb%8d/

更多原创,敬请关注微信公众号,每日更新业界最新资讯:

欢迎访问个人小站: www.donggeitnote.com

AI中数据标注(Labeling)的介绍相关推荐

  1. AI发电厂——数据标注公司(国内数据标注公司服务调研)

    众所周知,深度学习需要大量的标记数据和高效的运算来做支撑. 计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已. 应用时代而生的就是一大批数据众包 ...

  2. 论文研究 | 图像分割中数据标注方法

    随着人工智能领域的探索不断深入,高铁和城市交通逐渐走向智能化,越来越多的图像识别算法应用在辅助导航.自动驾驶上.在实际场景中,高铁在行驶过程中会面临一些极端情况,例如泥石流灾害.轨道脱轨等,对于这些极 ...

  3. AI人工智能—数据标注的主要类型和标注注意事项

    数据标注作为人工智能发展道路上的基石,是人工智能发展的重要环节.数据标注的过程是通过人工贴标签的方式,为机器提供可学习的样本数据,最终使机器可以自主识别数据.在深度学习模型的测试过程中,高质量的数据标 ...

  4. 免费AI数据标注工具-音频标注软件

    最近疫情比较严重,大家有没有发现有一个AI应用有点起死回生的感觉了,当然不是图片识别的应用场景了,例如口罩识别.无接触体温检测等等已经火爆的一塌糊涂了,如果有对口罩遮挡识别的小伙伴可以看我的另一篇文章 ...

  5. 中国数据标注公司排名前十强有哪些?

    随着人工智能在各行业快速落地,带动了数据标注行业飞速发展.数据标注公司是协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题,标注业务版块主要可以分为图像标注.语音标注.文本标注.3D点云标 ...

  6. 击碎数据标注五大误解,这门生意真不是你想象的“富士康” | 钛媒体深度

    关注ITValue,看企业级最新鲜.最价值报道! ▎"数据标注师是最后一批被AI取代的群体,因为总有些工作需要人来做." "我觉得标注行业一直在承受误解,特别是在被贴上人 ...

  7. 全球与中国数据标注软件市场深度研究分析报告

    [报告篇幅]:101 [报告图表数]:133 [报告出版时间]:2022年1月 报告摘要 本文研究全球及中国市场数据标注软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中 ...

  8. 从数据标注角度看自动驾驶,到底是谁在误导消费者?

    写本文初衷主要是从自动驾驶数据原理的角度让作为普通消费的小伙伴们能理解自动驾驶目前的发展现状,并警示喜欢有自动驾驶功能汽车的小伙伴在实际生活中一定要慎重使用. 自动驾驶最近几年一直特别火,公交.大货. ...

  9. 什么是数据标注? 数据标注公司主要做什么?

    一.什么是数据标注? 1.数据标注定义 数据标注是对未经处理的语音.图片.文本.视频等数据进行加工处理, 并转换为机器可识别信息的过程.原始数据一般通过数据采集获得, 随后的数据标注相当于对数据进行加 ...

最新文章

  1. ue4 4.24启动无响应_UE4项目问题集合
  2. 四次面试:程序员越来越悲催了
  3. [EULAR文摘] 在总人群中监测ACPA能否预测早期关节炎
  4. python有哪些常用的package_个人Python常用Package及其安装
  5. java c 转换_Java怎么转换c语言?
  6. linux下apache+openssl配置记录
  7. 2015 年最流行的 10 个 Linux 发行版
  8. 2022 最新分布式面试题合集,轻松应对 Java 面试
  9. matlab函数句柄介绍
  10. 佳能Canon MF4700 一体机驱动
  11. goldenDict有道地址
  12. 不用 IDE,仅用命令行 + SDK 开发 Android App
  13. STM32复习笔记(五) —— GPIO锁定机制
  14. PDF转长图片怎么转?不妨试试这个方法
  15. 分享 | 日置3561电池测试仪调零/自校准详解教程
  16. linux结束驱动程序,在linux上安装FTDI设备驱动程序[关闭]
  17. 如何评职称出书注意事项
  18. 智能可穿戴设备继续火 接入大数据帮你“管”身体
  19. 定义一个抽象类一水果,创建若干水果对象存放在-一个水果类型的数组中,输出数组中所有水果的类型、重量
  20. 【设计模式】我对设计模式的C语言解读(上)

热门文章

  1. 【C++】绘制一个登录窗口
  2. 163邮箱注册容量多大?外贸一般用什么邮箱,海外邮箱哪个好?
  3. bzoj 4755: [Jsoi2016]扭动的回文串 manachar+hash+二分
  4. 叮! Q币派送中,快来看看你中奖了吗?
  5. 华为Nova10Pro、小米12Pro和vivoS15Pro的区别 哪个好
  6. 计蒜客 41408 Texas hold‘em Poker 模拟
  7. 利用建造者(Builder)模式构建 Java 对象
  8. ESP8266(ESP-12F)+DS18B20+贝壳物联
  9. 泡沫?玩笑?PlusFo才是“复仇”利器
  10. 倍福--威伦触摸屏通信IP设置