“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”
目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。
近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。
这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。
机器学习必需数据标注
AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”
但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。
王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。
不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。
人工标注帮助AI快速落地
随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。
“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”
据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。
常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。
他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。
“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。
数据标注需求持续增加
“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。
因此,标注这项工作会一直存在。
但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”
目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。
据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。 
(原标题:数据标注师 人工智能背后的人工力量)

责任编辑:韩声江

有多少智能,就有多少人工?人工智能背后的数据标注师相关推荐

  1. “数据折叠”:今天,那些人工智能背后“标数据的人”正在回家

    "数据折叠":今天,那些人工智能背后"标数据的人"正在回家 | 甲子光年 原创 2018-02-15 咖啡猫 甲子光年 编辑:火柴Q 采访.撰文:咖啡猫 设计: ...

  2. 景联文科技:一文读懂火爆全网的AIGC和背后的数据标注技术!

    "在过去的几个月中,AIGC发展速度惊人,DALL-E.Midjourney和Stable Diffusion等技术的快速发展,创作出了许多由AI生成的艺术品.本文中,我们将为您阐述AIGC ...

  3. 人工智能时代,数据标注产业将迎来黄金时期?丨曼孚科技

    在AI科技爆发的年代,智能已逐渐遍布各大行业,随着愈来愈多的产品都被赋上"AI+"文化,人工智能发展的浪潮已成为各企业新的探索目标,人工智能必将在支柱产业中占据一席之位,而这一方向 ...

  4. 揭秘人工智能背后鲜为人知的人工力量——数据标注

    来源:帮尼资讯 部分参考来源:大数据文摘.点宽DigQuant 图片来源:网络 尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但"人工智障"的相关调侃也从来没有消失过. 相 ...

  5. 人工智能(AI)背后人工的力量——数据标注

    尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但"人工智障"的相关调侃也从来没有消失过. 相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些 ...

  6. 数据标注:光鲜背后的付出

    ** 新生代农民工:数据标注 ** 5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记. 但今天却想说一个关于人工智能"从未被讲出"的故事,写一群时 ...

  7. 机器越“智能”,数据标注员越容易被淘汰?丨曼孚科技

    有这样一类人,他们是AI行业的赋能者,是智能时代的奠基人,他们就是人工智能背后的"人工"--数据标注员. 数据标注员的职责是帮助机器习得"知识",或者换一种说法 ...

  8. 数据标注员是职位,人工智能训练师是职业

        标注猿的第62篇原创        一个用数据视角看AI世界的标注猿    前两篇文章发表之后,有很多小伙伴留言交流主要是针对两个问题的一个是数据标注行业是否还可以创业?我发了一篇文章统一回答 ...

  9. 米小爱团队负责人王刚:语音交互背后,有多少人工就有多少智能

    转自: https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79933707 整理 | Just,阿司匹林  出品 | AI科技大本营(公众 ...

最新文章

  1. 2021年大数据常用语言Scala(二十八):scala面向对象 MAVEN依赖和类
  2. 求得到一个字符串@“absdfasdfsdfdsafsd....”所有的排列
  3. npm构建脚本_NPM脚本简介
  4. BOM 浏览器对象模型和DOM 文档对象模型
  5. thinkphp执行流程
  6. python 删除文件某一行
  7. Call to undefined function Workerman\posix_getpid
  8. pytorch 笔记:gather 函数
  9. Mac中MacPorts安装和使用 MacPorts简介
  10. SAP Fiori footer的重写方式
  11. handler原子锁_Linux的原子操作与同步机制
  12. Python全栈开发:socket
  13. 在Nature、Science正刊等国际知名杂志发表论文,可直接申报正高级职称!
  14. 蒋步星:轻量级大数据计算引擎
  15. 【图解+全文】工信部关于印发“十四五”大数据产业发展规划的通知
  16. 方舟手游服务器能修改密码吗,明日方舟怎么改密码_明日方舟改密码方法详细解析一览[多图]...
  17. and5.1PowerManagerService深入分析(四)PMS与Display模块
  18. [整理]解析Json需要设置Mime
  19. Reinforcement Learning(001)
  20. 虚拟机如何做服务器系统,sap虚拟机作为服务器(sap系统虚拟机)

热门文章

  1. comparator 与comparable之间的关系 注意实现接口comparable<T>时候,T的取值为实现类的类型,眼高手低容易犯迷糊的地方提醒
  2. python解释器pypy
  3. CCF青年精英大会(YEF2021)即将召开
  4. 【深度】北大王奕森:对抗机器学习的鲁棒、隐私和架构
  5. Hinton最新演讲透露下一代神经网络模型的构想 | SIGIR 2020
  6. JVM是如何进行多线程并行编程的
  7. 你为什么“啃不动”你手中的技术书?
  8. 为什么要学习响应式设计
  9. 好评如潮的C#实战图书
  10. 国家发改委就数据基础制度征求意见 鼓励互联网企业开放公共属性数据