想给Google标数据,你得先拿到医师资格证才行。

在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。

工人正在标注数据河南省郏县睿金科技公司总部的工人正在标注数据
  据《纽约时报》的报道,龙猫数据数据标注正在带动渐渐成为最新的劳动密集型行业。

有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。

当然,狸花猫也是猫当然,狸花猫也是猫
  然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。

众包

在人工费用高昂的硅谷,工人的最低时薪约为13美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。

其中最有名的在线众包平台就是亚马逊旗下的AmazonMechanicalTurk了。

在MechanicalTurk上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。为了搞清楚 MechanicalTurk到底是怎么工作的,硅星人也注册了一个账号。

在 MechanicalTurk的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。

每个任务中包含若干个被称为HIT(人类智能任务,HumanIntelligenceTask)的小任务,标注员每完成一个小任务可以获得相应的报酬。

其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得1美分(约7分人民币)报酬。

而最贵的一个,是找一位中文母语者按要求录150句中文,可以获得6美元。而最贵的一个,是找一位中文母语者按要求录150句中文,可以获得6美元。

  除了这些简单易懂,点一下鼠标就能完成的任务,在 MechanicalTurk上还有更多高要求的标注工作。

比如,有一个任务要求标注者看10秒钟视频,并用一句话描述视频里的内容。在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。

而实现这么一个高要求的任务,发布者只需要付出0.3美元赏金。

建议家长拿这个玩意儿训练小朋友写英语短句建议家长拿这个玩意儿训练小朋友写英语短句
  尽管任务复杂报酬低廉,MechanicalTurk上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。

截至2011年1月,MechanicalTurk上的注册工人数量已经达到了50万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。

此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。

比如这种标出路牌的验证码比如这种标出路牌的验证码
  而其实, MechanicalTurk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。

1769年,初代 MechanicalTurk的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。然而直到1857年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。

而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?
  和专业人士合作

众包模式固然有种种优点,但它的缺点也是致命的。

当我向一位Google工程师朋友提起 MechanicalTurk的时候,他表示“我们不敢用 Turk标注”。

因为众包模式,通过 MechanicalTurk标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。尤其对于很多专业领域来说,普通人根本无法完成数据标注。

比如这种,你能告诉我哪个是有病变的吗?比如这种,你能告诉我哪个是有病变的吗?
  2017年,GoogleAI公布了一项突破性研究成果:通过机器学习技术,AI能够从病人的视网膜眼底照片中自动诊断出潜在的病变情况,来提前发现糖尿病性视网膜病变,进行及时的治疗和预防,让患者保住视力。

但想要教会AI什么是正常的眼底照片,什么是有潜在病变的眼底,这个过程并不容易。

为了获得高质量的标注图片,真正让AI的诊断水平达到执业医师的同等标准,Google与印度和美国的眼科医生合作,创建了含有12万张图像的开发数据集,再由3到7名眼科医生联合评估图片中的病变。

最终,共计54名医生从这些视网膜眼底照片素材中标记出超过88万个确诊症状。这些图片和标记全部被用来训练深度卷积神经网络,最终使得AI的诊断准确率逼近甚至超越了医生。

在GoogleBrain参与另一个与寿命预测相关的项目的工程师StevenZhan告诉我,他们的数据集标注工作基本无法众包,都是交给医生来完成的。

虽然在未来,AI很有可能发展到“自己教自己”这一步。但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。

而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。

皮尤研究中心预测,这种零碎的数据标注工作将在未来几年内成为美国经济的重要组成部分。在2016年,有大约5%的美国人通过 MechanicalTurk这样的在线标注平台赚钱——这个数量已经超过了优步司机。

在可见的未来里,人类还将继续为人工智能打工。

在中国如此,在美国也一样。

数据标注这份工作,不是你想做就能做相关推荐

  1. 数据标注:光鲜背后的付出

    ** 新生代农民工:数据标注 ** 5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记. 但今天却想说一个关于人工智能"从未被讲出"的故事,写一群时 ...

  2. 数据标注的作用及行业现状

    在之前的内容中讲过确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到"智能"的目的.而数据标注就是帮助机器去学习去认知数据中的特征.比如我们要让机器学习 ...

  3. 数据标注员:时代的一粒沙,落到每个人身上都是一座山丨曼孚科技

    ​深夜11点,赵明在提交最后一个数据包后,终于长舒了一口气. 作为一名普通的数据标注员,这是他一周以来第一次早于午夜12前点下班. 十几天以前,他所在的团队接到了一个"大项目":在 ...

  4. NLP文本标注工具与平台(数据标注公司)

    最近在做NLP相关项目,包括句法分析.情感分析等,有大量数据需要标注.我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 文本标注平台(标注外包公司) 数据标注公司的工作 ...

  5. 数据集标注工具_如何提高数据标注质量,提供精细化标注数据集?丨曼孚科技...

    监督学习下的深度学习算法训练十分依赖于标注数据,然而目前数据标注行业在精细化运营方面仍有诸多不足. 相关数据显示,当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI ...

  6. 数据标注基础知识:文本数据标注的类型及应用场景

    目录 一.文本数据标注的类型 二.文本数据标注的基本流程 三.文本数据标注应用场景 (1)新零售行业: (2)客服行业: (3)广告行业: (4)金融行业 自然语言处理是指用计算机对自然语言信息进行处 ...

  7. 机器越“智能”,数据标注员越容易被淘汰?丨曼孚科技

    有这样一类人,他们是AI行业的赋能者,是智能时代的奠基人,他们就是人工智能背后的"人工"--数据标注员. 数据标注员的职责是帮助机器习得"知识",或者换一种说法 ...

  8. 《新闻联播》报道百度山西数据标注基地 培育新业态打开新就业空间

    人工智能通过培育新业态创造出更多的新就业方式,正在为中国稳就业作出重要贡献. 7月26日,央视<新闻联播>--"培育新业态 打开就业新空间"报道,全国城镇调查失业率实现 ...

  9. 【标注小课堂】数据标注的价值不是数据标注

    各位小伙伴们开工大吉,假期总是飞快,第一个没有炮竹的新年总觉得差了点意思,不过绝对不影响对2021年的期待.个人认为2021年绝对是伟大的机遇年,所以祝愿小伙伴们今年都可以跟随国家发展的伟大契机快速发 ...

最新文章

  1. Linux配置SSH无密码登陆
  2. 语义SLAM开源代码汇总
  3. php中全局变量global和超全局变量$GLOBALS
  4. 【C 语言】字符串模型 ( strstr-do…while 模型 )
  5. long logn的大小c语言,基本排序(C语言版) - ________MX的个人页面 - OSCHINA - 中文开源技术交流社区...
  6. 终于收到HacktoberFest的奖品啦
  7. 【数据结构与算法】循环队列的Java实现
  8. mysql 主键外键sql_SQL外键VS主键说明了MySQL语法示例
  9. atom之插件安装及相关
  10. java 浅堆 深堆_【深入浅出-JVM】(57):深堆、浅堆
  11. vc html插件,VC++6.0插件系列(绝对经典)
  12. 两级运放积分器的带宽分析
  13. etoken显示连接服务器失败,etoken
  14. SSL证书7大常见错误及解决办法!
  15. iOS中Instrument的使用
  16. 学生用计算机exp,科学计算器EXP
  17. php 抓取弹幕,php实现斗鱼弹幕,一起来欣赏弹幕吧~
  18. DolphinScheduler PMC Chair 代立冬入选 2021 中国开源先锋 33 人之心尖上的开源人物!...
  19. 跟涛哥一起学嵌入式 16:设计一款CPU芯片到底有多难?
  20. Swift-UITableView快捷创建(刨坟用)

热门文章

  1. 手机安全领域的领航者
  2. 山东省第五届ACM大学生程序设计竞赛 Colorful Cupcakes
  3. 就是计算机信息学竞赛,什么是信息学竞赛NOI?参加信息学竞赛有什么用?
  4. vue部署至Tomcat,F5刷新报404问题解决
  5. Zookeeper基础笔记——从小白到入门
  6. java response 输出word_如何使用java代码导出word
  7. 计算机启动盘安装教程,小白装机u盘使用方法
  8. parallels恢复linux密码,Parallels安装Kali2.0遇到的问题及解决办法
  9. 收到字节 Offer,月薪 60k*18薪 ,爽的两夜都没睡着!
  10. 分享10个值得每天一看的精品网站,可以让你全方面得到提升,每一个都会让你大开眼界...