编译 | 戚路北

校对 | 维克多

转自:AI科技评论

得益于算法、算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展。近日,来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。

论文链接:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/0d556e45afc54afeb2eb6b51a9bc1827b9961ff4.pdf

上述结果是谷歌研究员通过与印度、东非和西非国家以及美国的53位AI从业者进行对话得来。研究员表示,这份访谈报告为“低估数据质量在AI模型中的作用”提供了经验证据。此外,报告还得出了另一个有趣的结论:每个人都想做模型工作,而不是数据工作,许多从业者将数据工作描述为“耗时且无法追溯的工作”。

为了更清楚的说明问题,研究员还定义了数据库级联(data cascades)这一概念,即因数据问题产生负面和下游影响的复合事件,且数据级联有不透明、触发者、负面影响等特点。

上图为高风险AI中的数据库级联。级联是不透明的,而且会产生长时间的负面影响。级联在上游触发(例如,数据收集),并且对下游产生影响(例如,模型部署)。红色粗箭头表示数据级联开始变得可见之后的复合效果;红色虚线箭头表示ML数据处理的放弃或重新开始。指标在模型评估、系统指标以及故障或用户反馈中最为明显。

1

数据的重要性

数据是构建人工智能系统必需的关键基础设施。数据在很大程度上决定了AI系统的性能、公平性、稳健性、安全性和可扩展性。

矛盾的是,对于AI研究人员和开发人员而言,数据通常是最不被重视的方面。但相对于构建新颖的模型和算法等大规模工作而言,数据又被认为是有“可操作性”的 。

凭直觉来看,AI开发人员认为了解数据质量很重要,所以他们通常会在数据任务上花费过多的时间。实际上,与模型开发相比,数据工作一向被忽视,大多数组织并没有在数据标准等工作上花费足够的功夫。

这项研究发现,对数据工作的低估是具有普遍性的。此外,通过研究,研究者发现以下几个趋势:

首先,开发人员越来越多地在复杂的人道主义领域设立AI模型,例如在孕产妇健康,道路安全和气候变化方面;

其次,高风险领域的低水平数据可能会对脆弱的社区和环境造成巨大影响。例如Hiatt等,它们辩称,高风险的工作与低风险的诸如客户服务类的工作是不同的,因为这些高风险的项目主要是为那些正在面临或即将面临一系列可怕事件的人群服务的。例如,不良的数据降低了IBM癌症治疗AI的准确性,并导致Google流感趋势预测偏离了流感峰值140%。

再者,高风险的AI系统通常部署在资源匮乏的环境中,明显缺乏现成的高质量数据集。例如通过步行距离来收集农村地区的水资源数据,与之相对应的是随便点击一下假装收集到了数据。

最后,高风险的AI通常是在两个或多个学科的结合下创建的。例如,AI和糖尿病性视网膜病,这样一来会导致许多组织机构和领域中的利益相关者之间产生更多的合作或者竞争。

考虑到以上因素,当前为解决其他技术问题而使用的错误工具可以解决AI中的数据质量问题。这些工具被视为数据库问题,法律合规性问题或者许可交易问题。

2

数据库级联的概念

谷歌研究员对来自印度,美国以及东西非洲国家的53名AI从业者的实践和结构因素进行了定性研究,旨在了解从业人员如何将端到端AI数据生命周期概念化和导航化。

在这项研究中,研究员将“数据库级联”定义为:复合事件引起的关于数据问题的负面和下游影响,而且随着时间的推移会导致技术负担。研究发现,数据库级联非常普遍:在给定的项目中,有92%的AI从业者报告经历了一个或多个,而45.3%的人报告了两个或多个级联。

数据库级联通常是由于采用传统的AI做法而导致的。这种做法低估了数据质量。例如,在无噪声训练数据上训练以获得高模型性能的眼部疾病检测模型,误判了图像上出现少量灰尘时会产生疾病。

数据库级联不仅不透明而且有延迟。数据级联对模型下游任务有重大的负面影响,例如代价高昂的迭代,废弃项目以及对社区的危害。但是,如果通过有意识的实践,级联在很大程度上是可以避免的。

数据库级联的高普遍性表明了在AI领域中,之前普遍使用的数据实践,方法论和激励机制存在着更大的问题。

尽管研究中的AI / ML从业人员对数据质量的重要性都有所了解,并对研究领域涉及到的社会弱势群体会更加“上心”,研究员也更加重视与之相关的数据工作。但一个现实是:在某些高风险领域/行业中,数据库级联仍然普遍存在。

数据库级联的普遍性提出了一个更大的挑战,即如何从“大数据”的世界中提取的关于AI / ML的其他约定和看法。包括:大数据、消耗性的数字资源和一个帐户所拥有的虚拟世界;模型的价值化;快速转变为概念验证的过程;并且在ML工作流程中将数据视为繁琐的工作......

综上所述,明确构建AI系统时高质量数据发挥的重要作用,非常有意义。数据背后的“含义”能够帮助考虑AI生态系统的社会,技术和结构。

3

数据库级联的属性

数据库级联受到以下因素的影响:(a)参与AI开发的参与者(例如,开发人员,政府和现场合作伙伴)的行为和互动;(b)AI系统所处的物理世界和社区(例如, 配备数据收集传感器的乡村医院。)

数据级联有以下属性:

1.不透明:数据级联是复杂的,长期的,频繁且持续发生的;不透明性表现在“”没有明确的指标,工具来检测和衡量它们对系统的影响。在没有明确而且及时的信号的情况下,从业人员转向了替代指标(例如,准确性,准确性或F1分数),其中的度量单位是整个系统,而不是数据集。

2.触发者(Triggered by):在高风险领域中采用传统的AI实践时,就会触发数据级联,这些领域的特点是高度负责,跨学科工作和资源紧张。

3.负面影响:数据库级联对AI开发和部署过程具有负面影响,导致多种意外的策略有时会刺激进一步的级联,从而始终造成技术负担。

谈完属性,来谈谈影响高风险领域中数据库级联的跨领域因素。

总的来看,人工智能中的激励措施和数据流缺乏,导致了不良的数据实践,并引发了数据库级联。与模型相比,对数据的关心和改进不容易“跟踪”或奖励。据报道,在ML出版物中,构建AI模型相比数据工作更能为作者带来声望和“学术阶级”流动。因此,这些论文被大量引用,使从业人员在AI / ML工作和更高层次的发展方面具有竞争力。

“每个人都想做模型工作,而不是数据工作”。许多从业者将数据工作描述为耗时的且无法跟踪的工作,并且经常由于利润而承受着压力。单纯的数据类项目很难从客户和资助者那里进行融资,尤其是在价格敏感且新兴的市场(例如东非和西非国家和印度)。另一方面,客户期望AI达到具有“魔力”的水平,从而激励一些研究员展示性能“非常吓人”的模型。

数据教育缺乏,从业人员没有接受AI数据质量的收集和道德规范方面的充分培训,导致从业人员在应对高风险领域中创建数据集的复杂性方面的准备不足。当前,一些AI课程使用的是“标签明确”的小数据集(例如UCI人口普查,Kaggle数据集),但是部署AI实际上需要创建数据管道,而且通常是从头开始。

正如西非国家/地区从事医疗保健工作的人所说:“在现实生活中,我们从未见过干净的数据。课程和培训的重点是要使用的模型和工具,但很少讲授数据清理和管道漏洞。”美国教师也对此进行了说明:“我们从未接受过CS的培训,也没有积极地考虑数据收集。”

计算机科学课程不包括针对实际数据方面的培训,例如处理特定于域的“脏数据” ,处理实时数据,定义和记录数据集等等。

在美国,大多数从业者都在研究生课程中完成了AI专业化能力的培养。在印度以及东非和西非国家,大多数从业人员在获得计算机科学学位后都可以自学,但是,在所有这些途径中,数据工程都没有得到足够的重视。

数据引导高风险AI域需要按区域,现象或物种划分的专门数据集,尤其是在数字化不足的环境中。例如,在泰米尔纳德邦农村地区的疟疾传播,在马赛马拉的大象运动。

74%的从业者从头开始进行数据收集工作,对此,一些人的态度是坦率地接受,不过也有些人因此放弃了AI项目。美国的从业人员很大程度上是从现有资源和已建立的数字基础架构中进行引导,例如卫星数据,传感器数据和公共数据集,而东非,西非国家和印度的大多数从业人员则从头开始收集数据并制作了因地制宜的在线数据集。

使用其他地区的数据进行训练AI模型会导致通用性方面的限制,例如,(美国清洁能源)使用美国东北部的卫星数据进行模型训练,但由于地形,云层和污染不同,因此无法应用于目标位置。

从业人员报告说,他们面对的情况是他们不得不“利用已有的东西”,并且由于有限的原因,并不总是具有“可选择的能力”。许多从业者报告说,他们出于非AI目的使用了收集的数据(例如迁移调查),但遇到了ML功能丰富的问题。

由于从业者在与弱势群体合作时缺乏数据和采用下游方法,因此从业者在面对挑战时会发生数据级联。绩效不佳所带来的风险主要是对社区的损害,但也导致绩效不佳和用户信任度低下。

“如果你建立了这个模型(例如,预测[眼疾]),并且预测到这个人没有这个模型所需的数据,那你就会让这个人失明。”

因此,许多研究者认为,消费型人工智能(例如广告技术)的准确性目标一般是70-75%,而对于高风险领域,人工智能技术的准确性每增加1%都至关重要。

欢迎添加群助手微信,邀请您加入大佬云集-深度学习技术交流群!

???? 长按识别添加,邀请您进群!

谷歌AI研究院:被低估的数据,被高估的模型相关推荐

  1. Google 谷歌 AI博客:发布Objectron 3D对象检测模型数据集

    仅通过在照片上训练模型,机器学习(ML)的最新技术就已经在许多计算机视觉任务中实现了卓越的准确性.基于这些成功和不断发展的3D对象理解,在增强现实,机器人技术,自主性和图像检索等广泛应用方面具有巨大潜 ...

  2. 谷歌AI新技术:通过追踪虹膜,普通摄像头也能测距

    2020-08-12 17:56:26 目前的主流智能手机大多配有多个摄像头,每个都有不同分工,有的是黑白摄像头,负责提供更准确的对比度信息,有的则负责捕捉人物或场景深度,测量物体和手机之间的距离. ...

  3. 快讯 | 清华成立AI研究院,与谷歌深度合作,张钹、姚期智、Jeff Dean坐镇

    今日,在清华大学李兆基科技大楼,清华大学宣布成立人工智能研究院. 清华人工智能研究院由中国科学院院士张钹院士担任院长,图灵奖得主姚期智院士出任学术委员会主任,谷歌人工智能总负责人Jeff Dean被聘 ...

  4. 时空大数据 AI 研究院在京成立,助推时空产业高质量发展

    1月6日,国家测绘产品质量检验测试中心.北京百度网讯科技有限公司.土豆数据科技集团有限公司在京共同成立"时空大数据 AI 研究院",并签署战略合作协议.三方将发挥各自技术与能力优势 ...

  5. 图像标注,三倍加速:谷歌AI新方案,数据民工的福音 | Demo可玩耍

    膘栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI 标注数据,可能是AI模型训练里最艰巨的一个部分了. 计算机视觉首当其冲,标注图像需要投入大量人力. 比如,在Coco-Stuff数据集里, ...

  6. 2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

    新年伊始,大模型的话题热度不减.2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级"物种"的推出意味着什么,比如是否会颠覆搜索引 ...

  7. 大数据24小时:链家研究院发布地产大数据产品Real Data,上海交大与依图共建AI联合实验室

    联发科预计推出两款P系处理器,聚焦人工智能与面部识别:上海交大与依图医疗合作,共同成立人工智能联合实验室:链家研究院发布地产大数据产品--Real Data--以下为您奉上更多大数据热点事件 编辑 | ...

  8. 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 01 行业 NASA开发AI竞赛无人机,欲挑战人类职业玩家 近日,NASA喷气推进实验室(Jet Propulsion Lab ...

  9. 重磅丨李飞飞亲自带队,谷歌AI中国中心今天正式成立

    今天上海开幕的谷歌开发者大会上,谷歌云人工智能与机器学习首席科学家李飞飞宣布谷歌 AI 中国中心正式成立,该中心由李飞飞和 Google Cloud 研发负责人李佳博士共同领导.李飞飞将会负责中心的研 ...

最新文章

  1. ABAP--关于重复行的处理
  2. mysql server uuids_master and slave have equal MySQL server UUIDs 解决方法
  3. [BUUCTF-pwn]——jarvisoj_level0
  4. MySql 事务+异常处理+异常抛出
  5. 07/11/10 资料整理
  6. centos mysql自动备份_CentOS下每天自动备份mysql数据库
  7. 保存多序列tiff文件_解码TIFF文件
  8. python批处理远程关机脚本,python实现远程通过网络邮件控制计算机重启或关机
  9. (转)美国证监会SEC发布调查报告,认定ICO为证券投资邀约
  10. mysql高频面试题合集
  11. 如何通过站群提高网站曝光率
  12. 《计算机科学概论(第12版)》—第1章1.3节海量存储器
  13. 冻库正常低压力是多少_零下40度低温低压压力多少算正常?
  14. 正则表达式 '^[a-zA-Z0-9''-'\s]{1,30}$' 代表什么意思?
  15. git工具的使用 、gitlab 服务器的搭建、Jenkins服务的搭建
  16. 92 - 青蛙跳台阶
  17. react 实现图片上传功能
  18. usaco 奶牛集会 奶牛抗议
  19. c语言指针near,C语言中 near指针和far指针
  20. 如何使用RUN as命令安装软件

热门文章

  1. 企业shell编程基础问题解决实践-是骡子是马溜溜!
  2. 在循环中正确找到对应DOM元素的索引
  3. 计算机机房建设监理,机房工程建设监理工作要点讲解
  4. java i 原子_为什么i ++不是原子的?
  5. 前端 圆形进度图_图解CSS3制作圆环形进度条的实例教程
  6. 题目:查找数组中的重复数字,要求空间复杂度为O(1)(基于Java实现)
  7. (面试)java基础-== 和 equals 的区别?
  8. svm对未知数据的分类_基于SVM的高维不平衡数据分类方法与流程
  9. pandas写excel报错ModuleNotFoundError: No module named ‘xlwt‘
  10. ECLIPSE 添加插件3种方法