来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。

数据是机器学习 (ML) 的一个基本方面,可以影响 ML 系统的性能、公平性、稳健性和可扩展性。矛盾的是,虽然构建 ML 模型的优先级通常很高,但与数据本身相关的工作通常是优先级最低的方面。并且这项数据工作可能需要多个角色(例如数据收集者、标注人员和 ML 开发人员),并且通常涉及多个团队(例如数据库、法律或许可团队)来支持数据基础架构,这会增加任何与数据相关的项目的复杂性.因此,人机交互 (HCI) 领域专注于使技术对人们有用和可用,可以帮助识别潜在问题并评估与数据相关的工作不优先时对模型的影响。

在 2021 年 ACM CHI 会议上发表的“'Everyone wants to do the model work, not the data work’: Data Cascades in High-Stakes AI”中,我们研究并验证了随着时间的推移导致技术债务的数据问题对下游的影响(定义为“数据级联”)。具体来说,我们通过全球 ML 从业者在重要 ML 领域的数据工作来说明数据级联现象,例如癌症检测、滑坡检测、贷款分配等——ML 系统在这些领域取得了进展,但也在那里有机会通过解决数据级联来改进。这项工作是我们所知道的第一个将 ML 中的数据级联应用于实际项目的形式化、测量和讨论。

我们观察到数据级联的起源通常是在机器学习系统生命周期的早期,即数据定义和收集阶段。 级联在诊断和表现方面也往往是复杂和不透明的,因此通常没有明确的迹象、工具或指标来检测和衡量其影响。 因此,与数据相关的小问题可能会演变成更大、更复杂的挑战,从而影响模型的开发和部署方式。 来自数据级联的挑战包括需要在开发过程的后期执行代价高昂的系统级更改,或者由于数据问题导致模型错误预测而导致用户信任度下降。 尽管如此,令人鼓舞的是,我们还观察到可以通过对 ML 开发的早期干预来避免这种数据级联。

上图为高风险AI中的数据库级联。级联是不透明的,而且会产生长时间的负面影响。级联在上游触发(例如,数据收集),并且对下游产生影响(例如,模型部署)。红色粗箭头表示数据级联开始变得可见之后的复合效果;红色虚线箭头表示ML数据处理的放弃或重新开始。指标在模型评估、系统指标以及故障或用户反馈中最为明显。

数据级联示例

数据级联的最常见原因之一是在无噪声数据集上训练的模型部署在噪声嘈杂的现实世界中。例如,一种常见类型的数据级联源自模型漂移,当目标变量和自变量偏离时会发生这种情况,从而导致模型精度较低。当模型与新的数字环境(包括高风险领域,如空气质量传感、海洋传感和超声波扫描)密切交互时,漂移更为常见,因为这种情况下一般回包含训练时不存在的数据或者出现未处理的异常数据等。这种漂移会导致更多因素进一步降低模型的性能(例如,与硬件、环境和人类知识相关)。在训练时为了确保良好的模型性能,通常在受控的内部环境中收集数据。但在资源受限的真实环境的实时系统中,更常见的是收集带有指纹、阴影、灰尘、不同亮度和笔标记等的数据,这些都是影响模型性能的噪声。在其他情况下,雨和风等环境因素可能会意外移动部署中的图像传感器,这也会触发级联。正如我们采访的一位模型开发人员所报告的那样,即使是一小滴油或水也会影响可用于训练癌症预测模型的数据,从而影响模型的性能。由于漂移通常是由现实环境中的噪声引起的,因此它们也需要最长的时间(最多 2-3 年)才能显现出来,而且几乎总是在生产中。

另一种常见类型的数据级联可能发生在ML从业者管理专业知识有限的领域的数据时。例如,识别偷猎地点或在水下探索期间收集的数据,这种类型的信息依赖于生物科学、社会科学和相关领域方面的专业知识。但是我们研究中的一些开发人员描述了必须采取一系列超出他们领域专业知识的与数据相关的操作——例如,丢弃数据、更正值、合并数据或重新开始数据收集,这些都会导致数据级联,限制模型性能。依赖技术专业知识而不是领域专业知识的做法似乎引发了这些级联。

论文中提到的另外两个级联是由数据收集者、ML 开发人员和其他合作伙伴之间利益冲突造成的。例如,一个级联是由一份不规范的数据集文档引起的。虽然与数据相关的工作需要跨多个团队进行仔细协调,但当利益相关者在优先级或工作流程上不一致时,这尤其具有挑战性。

如何处理数据级联

解决数据级联需要在 ML 研究和实践中采用系统的方法,多步骤的进行:

  1. ML 系统开始时就要明确数据质量的概念,类似于我们对模型拟性能指标的看法。这包括开发标准化指标并经常使用这些指标来衡量数据,例如现象学中的保真度(数据表示现象的准确度和全面性)和有效性(数据对与数据捕获的现象相关的事物的解释程度),类似于我们如何开发良好的指标来衡量模型性能,例如 F1 分数。
  2. 建立创新激励机制以认可数据工作,例如奖励数据维护,或奖励组织中数据工作(收集、标签、清洁或维护)的员工。
  3. 数据工作通常需要跨多个角色和多个团队进行协调,但目前这非常有限(部分但并非全部,因为前面提到的因素)。我们的研究指出了在数据收集者、领域专家和 ML 开发人员之间促进更大的协作、透明度和更公平的利益分配的价值,尤其是对于依赖于收集或标记细分数据集的 ML 系统。
  4. 最后,我们在多个国家/地区的研究表明,数据稀缺性在低收入国家很明显,在这些国家,ML开发人员面临着定义和手工管理新数据集的额外问题,这使得他们很难开始开发ML系统。所以这里重要的是要开放数据库,制定数据政策,以解决全球当前的数据不平等问题。

总结

在这项工作中,我们既提供了经验证据,又将 ML 系统中数据级联的概念形式化。 我们希望让人们意识到数据卓越可能带来的潜在价值。 我们还希望为 HCI 引入一个尚未探索但意义重大的新研究议程。

最后这篇论文的地址如下:https://research.google/pubs/pub49953/

本文是与 Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh 和 Lora Aroyo 合作撰写的。

veen Paritosh 和 Lora Aroyo 合作撰写的。

原文地址:https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html

机器学习中的数据级联:被低估的数据,被高估的模型相关推荐

  1. 中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.1 最优传输理论与 WGAN 模型...

    最优传输理论是连接几何和概率的桥梁, 它用几何的方法为概率分布的建模和衡量概 率分布之间的距离提供了强有力的工具.最 近,最优传输理论的概念和方法日益渗透进 机器学习领域,为机器学习原理的解释提供 了 ...

  2. 一文介绍机器学习中的三种特征选择方法

    作者 | luanhz 来源 | 小数志 导读 机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.也正因如此,特征工程在机器学习流程中占有着重要地位.广义的特征 ...

  3. 一文清晰讲解机器学习中梯度下降算法(包括其变式算法)

    本篇文章向大家介绍梯度下降(Gradient Descent)这一特殊的优化技术,我们在机器学习中会频繁用到. 前言 无论是要解决现实生活中的难题,还是要创建一款新的软件产品,我们最终的目标都是使其达 ...

  4. azure机器学习_Azure机器学习中的预测

    azure机器学习 介绍 (Introduction) After discussing the basic features of azure machine learning and how to ...

  5. 举例解释大数定律、中心极限定理及其在机器学习中的应用

    面试曾经被问到:什么是大数定律,什么是中心极限定理,大数定律在机器学习中有什么应用?大数定律在实际应用中有什么缺陷? 先说大数定律: 大数定律核心思想顾名思义,实验次数够大则随机事件发生的频率将收敛于 ...

  6. 深度学习基础:机器学习中的基函数与函数空间

    [机器学习中的数学]基函数与函数空间 引言 在学习线性回归模型的时候就会遇到基函数,可能我们会遇到多项式基函数.高斯基函数.sigmoid基函数,当然在高等数学和信号系统中还经常会碰到傅里叶基.有时候 ...

  7. 机器学习里面的基函数_机器学习中的数学基函数与函数空间

    机器学习中的数学基函数与函数空间 [机器学习中的数学]基函数与函数空间 引言 在学习线性回归模型的时候就会遇到基函数,可能我们会遇到多项式基函数.高斯基函数.sigmoid基函数,当然在高等数学和信号 ...

  8. 机器学习中的判别式模型和生成式模型

    首发于人工智能 写文章 机器学习中的判别式模型和生成式模型 Microstrong 微信公众号:Microstrong,人工智能算法工程师 已关注 78 人赞同了该文章 目录: 基本概念 用例子说明概 ...

  9. 数据增强 数据集扩充_数据扩充的抽象总结

    数据增强 数据集扩充 班级分配不均衡的创新解决方案 (A Creative Solution to Imbalanced Class Distribution) Imbalanced class di ...

最新文章

  1. wps不能打印_excel小技巧:在手机上的文件的保存、分享、打印
  2. python打开excel表格-如何从python中用excel打开excel工作表?
  3. 201621123024《JAVA程序设计》第四周学习总结
  4. CV之OpenCV:OpenCV库涉及概念、常见函数、常用案例、HALCON软件简介之详细攻略
  5. Python 计算机视觉(十四)—— OpenCV 进行霍夫变换
  6. CH-Round-#63-OrzCC杯#2省选热身赛
  7. python2 print_Python2和Python3中print的不同点
  8. 算法基础——列表查找
  9. 2015 UESTC 搜索专题B题 邱老师降临小行星 记忆化搜索
  10. LintCode刷题:有效数字
  11. maximum call stack size exceeded ajax,Maximum call stack size exceeded error
  12. bzoj3884: 上帝与集合的正确用法 扩展欧拉定理
  13. 重启计算机恢复出厂设置,windows7电脑恢复出厂设置的三种方法
  14. 阿里巴巴十周年晚会,马云震撼照片
  15. Spring Boot - 开启 HttpBasic 认证方式
  16. 03Java常用API-17. 日期格式化类SimpleDateFormat
  17. Python设计模式(四) -- 模板方法模式
  18. Unity Steam_VR 开发工具插件 VRTK自带案例分析(第一部分)
  19. 天干地支计算公式_如何快速的计算出每一天的天干地支
  20. ABB AC500 - Programmable Logic Controllers PLCs可编程逻辑控制器

热门文章

  1. php论坛整合,Dedecms与Discuz论坛整合方法
  2. 计算机磁盘图标变成软件的了,电脑的本地磁盘图标变成一个U盘形状图标了怎么回事?如何解决?...
  3. Unity Shader UV动画之高光材质加上透明材质与UV动画
  4. YFX云分享软件库驾培不可或缺的教学工具。
  5. 【附源码】Python计算机毕业设计社区志愿者管理系统
  6. IT牛们的bat面试心得与经验总结
  7. 稿费一般多少钱一千字_为什么我在刊物发表文章会给稿费千字多少元不等,而网上却没有?...
  8. c语言编程 遍历字符串,请教大家一个C语言面试的编程题目 C语言:循环执行让用户输入一串字符串,如123456789......
  9. php lumen和laravel,Laravel 还是 Lumen?
  10. word编辑文字时光标随意跳动问题