谷歌、华盛顿大学联合研究：为什么在标准数据集上刷榜有问题

图片来源：unsplash.com

本文作者：REN

在机器学习研究中，数据集（dataset）构成了模型设计和部署的基础，是进行基准测试和评估的主要工具。没有了它，绝大多数机器学习研究也就成了无源之水、无本之木。

数据集的收集、构造和共享方式能够反映出机器学习领域所追求的问题，以及算法开发中探索到的方法。但近年来的许多工作都揭示了现行 “数据集文化” 的局限性，有关数据集规范和改良的讨论也逐渐兴起。

深度学习的教父级人物 Geoffrey Hinton 曾表示，目前的数据集基准测试文化 “可能会阻碍创新思维的发展。”

和这个观点不谋而合的是，华盛顿大学和谷歌研究院的联合研究团队发表的研究 Data and its (dis)contents: A survey of dataset development and use in machine learning research ，便一一总结和分析了机器学习领域数据集实践方法所暴露出的种种问题。

该论文得出结论，大型语言模型具有使偏见（特别是对一系列边缘化社区的偏见）永存的能力，并且注释不佳的数据集是问题的一部分，由此呼吁该领域的研究者更谨慎地处理数据集和进行相应地开发。

代表性问题

近年来，许多主流机器学习数据集都或多或少出现了代表性问题，主要集中在对不同社会人口群体的代表程度和方式上，包括种族、性别、肤色、刻板印象等等。

比如说，已经有大量研究指出，深肤色对象在主流人脸分析数据集中的代表比例不足（under-representation），而在物体识别数据集中，所用图片主要来源于西方国家。

类似现象还出现在英文共指消解数据集中，只不过对象变成了 she/her 一类的女性代词，其占比明显低于 he/him 等男性代词。

社会上普遍存在刻板印象也对数据集产生了影响。在自然语言处理数据集中，一些共同出现的单词会反映出社会上普遍存在的偏见，而在计算机视觉数据集中，也会体现关于性别的刻板印象。

2018 年，研究人员曾在一套用于分类不良词汇的数据集中发现，描述 Queer 等性别少数群体的词汇与 “不良 / 有毒” 的标签挂钩比例更高，也就是更容易被打上 “不良词汇” 的标签。

ImageNet 图片集。来源：ImageNet

即便是大名鼎鼎的 ImageNet 数据集，也曾出现类似问题。多项研究表明，它对数百万张人类照片打上了冒犯性标签，使用了种族歧视或贬低性词汇。在特定类别下，还出现了未经许可和带有色情性质的女性照片。

为了解决上述问题，ImageNet 删减了不少图片，另一个数据集 TinyImages 则被彻底移除。

被模型所利用的 “捷径”

虽然深度学习模型在一些颇具挑战性的任务上取得了出色的表现，但许多研究表明，它们的表现可能只是表面现象，是通过一些 “廉价把戏” 获得的，而非使用类似人类的推理能力。

2020 年的一项研究显示，深度神经网络可能会依赖 “捷径” 来完成任务。捷径的出现通常是由于数据集中的 annotation artifacts（人为创造的数据）使模型对训练数据出现过度拟合，并且依赖无意义的启发式来 “解决” 任务。

所谓的 annotation artifacts，指的是数据集中人为创造和添加的数据。由于每个人都有一定的思维定势和习惯，因此很容易被模型找到规律，比如通过否定词的数量判断假设和事实是否矛盾。

这对于模型来说就是 “捷径”。虽然人类有时也会用类似的方法，但会基于语义进行纠错。如果模型只会这一种方法，那么它所作出的判断就并非基于对语义的理解。

研究表明，许多常用数据集中存在捷径，实现这些捷径则被认为是特定能力的证明依据，例如模型实现了 “阅读理解” 和 “语言理解”。

这类问题出现的原因是任务设计时遵循的假设，导致数据标注人员没有获得清晰、具体的指令。想要解决此类问题，需要重新思考构建数据集时采用的格式。一些最新研究提出，可以设计一套新型注释框架，以利用人类 “常识”。还有一些新方法可以从数据集的创造和应用上防范虚假相关性。

使某些不合理的问题合理化

正如前文提到的，数据集中输入和标签之间的关联未必是 100% 有意义的 —— 有问题的任务结构可以导致模型使用错误的启发去做预测。

一些任务可能根本无法解决，或者无法用 AI 解决，但当机器学习模型凭借 “捷径” 能够达到超过测试基线的准确率时，研究人员可能会觉得该任务是合理的，但实际上模型完成任务所用到的能力与现实世界的能力要求并不相符。

近年来，许多研究试图从人脸照片中预测性别和其他主观个人特征等属性，人们都假定 AI 是能够做出预测的。然而一些后续研究指出，他们使用的数据集或多或少存在问题，导致模型采用了无意义的捷径。

例如一个 AI 模型看起来似乎能凭借外貌和个人特征识别同性恋，但实际上只是学会了如何识别数据集中同性恋的刻板印象，包括发型和其他自我表达方式。

实际上，通过外貌特征识别同性恋本身就是一个有可行性争议的任务，其本质上暗示了 “同性恋特征” 的存在，但这一概念仍待科学验证。

类似的问题还出现在自然语言处理领域，比如通过短文回答预测学生智商的 AI 研究，其任务本身建立在 “短文内容包含的信息足够反映智商” 这个大前提的基础上 —— 该前提的合理性存疑，导致任务的构建出现了问题。

因此在构建任务和评估任务是否能完成之前，研究人员需要首先明确两个问题，以确认前提或假设是否合理 ——

1、这个任务是否应该被解决；

2、这个任务是否应该被 AI 解决；

从而避免数据集的使用和构建将不合理的问题合理化。

不应再“放任自流”

在机器学习领域，研究人员对数据集的收集、标注、记录似乎正朝着 “囊括一切” 的方向发展，大量数据来自于网络搜索引擎，社交媒体平台和其他开放式在线信息源。

这种 “放任自流” 的态度有别于其他数据驱动的学科所采用的谨慎风格，也导致了一些问题的出现。

首先是数据集的收集。前文提到了未经许可的数据收集，类似的还有 2020 年的一项新研究显示，多个主流计算机视觉和人脸分析数据集包含了数百万张取自 Flickr 平台的色情图片且均未经获得用户授权。

其次是标注。数据集依赖于人工标注，而标注者会有意无意地将主观价值，判断和偏见投射到标注结果中，后果就是让数据集带有偏见。

由于数据标注工作可以通过众包方式完成，一些研究人员发现了更普遍的错误，即标注者将标注工作视为解释性工作，导致数据集中的 “金标签” 与现实世界的对象相混淆，因为现实世界中可能不存在唯一的 “正确答案（ground truth）”。

最后是数据集的记录方法，缺乏严格规范的数据集记录实践导致了再现性问题。

一些研究人员曾尝试重建 ImageNet 以测试其分类器的泛化能力，尽管他们遵守了已知的数据收集和标注方法，甚至收集了该数据集建立时的同时期的图片，但两者的分布比例仍有较大差距，其中一个原因在于标注 “ground truth” 时的偏差。

有解决方案吗？

机器学习数据集的庞大规模，使得彻底审查其内容变得非常困难，因此很难知道从哪里开始寻找并发现前文提到的问题。

目前的常用手段是依靠直觉和领域专家，不过最新研究也提出了新的工具，可以通过数据集的统计属性来揭示虚假线索（捷径）和其他内容问题。

一个研究团队提出了 AFLITE 算法，可以系统地识别那些容易被模型 “钻空子” 且难以被人类发现的数据集。该算法被应用于一些自然语言处理数据集上，结果显示，基于过滤后的数据集训练的模型的确具备更好的泛化能力。

此外，人为添加一些干扰元素或者反事实样本，也可能会得到更好的决策边界，进而增强模型的鲁棒性和泛化能力。但有时候，为了加强模型泛化能力而精心设计的 “干扰元素”，可能最终会遵循与原始数据相同的模式，结果就是适得其反。

这表明，研究人员需要站在一个更广阔的视角来看待并重新思考如何为任务构建数据集，比如接受数据集不能完美表示真实世界任务的现实，转而从减少数据偏见的影响、故意 “不学习” 数据集的偏见（例如 DRiFT 算法）入手。

最后，一些最新研究指出，有时数据集中的噪音可能不是统计偏差或标签错误，而是反映出人类判断的变化性，那么模型也应当反映出这些变化，而不是忽略或放弃它们。

数据集文化

最后，机器学习领域整体的数据集文化，也值得持续关注。

1、基准测试实践

基准测试在机器学习领域的重要性毋庸置疑，但 “唯成绩论英雄” 的风气也饱受争议。深度学习的教父级人物 Geoffrey Hinton 就曾表示，目前的基准测试文化 “可能会阻碍创新思维的发展。”

理由之一是基准测试并不能完整展现一个模型的优劣。比如许多自然语言处理领域的研究人员正在呼吁加入更多评估标准，包括能耗、模型尺寸、公平性指标和错误分析等等，从而更完整地反映模型性能。

2、数据管理和分发

数据的安全储存和恰当分发，是当今机器学习领域必须重视的议题。与社会科学和医学研究相比，机器学习领域仍未建立起能被推广和遵守的数据管理实践规范。

当研究涉及到面部数据、医疗资料等敏感的私人生物信息时，如果没有相应的数据管理规范，每个有机会接触它们的人都可能侵犯数据所有者的权益，无论是有意还是无意。

类似的问题还发生在被删除的数据集上。调查显示，有的数据集被开发者移除后，仍有许多研究引用或使用该数据集的副本。在缺乏有效管理机制的今天，这种行为很难被制止或追责。

3、数据重复利用

研究数据的重复利用和包括代码在内的科研成果重现性，也是值得机器学习研究人员关注的重点。

所谓的数据重复利用，指的是为某个科研项目收集的数据被用于满足其它目的。这涉及到数据道德问题，甚至可以追溯到 “谁是数据的所有者” 这一根本性问题。有关该话题的讨论也有助于构建更完善的数据集管理机制。

4、法律问题

前文提到，机器学习领域的数据集十分依赖互联网资源，但从收集到标注，从训练到评估，各个环节都可能涉及到法律问题。

比如 ImageNet 的图片来自于搜索引擎，很多图片的版权和许可信息是未知的。ImageNet 称其运营模式类似于搜索引擎，因此不会牵扯到版权问题。但在图片的分发、使用、修改等下游步骤，仍然涉及到隐私权、知情权、肖像权等法学概念。

目前世界各国的版权法并未严格定义数据集的使用范围，也没有太多先例可以参考，因此只能靠 AI 学界达成有关数据收集、使用、分发的广泛共识。

Reference：

https://arxiv.org/pdf/2012.05345.pdf

公众号：数据实战派，转载请联系小编～