Nature：AI为什么总是歧视重重？

来源：网络大数据

摘要：当使用谷歌翻译将西班牙语的新闻翻译为英语时，涉及到女性的短语通常都会翻译为“他说”或“他写道”。

当使用谷歌翻译将西班牙语的新闻翻译为英语时，涉及到女性的短语通常都会翻译为“他说”或“他写道”。

常用于处理和分析大量自然语言数据的词嵌入(Word Embedding)算法通常会将欧美名字预测为令人愉快的人物形象，而将非裔美国人名预测为令人不愉快的人物形象。

这些只是AI应用歧视特定人群中的一小部分案例，还有更多未被发现。

正如很多学者所指出的，偏颇决策并非AI独有，但随着AI的影响范围逐渐扩大，使得这个问题的解决变得尤为重要。

实际上，偏见问题的普遍性意味着我们需要系统的解决方案，下文我们列出了几种可能的策略。

有偏数据

无论是在学术界还是工业界，从发行的出版物和媒体等公开刊物和报道来看，计算机科学家们均倾向于通过训练更加复杂的算法而获得荣誉，而对于数据收集、数据处理和数据组织相对关注较少。

AI产生偏差的主要原因在于训练数据。大部分机器学习任务都基于大规模的、带标注的数据集进行训练。例如，针对图片分类的深度神经网络通常基于ImageNet进行训练，而ImageNet上有着超过1400万张的标注图像集。

在自然语言处理中，标准算法一般基于具有数十亿个单词的语料库进行训练。研究人员通常使用特定查询关键词通过爬取类似谷歌图像、谷歌新闻等网页来搜集数据，或者通过整合例如维基百科等比较容易获取的数据源上的信息来构建数据集。

这些数据集后续通常由研究生或众包平台，如亚马逊众包平台(Amazon Mechanical Turk)进行标注处理。

这些处理方法可能会无意识地让数据产生性别、种族和文化偏见。

通常来说，数据中包含的某些群体占比较高，而另一些群体则占比较少。ImageNet作为推动计算机视觉研究的训练数据源，其中超过45% 的数据来源于美国用户，而这些数据提供者仅占全世界人口的 4%。

相比之下，中国和印度用户总共贡献了 3% 的数据，而这些国家的人口占据了全世界人口的36% 。

这种地理多样性的缺乏从某种情况下解释了为何计算机视觉算法会将一张美国传统新娘的照片标记为“新娘”、“礼服”、“女人”、“婚礼”，而将另一张北印度新娘的照片则标记为“表演艺术”和“服装”。

在医学领域，机器学习预测器可能特别容易受到有偏数据集的影响，因为医学数据的生产和标注成本非常高。去年，研究人员使用深度学习从照片中识别皮肤癌。

他们在129,450张图片集上进行模型训练，其中60% 的图片来源于从谷歌图片。但是其中有不到5%的图片是属于深色皮肤人群的，并且该算法并未在深色皮肤人群上进行过测试。因此这个分类器对不同人群的性能可能会有显著变化。

造成偏差的另一个原因是算法本身。

典型的机器学习程序会尝试最大化训练数据的整体预测准确性。如果训练数据中一组特定群体的出现频率明显超过其他群体，则程序将会针对此类群体的数据进行优化来提供整体准确率。

一般计算机科学家基于“测试数据集”进行算法评估，但测试集通常是原始训练集的随机子样本，所以也有可能存在同样的偏差。

有缺陷的算法可以通过循环反馈放大偏差。想象一下根据统计学训练的系统，例如谷歌翻译，其默认使用的是男性代名词。

这种模式是由英语语料库中男性与女性代名词比例2:1的情况造成的。更糟的是，每一次翻译程序默认翻译为“他说”，都会增加相应男性代名词出现在网页上的几率——这可能会潜在地影响来之不易数据纠偏进展。

得益于大规模的社会变革，才使得男女代名词的比例从20世纪60年代的4:1下降到现在的2:1。

平衡倾斜

数据中的偏差常常会反映出制度建设和社会权利关系的深层次和隐性失衡。以维基百科为例，它似乎是一个丰富多样的数据源。

但是该网站的传记条目中只有不到18%是关于女性的。从女性文章链接到男性文章的次数远大于反过来链接的次数，这使得男性更容易被搜索引擎获取到。男性还更多的被浪漫伴侣和家庭的相关文章所提及。

因此，建立训练数据集时必须注意算法调优情况和社会意识行为。具体而言，应该采取措施来确保数据集具有多样性，并且不代表特定群体。

这意味着不能再采用简单的分类——“男/女”、“黑/白”等等——这些分类很难表达性别和种族身份的复杂性。

一些学者已经开始对此展开工作。计算机科学家最近发现，商业面部识别系统在识别肤色较深的女性相比肤色较浅的男性会更容易产生性别分类错误，错误率分别为35%和0.8%。

为解决这个问题，研究人员重新构建了一个由1,270个人组成的新的图像数据集，来均衡性别和种族比例。使用这些数据重新训练和微调后的面部分类算法应该可以提高其准确性。

为了帮助确定偏差来源，我们建议注释者使用标准化元数据对训练数据集的内容进行系统化的标注。一些研究小组已经在设计包含机器学习数据集的元数据和“有效标签”的“数据表”。

含机器学习数据集的元数据和“营养标

每个训练数据集都应有相关信息来说明该数据集是如何收集以及是如何对数据进行注释的。如果数据包含有关人员的信息，则应提供有关地理、性别、种族和其他人口统计信息的摘要。如果数据标签是通过众包完成的，那么应该包括有关人群参与者的基本信息，以及他们给出的确切请求或指示。

数据管理者应尽可能提供与数据相关的准确描述。例如，在刑事司法数据的例子中，了解模型训练过哪些“犯罪”类型数据有助于应用和解释该模型。

内置修复程序

许多期刊已经要求作者提供类似的实验数据信息作为出版的先决条件。例如，Nature要求作者将所有微阵列数据上传到开放存取库Gene Expression Omnibus——这就有需要作者提交实验协议的元数据。

我们鼓励像国际机器学习会议这样的会议组织者去提出类似的要求，将标准化的元数据作为最终提交和同行评审过程的重要组成部分。数据存储库的主机(例如OpenML)和AI竞争平台(例如Kaggle)也应该这样做。

最重要的是，计算机科学家应该努力开发更加完善的算法来消除数据中存在的人的偏见。

目前研究者正在探寻各种方法来解决数据偏差的问题，其中之一是纳入约束，本质上就是推动机器学习模型，以确保它在不同的子群体和类似的个体之间实现公平的算法。

一种相关的方法是改变学习算法，以减少其对敏感属性如种族、性别和收入等以及与这些特征相关的信息的依赖。

这种新产生的去除偏差的方法很有潜力，但需要通过实践的检验与完善。

然而，不可回避的问题是，种族、性别和其他相关信息是需要被准确记录的。除非有很好的实例，否则很难知道应该对模型施加哪些约束或更正。相关方法也要求算法设计者可以先验地确定他们想要避免哪些类型的偏差。

一种互补的方法是使用机器学习本身来识别和量化算法和数据中的偏差。我们称之为进行AI审计，其中审计员是一种系统地探测原始机器学习模型，以识别模型和训练数据中的偏差的算法。

以我们最近工作中使用的一种流行的机器学习方法——词嵌入为例，来量化美国的历史成见。词嵌入将每个英语单词映射到空间中的点(几何向量)，这样向量之间的距离就能捕获对应单词之间的语义相似性。

它捕捉了类比关系，例如'man'是'king'，'woman'是'queen'。我们开发了一种算法——AI审计员，来查询其他性别类比的嵌入。这表明“man”是“doctor”，而“woman”是“nurse”;“man”是“computer programmer”，而“woman”是“homemaker”“。

一旦审核员在单词嵌入和原始文本数据中揭示了历史成见，就可以通过修改单词向量的位置来减少偏差。此外，通过评估成见的演变过程，对历史文本进行训练的算法可能会有消除偏差的作用。

例如，从1910年到1990年，谷歌图书每十年的美国文本数据嵌入一次，就会发现这期间美国人对亚裔的态度令人非常震惊且变化无常。1910年，美国人对亚裔的描述为“怪异”和“野蛮”。

到1990年，在第二次世界大战后和20世纪80年代的移民浪潮时期，美国人的态度发生了巨大转变，又用“抑制”和“敏感”来描述亚裔。

根源性方法

计算机科学家、伦理学家、社会科学家和其他许多人都在努力提高数据和AI的公平性，我们也是时候考虑一下何为公平了。

数据展现了这个世界的本来面貌，还是被塑造成人们想要它成为的样子?同样，一个人工智能工具是否应该用来评估一份工作的候选人，以及这个人是否能很好地融入工作环境? 谁又应该决定优先考虑哪种公平观念?

为了解决这些问题并评估训练数据和算法的更广泛影响，机器学习研究人员必须与社会科学家以及人文、性别、医学、环境和法律等方面的专家进行交流。

当前，正在努力促进这种合作，包括我们在加州斯坦福大学参加的“以人为本的AI”计划。这种参与必须从本科阶段开始，这个阶段的学生不仅要了解算法的工作原理，同时还要研究AI的社会背景。

设备、程序和流程塑造了我们的态度、行为和文化。AI正在改变经济和社会，改变我们沟通和工作的方式，重塑治理模式和政治环境。我们的社会长期忍受着不平等，AI绝不能与此沆瀣一气。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

Nature：AI为什么总是歧视重重？相关推荐

AI涉嫌“性别歧视”，中美科技巨头面临男女平等问题
在硅谷,由于互联网发展迅猛,科技公司收到的求职简历越来越多.据统计,光谷歌一家每年收到的简历就超过100万份. 面对海量的求职者简历,不少科技公司都开始用机器筛选替代HR人工筛选.其中,亚马逊就曾利用 ...
超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
智能算法把奥巴马识别成白人，AI也学会歧视了？
在人工智能愈发普及的当下,越来越多的地铁.商场或其他公共场所,都已出现了人脸识别的仪器. 按理说,这样先进的技术,本该让人们的生活更便捷,更自由.然而,在某些时候,这些技术非但没能造福人类,反而揭开了 ...
引发热议的AI翻译歧视，是理所应当的事么？
本文来自AI新媒体量子位(QbitAI) 长假期间,Twitter上有个消息火爆一时. 呐,就是下面这张图了. 这张图被当做AI有歧视的证据.简而言之,神经网络在背后提供支持的Google翻译,在把一 ...
短短6小时，AI设计出40000种毒气分子，很多毒性远超战用神经毒剂
题图 | Willo 提到AI作恶,你会想到什么? 是电影<机械公敌>里的机器人为了达到「不伤害人类」的目的,必须先消灭「彼此伤害」的人类? 还是因为训练数据集本身充满了偏见,导致AI模型 ...
简历石沉大海、面试被刷？拒绝你的HR小姐姐，可能只是个AI
简介:如今,AI 越来越聪明,让很多人开始担心,有朝一日是否会被AI取代自己的工作.实际上,目前为止,AI还处在弱人工智能阶段,绝大多数人类的工作暂时无法被 AI 取代,但是,当前, AI 却可以决定 ...
前Pinterest首席运营官起诉性别歧视
Pinterest's former COO, Françoise Brougher, is suing the company for gender discrimination, saying s ...
AI鉴黄、选美、骂人、杀同类这些年跑偏的人工智能会笑哭你
关注网易智能,聚焦AI大事件,读懂下一个大时代! 本文授权转载自企服行业头条几天前,"吻戏鉴定师"吉恒杉火遍AI(人工智能)圈,为了训练机器识别接吻的图片和视频,这位29岁的小伙 ...
挽救失足AI，不能光靠打骂 | 清华复旦新研究
Alex 衡宇发自凹非寺量子位 | 公众号 QbitAI 好多研究都发现,AI这家伙好不害臊,竟也学会性别歧视了. 这可咋整? 最近,清华&复旦的一项研究为此给出建议: 要想把失足AI从 ...

Nature：AI为什么总是歧视重重？

Nature：AI为什么总是歧视重重？相关推荐

最新文章

热门文章