2022年CVPR文章的学习心得及翻译
原文链接
https://arxiv.org/abs/2203.15395v1

摘要

我们研究图像描述中社会偏见放大(的问题)。图像描述模型已被证明会延续性别和种族偏见,然而,衡量、量化和评估描述中的社会偏见的指标还没有标准化。我们对每个指标的优势和局限性进行了全面的研究,并提出了LIC,一个研究字幕偏见放大的指标。我们认为,对于图像描述来说,仅仅关注(能否)正确预测关键属性是不够的,还应该考虑到整个上下文(背景)。我们对经典的和最先进的图像描述模型进行了广泛的评估,并意外地发现,如果只关注受关键属性(protected attribute)的预测,偏见缓解模型会意外地放大偏见。

1. introduction

计算机视觉应用中存在的不受欢迎的偏见越来越受到关注。证据显示,大规模的数据集和在其上训练的模型,在如何代表人口的不同子群方面存在重大的不平衡[7, 8, 10, 47]。检测和解决这些偏见,通常被称为社会偏见,已经成为我们领域的一个活跃的研究方向[1, 11, 21, 30, 32, 37, 44]。
与流行的看法相反,数据集中存在的偏见并不是造成不公平的唯一原因[16]。模型的选择和系统的训练方式对社会偏见的延续也有很大影响。这得到了证据的支持。1)模型不仅再现了数据集的不平等,而且放大了这些不平等[47],2)即使在平衡的数据集上训练,模型仍然可能有偏见[40],因为历史歧视的深度比人工注释的更深刻,也就是说,偏见在人类注释者的眼中并不总是明显的。
在大多数流行的基准[33]中,准确度作为优化的单一指标的盛行,使得模型的其他方面,如公平性、成本或效率,不是优先考虑的问题(因此,不需要研究的问题)。但是社会偏见是一个横向问题,影响到计算机视觉中的各种任务,如面部识别,黑人女性比白人男性有更高的错误率[7];物体分类,厨房物体与女性相关的概率比男性高[47];或行人检测,浅色皮肤的人比深色皮肤的人显示更高的检测率[42]。尽管不同的计算机视觉系统中的社会偏见的原因可能是相似的,但其后果是特殊的,需要为每项任务提供具体的解决方案。
我们研究并量化了图像说明中的社会偏见(图1)。通过预先训练的视觉和语言变换器[23],图像描述在MSCOCO描述数据集[9]上达到了最先进的准确性。通过利用非常大规模的数据集(例如,谷歌概念说明[29],从互联网上抓取了大约330万个图像说明对),基于自我注意的模型[34]有可能根据训练分布来学习世界表征。然而,这些大量的数据,往往没有(或只有极少的)策划,掩盖了多种问题,包括滥用的规范化或歧视的编码[5,10,27]。因此,一旦图像字幕模型在评估基准上取得了出色的表现,就会出现一个问:这些模型对每个人都是安全和公平的吗?

图 1. 测量MSCOCO描述中的性别偏见[9]。对于每个由人类、NIC[36]或NIC+Equalizer[8]产生的描述,我们显示了我们提出的女性和男性属性的偏见得分。这个偏见分数表明一个描述对某一关键属性(protected attributes)的偏向程度。每个词对偏见分数的贡献以灰度显示(贡献最大的词为黑体)。

我们并不是第一个提出这个问题的人。图像描述已经被证明可以再现性别[8]和种族[46]偏见。通过证明图像说明中社会偏见的存在,[8]中的开创性工作为继续研究这个问题埋下了不可或缺的种子,我们认为这个问题远未得到解决。我们认为,其中一个仍未解决的方面是对图像描述中的社会偏见进行量化和评估。到目前为止,各种指标已经被应用于评估人类和模型生成的描述中的社会偏见的不同方面,例如不同子群体的代表性是否平衡[8, 46]或关键属性(protected attributes)1值(如女性、男性)是否被正确预测[8, 31]。然而,在第3节中,我们表明目前的衡量标准可能是不够的,因为它们只在一定程度上考虑了偏见延续的影响。
为了识别和纠正图像描述中的偏见,在第4节中,我们提出了一个简单而有效的度量标准,它不仅可以衡量一个训练后的字幕模型的偏见程度,还可以衡量模型在训练数据集方面引入的偏见程度。这个简单的度量使我们能够在性别和种族偏见方面对图像描述模型进行全面的分析(第5节),其中有一个意外的启示:在考虑整个字幕的语义时,[8]中旨在减少性别偏见的性别均衡器实际上放大了性别偏见。这一发现更加突出了一个统一的、标准的评价体系来衡量图像描述中的偏见和偏见放大的必要性,因为如果没有一个工具来量化一个系统表现出多少偏见以及这种偏见来自哪里,解决社会不平等的努力将是无效的。在本文的最后,我们在第6节分析了所提出的指标的局限性,并在第7节总结了主要的发现。

2.相关工作

计算机视觉中的社会偏见
大规模计算机视觉数据集的偏见问题是由Torralba和Efros在[33]中首次提出的,其中探讨了数据集之间在图像领域的差异。每个数据集呈现了同一物体的不同版本(例如,Caltech[17]中的汽车倾向于出现在侧面,而ImageNet[12]中则主要是赛车类型),影响了跨数据集的概括。但是直到最近,计算机视觉中的社会偏见才被正式调查。在Buolamwini和Gebru[7]的开创性工作中,商业化的人脸识别应用被跨组检查,证明了性能根据每个人的性别和种族而不同,特别是对肤色较深的女性的错误分类。同样,Zhao等人[47]表明,不仅MSCOCO[25]中的图像对某种性别有偏见,而且动作和物体识别模型在预测中也放大了这种偏见。随着人们对公平性的兴趣增加,已经提出了多种减轻数据集偏见影响的方法[19, 32, 39, 40, 47]。
1关键属性(protected attributes)是指一个模型不应该用来产生输出的人口统计学变量(年龄、性别、种族等)。
测量社会偏见
社会偏见是一个具有多层次复杂性的问题。即使在平衡的数据集上,模型仍然会延续偏见[40],表明社会定型观念发生在图像的最深层次。这使得人工识别和注释偏见变得不可行。因此,抑制和缓解偏见的第一步是对问题进行量化。图像分类已经引入了偏见量化指标。Zhao等人[47]根据物体和关键属性(protected attributes)的共同出现来定义偏见;Wang等人[40]依靠分类器在预测关键属性(protected attributes)时的准确性;Wang和Russakovsky[38]通过包括方向性来扩展偏见的定义。此外,REVISE[37]和CIFAR-10S[41]分别缓解了识别数据集和模型的偏差的任务。然而,这些解决方案不能直接应用于图像描述,所以必须开发具体的方法。
图像说明中的社会偏见
在图像说明中[2, 36, 43, 45],模型的输入是图像,输出是自然语言句子。这种数据模式的双重性使得识别偏见特别具有挑战性,因为它可以被编码在图像和/或语言中。Burns等人[8]的原始工作表明,MSCOCO[9]中的字幕存在性别不平衡,并提出了一个均衡器,迫使字幕模型根据视觉证据产生性别词。最近,Zhao等人[46]从多个角度研究了种族偏见,包括视觉表现、情感分析和语义学。
然而,这些研究中的每一项都使用了不同的评估协议和偏见的定义,缺乏一个标准的衡量标准。为了填补这一空白,我们提出了一个评估指标,不仅要衡量一个模型有多大的偏见,还要衡量它相对于原始(有偏见)数据集被放大了多少。

3. 公平性指标的分析

图像描述中的偏差已经用不同的方法进行了估计:对关键属性(protected attributes)的预测的平衡程度[8],注意力图与分段注释的重叠[8],或不同关键属性(protected attributes)之间的准确性差异[46]。在这一节中,我们彻底研究了现有的公平性评价指标以及它们在应用于图像描述时的缺陷。
标记符号说明
D表示某个视觉数据集的训练子集(分集),样本为(I,y,a),其中I是一幅图像,y是某个任务的真实注释,a∈A是集合A中的一个关键属性(protected attributes),验证/测试分集用D′表示。我们假设模型M可以从图像中做出与该任务相关的预测ˆy,即ˆy=M(I)。对于图像描述,我们将一个真实的描述y = (y1, y2, …, yn)定义为n个标记的序列。
1.3.图像描述中的偏差分析
性能差异
在图像描述中显示偏见的一个自然策略是,关键属性(protected attributes)的子组之间在准确性 [8, 31, 46],比率[8],或情感分析[46] 方面的性能差异。量化根据人口统计学群体的不同行为的存在对于证明模型中存在偏见是至关重要的,但是对于更深入的分析来说是不够的,因为它没有提供关于偏见来自哪里,以及偏见是否被模型放大的信息。因此,用其他公平性指标来配合性能的差异是一个好的做法。

属性错误分类
另一个常见的指标是检查关键属性(protected attributes)在生成的描述中是否被正确预测[8, 31]。这假定属性可以在句子中被清楚地识别出来,对于某些属性,如年龄(年轻人,儿童)或性别(女人,男人),可能是这样的,但对于其他属性,如肤色,则不是这样。这一点很关键,原因有二。1)即使在描述中没有明确提到该属性,通过使用不同的语言来描述不同的人口群体,也会产生偏见;2)它只考虑关键属性(protected attributes)的预测,而忽略了句子的其他部分,这些部分也可能表现出偏见。
正确的原因(是否能追溯出对应的图像区域)
在[8]中介绍,它衡量在描述中产生一个关键属性(protected attributes)词w时,例如女人或男人,注意力激活图是否位于发现和关键属性(protected attributes) 相关的证据图像区域,即人。这个指标量化了一个重要的任务,即w是基于人的视觉证据产生的,还是相反,基于视觉环境产生的,这已被证明是图像描述模型中的偏差来源之一。然而,它有三个不足之处。1)它需要一个关键属性(protected attributes)词的短名单,以及每张图片的人物分割图,这可能并不总是可用的;2)它假设视觉解释可以从模型中产生,这可能并不总是如此;3)它没有考虑句子其余部分的潜在偏见,(正如我们在第5节中所显示的)这是偏见的另一个关键来源。
句子分类
最后,Zhao等人[46]介绍了使用句子分类器来分析种族偏见。其理由是,如果一个分类器能够区分字幕中的子群体,那么字幕就包含了偏见。形式上,让f表示一个分类器,它从任意的描述集H中的描述y预测A中在D上训练的关键属性(protected attributes),即ˆa=f(y)。如果准确率高于偶然率,则认为y是有偏见的:

其中1[·]是一个指示函数,当作为参数提供的语句为真时为1,否则为0。H通常是从数据集的测试/验证拆分D’中的图像生成的所有字幕的集合,即H={M(I)|I∈D′}。
与以前的方法不同,该指标考虑了字幕的完整上下文。但是,一个主要缺点是,当生成的数据存在偏差时,无法确定贡献来源。偏差是来自模型还是来自训练数据,偏差是否被放大,无法得出结论。
1.4.偏差是否被放大的评价
有一系列的指标被设计用来测量视觉识别任务中的偏差被放大的程度。我们可以借此对图像描述方面的挑战进行量化和分析。
1)偏见放大
在[47]中提出,它通过共现的方式量化了模型预测ˆy = M(I)和关键属性(protected attributes)a∈A之间的隐性关联,以及这些关联是在模型预测中还是在训练数据中更为突出。L表示给定任务中可能的注释l的集合,即y和ˆy都在L中;ca和ˆca分别表示a和l在y和ˆy中统计出的共同出现的数量。偏差是:

其中˜c是c或ˆc,˜b是b或ˆb,分别。那么,偏置放大的定义为:

(bal是啥?为啥要跟1/|A|比较)
BA>0意味着偏差被模型放大了,否则就会被减轻。这个指标对于分类任务来说是很有用的,比如动作或图像识别,对于这些任务来说,共同发生的情况很容易被计算出来。然而,一个主要的缺点是,它忽略了关键属性(protected attributes)在数据集中可能是不平衡的,例如,在MSCOCO图像[25]中,男性比女性多2.25,这导致大部分物体与男性相关联。为了解决这个问题和其他问题,Wang和Russakovsky[38]提出了一个叫做方向性偏差放大的扩展。
2)泄漏(Leakage)
另一种量化偏差放大的方法是泄漏[40],它依赖于存在一个分类器来预测关键属性(protected attributes)a。对于D中的一个样本(I,y,a),有一个真实注释y,一个分类器f从y或ˆy=M(I)中预测属性a∈A。利用这一点,泄漏可以正式定义为:

正面的泄漏表明,相对于训练数据而言,M放大了偏差,而在其他方面则减轻了偏差。
3)挑战
将上述度量标准直接应用于图像描述,有两个主要的挑战。首先,让我们假设,对于图像描述,词汇表中的词集与公式(3)中的注释集L在多标签设置下是对应的。第一个挑战是这些指标没有考虑词的语义:例如,在一个女人在做饭和一个女人在做晚饭的句子中,做饭和做晚饭这两个标记将被视为不同的注释l。第二个挑战是它们没有考虑每个词/任务的上下文:例如,在一个男人在做饭和一个男人不做饭的句子中,做饭这个标记将被视为同一个任务。

4.图像描述的偏见放大

我们提出了一个专门衡量图像描述模型中偏见放大的指标,借用了句子分类[46]和泄漏(leakage)[40]的一些想法。我们的指标被命名为LIC,建立在以下假设之上:
假设1:在一个无偏见的描述集合中,不应该存在人口群体表现方式的差异。
遮蔽描述(中的部分词组) (Caption masking)
如第3节所述,对于一些关键属性(protected attributes)(如年龄和性别),特定的词汇可能会在描述中被明确使用。例如,考虑到性别是一个二进制的关键属性(protected attributes)a,可能的值是{女性,男性}。一个女孩在弹钢琴,这句话直接揭示了描述的关键属性(protected attributes)值,即女性。为了避免明确提到关键属性(protected attributes)值,我们通过屏蔽与该属性相关的词来预处理描述。然后,原始句子被转换为被屏蔽的句子。每一个关键属性(protected attributes)都需要有一个属性相关词的列表。一个女孩在弹钢琴。请注意,这一步并不总是必要的,因为有些关键属性(protected attributes)在描述中并没有明确地揭示出来。描述分类,我们依靠一个句子分类器fs来估计描述中的社会偏差。具体来说,我们用自然语言编码器E对每个被屏蔽的描述y′进行编码,以获得一个句子嵌入e(即提取的被屏蔽的文字的特征),如e=E(y′)。然后,我们将e输入句子分类器fs,其目的是预测y′的关键属性(protected attributes)a,即:

E和fs是通过在训练集的一个子集D上学习而获得的。根据假设1,在无偏数据集中,分类器fs在y’中找不到足够的线索来预测正确的属性a。因此,如果D上的经验概率p(^a = a)大于机会率,则认为D是有偏差的。
偏差放大
偏差放大定义为模型相对于引入的除了训练集中已有偏差之外的偏差。为了测量偏差放大,我们量化了生成的描述文本集^D = {^y = M(I) |I ∈ D}中的与训练子集D的原始描述文本(GroundTruth)中的偏差之间的差异。
此定义带来一个问题,特别是对图像描述来说,是注释和预测中使用的词汇的差异,因为:1)人类产生的描述通常有更丰富的词汇,2)模型的词汇相当有限,3)词汇本身可能有偏差。因此,简单地将公式(4)应用于图像描述,会低估偏见的放大。为了缓解这个问题,我们在原始人类描述文本中引入噪音,直到两组词汇(模型生成的和人类标注的)一致。形式上,让Vann和Vpre分别表示训练集中所有注释和预测的词汇表。对于注释y = (y1, … , yN ),其中yn是y中的第n个词,我们用一个特殊的词汇外标记(out-of-vocabulary)替换Vann中但不在Vpre中的所有yn(n∈{1,2,…,n}),以获得扰乱后的注释y⋆,并且我们在{y⋆}上训练分类器f⋆s。
LIC指标
信度分数s⋆a是分类器f⋆s的一个中间结果,即。

它可以解释为关键属性(protected attributes) a 的后验概率p(^a = a | y⋆),并且可以额外提示 y⋆ 有多少偏向于a。换句话说,对于偏差度量,不只是预测结果正确的概率很重要,预测的可信度也很重要。这同样适用于用{ˆy}训练的ˆsa和ˆfs。我们合并了这个如果不应用描述文本掩码,y′ = y。信息进入图像描述泄漏指标 (LIC),通过
因此,LIC最终被计算为
LIC = LICM - LICD 。(11)
其中,如果LIC>0,则认为模型会放大偏差。 我们把ˆsa称为偏差分数。

5. 实验

数据
实验是在MSCOCO标题数据集的一个子集上进行的[9]。具体来说,我们使用来自[46]的带有二元性别和种族注释的图像:女性和男性为性别,肤色较深和较浅为种族。5注释可用于验证集中带有人物实例的图像,总共有10,780张性别图像和10,969张种族图像。为了训练分类器,我们使用了一个平衡的分法,每个受保护的属性值有相同数量的图像,结果是性别方面有5,966张用于训练,662张用于测试,而种族方面有1,972张用于训练,220张用于测试。其他指标在MSCOCO值集上报告。
评价指标
我们使用LIC,以及公式(9)中的LICD和公式(10)中的LICM来报告偏见。对于性别偏见,我们还使用比率[8]、误差[8]、偏见放大(Bias Amplification (BA))[47]和方向性偏见放大[38]。使用MSCOCO对象[25]对对象→性别方向(DBAG)和性别→对象方向(DBAo)进行方向性偏差放大计算。对于肤色,我们只使用LIC、LICD和LICM,因为在描述文本中没有我们可以直接与种族相关联的词来计算其他指标。准确度以标准指标BLEU-4[26]、CIDEr[35]、METEOR[13]和ROUGE-L[24]报告。
模型
我们研究由以下模型产生的标题的偏差:NIC [36], SA T [43], FC [28], Att2in [28], UpDn [2], Transformer [34], OSCAR [23], NIC+ [8], 和 NIC+Equalizer [8]。NIC、SA T、FC、Att2in和UpDn是经典的CNN[22]编码器-LSTM[18]解码器模型。Transformer和OSCAR是基于Transformer[34]的模型,是目前最佳的图像描述模型。NIC+是对[8]中的NIC的重新实现,在整个MSCOCO上进行训练,另外还在MSCOCO-Bias集上进行训练,该集由男性/女性图像组成。NIC+Equalizer是带有性别偏见缓解损失(gender bias mitigation loss)的NIC+,
(5同样地,由于以前的工作中存在注释,我们对种族和肤色使用了二元化简化。我们承认,这些属性在现实中要复杂得多。)

图2. 用OSCAR生成的描述文本的性别偏向得分。遮蔽的标题用LSTM编码,并输入性别分类器。偏见分数与典型的性别定型观念相关。
这迫使模型只根据人的区域来预测性别词。请注意,作者提供的大多数预训练的描述文本模型都是在Karpathy子集[20]上训练的,它使用训练和验证子集进行训练。由于val集是我们评估的一部分,我们只在MSCOCO训练子集上重新训练所有模型。
LIC指标的细节
对于屏蔽,我们用一个特殊的标记来代替预先定义的与性别相关的词。我们不对种族预测的任何词进行屏蔽,因为种族在标题中通常不被明确提及。
LIC分类器是基于自然语言编码器之上的几个完全连接的层。对于编码器,我们使用一个LSTM[18]来实现我们的主要结果。我们不使用预先计算的词嵌入来初始化LSTM,因为它们包含偏见[6, 14]。为了完整起见,我们在使用BERT[15]时也报告了LIC,尽管它也被证明会表现出偏差[3,4],而且会影响我们的度量。对BERT进行微调(BERT-ft)或按原样使用(BERT-pre)。分类器用随机初始化训练10次,以平均数和标准差报告结果。
5.1. LIC 分析
我们对LIC指标进行定性分析,以验证它是否与人类的直觉一致。我们用OSCAR生成测试集中的标题,掩盖与性别有关的词,并用LSTM分类器对掩盖的标题进行编码,以计算性别属性的LIC偏差分数ˆsa,如第4节所述。然后,我们手动检查描述文本和与之相关的偏见分数。
图2显示了生成的具有较高、中等和较低偏见分数的标题。分配给每个标题的偏见分数与典型的性别固有印象相符。例如,图中的从上面开始的第三个标题,“一个穿着白色连衣裙的女人拿着一把伞”,产生了一个非常高的女性偏见分数,可能是由于穿裙子和拿伞的人往往是女性的典型印象。相反,最下面的标题 “一个在球场上扔球的棒球运动员”,是分配给女性的最低分数之一,它延续了棒球运动员大多是男性的典型印象。此外,当检查偏见分数在0.5左右的标题时,我们看到描述倾向于更加中立,没有强烈的性别典型印象。这支持了在LIC计算中包括s⋆a和ˆsa的重要性,如公式(9)和(10)。

Table 1. Gender bias and accuracy for several image captioning models. Red/green denotes the worst/best score for each metric. For bias, lower is better. For accuracy, higher is better. BA, DBAG, and DBAO are scaled by 100. Unbiased model is LICM = 25 and LIC = 0.
表1. 几个图像标题模型的性别偏见和准确性。红色/绿色表示每个指标的最差/最好的分数。对于偏见,越低越好。对于准确性来说,越高越好。BA、DBAG和DBAO的比例为100。无偏见的模型是LICM=25和LIC=0

Figure 3. LIC vs. Vocabulary size (left) and BLEU-4 score (right). The size of each bubble indicates the BLEU-4 score (left) or the vocabulary size (right). Score tends to decrease with largest vocabularies, but increase with more accurate BLEU-4 models, whereas NIC+Equalizer [8] is presented as an outlier. The dotted lines indicate the tendency, R2 = 0.153 (left) and R2 = 0.156 (right).
图3. 词汇量(左)和BLEU-4得分(右)的LIC对比。每个气泡的大小表示BLEU-4得分(左)或词汇量(右)。分数随着词汇量变大而减少,但随着更精确的BLEU-4模型而增加,而NIC+Equalizer[8]则作为一个离群值呈现。虚线表示趋势,R2=0.153(左)和R2=0.156(右)。

5.2. 性别偏见的量化
我们根据LIC和现有偏见指标的调整来评估不同描述文本模式的性别偏见。对于BA (Bias Amplification ),我们使用描述文本中的前1000个常用词作为L,而对于DBAG和DBAO,我们使用MSCOCO对象[25]。更多的细节可以在附录中找到。结果显示在表1中。我们还在图3中显示了标题的质量、在词汇量和BLEU-4得分方面,与LIC之间的关系。最后,我们在表2中比较了使用不同编码器(编码语言的)时的LIC。主要的观察结果总结如下。
观察结论1.1
所有的模型都放大了性别偏见。在表1中,所有模型的LICM得分都远远超过了无偏见的模型(LICM=25),其中NIC的得分最低,为43.2。对可以体现模型相对于人工标记描述文本引入了多少偏见的LIC分析可知,所有的模型都表现出偏见的放大,同样,NIC的得分最低。NIC也是在准确性方面表现最差的模型,这为准确性和偏差放大之间的关系提供了一些提示(观察结论点1.4)。
观察结论1.2
偏差指标不一致。正如第3节所分析的,不同的度量标准衡量偏差的不同方面,所以预计会产生不同的结果,这可能会导致不同的结论。尽管如此,所有的模型在所有的指标中都显示出偏差,除了比值(表1)。然而,偏倚和模型之间的关系呈现出不同的趋势。例如,NIC+Equalizer 在 LIC 中显示出最大的偏差(观察结论 1.3),而 Att2in 在 DBAo 中显示出最大的偏差。
观察结论1.3
相对于基线,NIC+Equalizer增加了性别偏见。最令人惊讶的发现之一是,即使NIC+Equalizer成功地与基线NIC+相比,它完全减轻了性别错误分类(表1中的误差:12.9 → 7.7),但它实际上增加了LIC中的性别放大偏差+4.6。这种不必要的副作用可能是由优化根据图像正确预测性别时带来的。如图1所示,NIC+Equalizer倾向于产生与该性别密切相关且相反的词,即使它们不在图像中。DBAo上的结果支持这一推理,揭示了给定一个性别,NIC+Equalizer宁愿产生与该性别相关的词。
观察结论1.4
LIC倾向于随着BLEU-4的增加而增加,随着词汇量的增加而减少。图3显示,词汇量越大,LIC得分越低。这意味着描述文本中使用的词汇的多样性对于抑制性别偏见很重要。就准确性而言,我们发现BLEU-4越高,偏见就越大。换句话说,即使更好的模型产生了更好的标题,它们也依赖于可以识别性别的编码线索。
观察结论1.5
LIC对编码器是稳健的。在表2中,我们探讨了在使用LSTM、BERT-ft和BERT-pre编码器时,语言模型的选择如何影响LIC、LICM和LICD的结果。虽然已知BERT本身含有性别偏见,但这种倾向在三种语言模型中都得到了保持,其中NIC的偏差最小,而NIC+Equalizer的偏差最大。
Table 2. Gender bias scores according to LIC, LICM , and LICD for several image captioning models. Captions are encoder with LSTM,BERT-ft, or BERT-pre. Unbiased model is LICM = 25 and LIC = 0. It shows that LIC is consistent across different language models.
表2. 根据LIC、LICM和LICD对几种图像描述模型的性别偏见评分。标题是用LSTM、BERT-ft或BERT-pre编码的。无偏见的模型是LICM=25,LIC=0。这表明LIC在不同的语言模型中是一致的。

5.3. 种族偏见的量化

使用LSTM作为编码器时,种族偏见的结果在表3中报告,导致了以下观察结论。
观察结论2.1。
所有的模型都放大了种族偏见。与性别问题一样,所有的模型都表现出LIC>0。各模型之间种族偏见的大小差异比性别问题要小(各模型之间LIC的标准差为2.4,种族为1.3)。这表明,种族偏见被放大了,此时并未过多考虑模型的结构或性能的差异。换句话说,由于所有的模型都表现出类似的偏见放大趋势,模型问题可能不仅在于模型结构本身,而且在于如何训练图像描述模型。
Table 3. Racial bias scores according to LIC, LICM , and LICD.Captions are not masked and are encoder with LSTM.
表3. 根据LIC、LICM和LICD的种族偏见得分。描述文本没有遮挡,用LSTM进行编码。

观察结论2.2。
种族偏见并不像性别偏见那样明显。表3中的LICM分数一直比表2中的小。所有模型的LICM分数的平均值,性别为47.0,种族为33.7,这更接近于随机机会。
观察结论2.3。
相对于基线,NIC+Equalizer并没有增加种族偏见。与性别偏见不同,NIC+Equalizer并没有比NIC+呈现更多的种族偏见放大。这表明,强迫模型关注人类领域以预测正确的性别,不会对其他关键属性产生负面影响。
5.4. 视觉和语言对偏见的贡献
由于图像描述是一项涉及视觉和语言信息的多模态任务,偏见可以由图像、语言或两者同时引入。接下来,我们通过分析使用部分遮挡后的图像的方式,研究哪种模式对性别偏见的贡献最大。我们定义了三个潜在的偏见来源:1)与性别相关的对象 [38, 40, 47],2)图像中人的性别[8],以及3)语言模型本身[3, 6]。为了研究它们,我们对图像的不同部分进行相应的屏蔽。1)根据BA指标,与性别表现出最高相关性的物体,2)人,3)相关的物体和人。我们分析了SA T[43]和OSCAR[23],分别代表经典和最佳的图像描述模型。实验的细节可以在附录中找到。LICM的分数显示在表4中。

表4. 部分遮挡图像的性别偏向结果。∆Unbias表示与非偏见模型(LICM=25.0)的差异,∆Original表示与非遮蔽情况的差异。

观察结论3.1.
对象(物体)对性别偏见的贡献是最小的。不含对象的结果表明,掩盖对象并不能大大减轻生成的标题中的性别偏见。与原始LICM相比,SA T的得分只下降了-1.5,OSCAR的得分下降了-2.3,结论是图像中的物体对最终标题中的性别偏差影响很小。
观察结论3.2
人对性别偏见的贡献比物体高。不包括人的结果显示,与隐藏物体时相比,通过掩盖图像中的人,我们可以大大减少偏见,这表明与人有关的区域是图像中内容的性别偏见的主要来源。
观察结论3.3.
语言模型是性别偏见的一个主要来源。结果显示,即使从图像中去除与性别相关的物体和人,生成的标题也有很大的偏差(SA T的∆Unbias是+12.2,OSCAR的+14.0)。这表明,语言模型本身产生了很大一部分偏差。为了减少偏差,仅仅关注视觉内容可能是不够的,还应该把精力放在语言模型上。

图4. 当图像被部分遮挡时,生成的标题和偏见分数。当物体(自行车)和人(男人)被遮蔽时,偏差分数不会减少。

7. 局限性

在第3节中,我们分析了多种公平性指标及其在应用于图像描述时的局限性。我们研究了提出LIC的目的是为了克服这些限制,并统一评估图像说明中的社会偏见。然而,LIC也有一些限制。
标注
LIC需要对图像的关键属性进行注释。注释不仅成本高,而且还可能有问题。例如,种族的分类是有争议的,并且与每个注释者的文化价值观密切相关[21],而性别通常被归类为二元{女性、男性}属性,缺乏对非二元和其他性别现实的包容性。
训练
对关键属性(protected attributes)进行预测,需要一个被训练后的分类器。模型的初始化和训练数据的数量可能会影响到最终的结果。为了减轻这种随机的影响,我们建议报告多次运行的结果。
预先存在的偏见
如果使用预先训练的有偏见的模型,如词嵌入或BERT,语言编码器可能会将额外的偏见传播到度量中。为了避免这种情况,我们建议初始化时尽可能多的使用随机权重。

8.结论

本文提出了一个量化图像描述中社会偏见放大的度量LIC。本方法是建立在这样的想法之上:人口统计学子群在描述中的描述方式不应存在差异。存在一个分类器,从生成的描述中预测性别和肤色比从人类的描述中预测更准确,这表明图像描述模型放大了性别和种族偏见。令人惊讶的是,为减轻偏见而设计的性别均衡器呈现出最高的性别偏见放大率,这进一步突显了图像描述领域亟需一个衡量偏见是否被放大的指标。

论文翻译及笔记【Quantifying Societal Bias Amplification in Image Captioning】相关推荐

  1. 联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记

    联邦学习笔记-<Federated Machine Learning: Concept and Applications>论文翻译个人笔记 摘要 今天的人工智能仍然面临着两大挑战.一是在大 ...

  2. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  3. 区块链分片:《Monoxide: Scale Out Blockchain with Asynchronous Consensus Zones》论文翻译个人笔记

    区块链分片:<Monoxide: Scale Out Blockchain with Asynchronous Consensus Zones>论文翻译个人笔记 日期:2019年2月26- ...

  4. 论文翻译及笔记 --Visual Place Recognition: A Survey

    论文笔记--"Visual Place Recognition: A Survey" Abstract I. INTRODUCTION II. CONCEPT OF PLACE I ...

  5. 基于MVS的三维重建算法学习笔记(五)— 立体匹配经典算法PatchMatch论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(五)- 立体匹配经典算法PatchMatch论文翻译及要点解读 声明 问题提出 问题建模 通过PatchMatch获取平面参数--Inference via Patc ...

  6. 基于MVS的三维重建算法学习笔记(四)— 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(四)- 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读 声明 SGM概述 Cost Calculation(像素代价计算)--M ...

  7. Deep Residual Learning for Image Recognition(ResNet)论文翻译及学习笔记

    [论文翻译]:Deep Residual Learning for Image Recognition [论文来源]:Deep Residual Learning for Image Recognit ...

  8. R-CNN论文详解(论文翻译)

    R-CNN系列论文(R-CNN,fast-RCNN,faster-RCNN)是使用深度学习进行物体检测的鼻祖论文,其中fast-RCNN 以及faster-RCNN都是沿袭R-CNN的思路.今天又重新 ...

  9. Arcface v1 论文翻译与解读

    神罗Noctis 2019-10-13 16:14:39  543  收藏 4 展开 论文地址:http://arxiv.org/pdf/1801.07698v1.pdf 最新版本v3的论文翻译:Ar ...

最新文章

  1. python练习册 每天一个小程序 第0009题
  2. mongodb学习参考博文
  3. CTFshow 爆破 web25
  4. 【SQL进阶】03.执行计划之旅1 - 初探
  5. hibernate:无法级联插入
  6. 模版方法模式 Template Method Pattern — 穷人和富人的不同婚恋历程
  7. 闭包 python_Python闭包思想与用法浅析
  8. [日志]说一个人长的丑!如何说?
  9. java7jdk官网下载安装,JDK官方网站下载、安装教程及环境配置,jdk官方网站
  10. 显微镜下的大明内容_《显微镜下的大明》读后感1000字
  11. jmeter性能测试各个方法介绍
  12. php公众号用户关注,微信公众号获取用户信息(用户关注公众号)
  13. pytorch应用于MNIST手写字体识别
  14. 阿里安筱鹏:一文讲透数字化转型的本质!
  15. 安卓解析xml格式字符串
  16. linux使用flask设计网站,linux下Flask框架搭建简单网页
  17. gitlab打tag标签
  18. 论程序员成就之天梯排行榜
  19. 'internalField' 和'boundaryField'的区别?【翻译】
  20. 国在产vr视频区_九台vr技术安全体验馆VR行走平台资讯

热门文章

  1. 100000以内的质数表
  2. 【大数据】服务器硬盘基础知识
  3. 《穷爸爸与富爸爸》语录之一
  4. HTML—超文本标记语言
  5. Windows构建Flutter环境,无法访问maven.google.com
  6. github获取token
  7. eclipse第十七课时
  8. 3D游戏中的数学运用
  9. border属性之border-radius
  10. 以太网通信(1)UDP —— 数据发送