AAAI 2021最佳论文阅读：通过强化校准减轻语言模型中的政治偏见

©PaperWeekly 原创 · 作者｜张一帆

学校｜华南理工大学本科生

研究方向｜CV，Causality

论文标题：

Mitigating Political Bias in Language Models Through Reinforced Calibration

论文链接：

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf

Main Contribution：描述了衡量 GPT-2 生成任务种政治偏见的指标，并提出了一个基于强化学习 (RL) 的框架来减轻生成文本中的政治偏见，该框架不需要访问训练数据或者重新训练模型。

Motivation

GPT-2 名声在外，被称为 NLP 界的“核武器”。虽然刷榜无数，但是存在的问题也逐渐浮现了出来。由于使用了大量的预训练数据，因此模型不可避免的产生了像人一样的“政治偏见”，这些政治偏见主要与性别，位置，话题有关。文章将偏见分为两种：

Indirect Bias：句子中带有以上三种类别相关的关键词导致的 bias；
Direct Bias：除了相关关键词之外，使用了很强的触发词（比如民主党，共和党）。

如何评估和解决这些 bias，是这篇文章的要点。

Notations

Sensitive Attributes：本文探讨了三个敏感属性:性别、地点、话题。每个属性都包含多个选项（例如，male 是一个性别选项，bluestate 是一个位置选项），每个选项都可以用关键字来举例（例如，Jacob 是一个关于 male 的关键字，massachusetts 是一个blue states关键字）。接下来用

表示关键字，

表示选项，

表示属性。

Language Modeling：文中的语言模型即输入与含有敏感属性相关提示符

的句子，输出一个序列。

Bias Judgement：这里有一个重要概念，我们预训练一个政治偏见分类器

。给定一个生成的 token 序列

，他能计算出一个得分

。接近 0 的值表示句子偏向自由派，否则偏向保守派。定义一组 text 的 base rate 为其中每个文本被我们预先训练的分类器分类为 1 的相应概率的分布。

Metrics

这部分是文章的重点之一，如何刻画生成模型对性别、地点、话题属性的敏感程度，甚至是更细粒度的对男/女，具体位置这些选项的敏感程度？文章提出了两个指标

INDIRECT BIAS：他的定义如下，给定：

: 根据选项

所含关键字产生的文本集合；
: 属性

所含所有属性的关键词产生文本的集合。

直观来看，如果我们模型生成的文本对

选项不敏感，那么

的 base rate 可以写作

，而后者恰好是我们用

来生成文本集合的 base rate（想象一下我们有属性：性别，选项：男/女，每个选项生成五条文本，由所有属性生成的文本显然分布很均匀，不对任何选项有偏见。所谓的对某选项不敏感，即我们喂模型该选项相关的关键词，生成文本的分布与总体分布是一致的--Option Invariant）。

那么现在目标很明确了，给定选项

，属性

，我们需要一个 distance function 刻画这

，

两个集合 base rate 之间的距离，文章选择了 second order Sliced Wasserstein Distance，具体写作：

DIRECT BIAS：所谓的 direct 就是说我们直接在生成过程提供政治敏感的词汇作为条件，定义为：

上标

代表提供自由派相关的词汇，

表示保守派。当这个差值为 0 的时候，说明了我们的模型不管给定什么敏感词汇，输出的分布都是一致的，也即对这些政治敏感的词汇 unbiased。

Debias through Reinforced Calibration

有了这些 metric，接下来的问题就是如何减小它们了。相信很少有人愿意花上亿资产 retrained 整个 GPT-2，这篇文章采用了类似于 fine-tune 的手段，在 softmax 与 argmax 之间插入 debias 的模块来对生成的 embedding（下图 Mode1）或者 distribution（下图 Mode2）进行校准。

简单介绍一下强化学习的基本设置：

时刻

的state:

，即该时刻之前生成的所有文本；
时刻

的action:

，即该时刻输出的文本；
policy

：最后一个隐层的 softmax 输出，这个 policy 可以看作给定 state

，我们选择 action

的概率。

文章还准备了 (i) 两个数据集

（L,C 即自由派，保守派）。(ii) 两个分类器，一个基于 GPT-2 的分类器

以及之前提到的

。

每个时刻的 reward 定义为：

其中

是根据 mode 不同设计的不同奖励信号。除此之外，debias policy

与原本模型采取的 policy

的商作为因子更好的引导该优化过程。

接下来的问题就是如何针对这两个 mode 设计不同的奖励信号了。

MODE 1: Word Embedding Debias

在 embedding 的层次上，文章采取的策略是这样的，给定

两个词汇集合，一个 embedding 的 distance 函数

，奖励信号写作：

前两项希望 word

距离两个有偏词集合越远越好，最后一项希望 word 与两个集合的距离尽量一样。

MODE 2: Classifier Guided Debias

生成文本到

时刻生成的结果一共可以写作

，总共的 debias 增益可以计算为每步产生的加权增益的总和。

这里的

是一个 discounting factor。而这个增益可以写为一个 cross-entropy 的形式：

还记得我们预先训练的

吗？这个负的交叉熵就是为了计算该分类器将给定 token 的分类结果。为了使得输出 unbiased，我们最大化交叉熵，因此 reward 是负的交叉熵损失。

最后，为了防止

差距过大使得可读性变差，文章还加入了 KL 散度作为约束，总体的算法如下：

该算法被称为校准，因为它不是从零开始生成无偏文本，而是对原始的 hidden states 执行 debias。该算法将产生一个无偏政策

，我们可以用它生成符合政治中立的文本。

Expermients

对于每个属于某个选项

的关键字

，我们生成 10 个样本，长度为 100 个 token，每个样本有 M=10 种提示。因此，对于一个给定的选项，我们生成 |a|·M·10 个样本（比如文章选择了 17 个男性名字来代表这一性别属性，因此总共产生了 1700 个句子作为代表样本）。

简单看一眼 evaluation 的结果，显然比起 baseline 来，无论是 mode1 还是 mode2，提升都比较显著。

同时，模型的偏见在减小的同时，可读性，与关键词的一致性甚至有所提升。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。