CS269I：Incentives in Computer Science 学习笔记 Lecture 17 评分规则和同辈预测（诚实预报和反馈激励）

Lecture 17 Scoring Rules and Peer Prediction(Incentivizing Honest Forecasts and Feedback)（评分规则和同辈预测（诚实预报和反馈激励））

1 Scoring Rules（评分规则）

1.1 Motivation

我们接下来的目标是对于一个非确定性时间给出一个好的预测。例如：

你问天气预报：明天下不下雨？
你问民调机构：下次选举是民主党赢还是共和党赢？
你问微软的一个雇员：下一个版本的MS Office会不会延期发售？

评估预测的质量似乎很棘手。例如，假设天气预报员宣布“明天有30％的机会下雨”，然后下雨。这到底是预报不好呢，还是预报比较倒霉？
一种简单的方法是，如果预测对实际发生的结果的概率大于50％，则将其称为“好”，否则将其称为“不好”。但这是一个奇怪的规则——预报员没有理由说“100％”或“0％”以外的任何内容。（因为无论如何，“51％”都和“100％”相同。）那么，为什么预测者要费心去制定更细微的预测？显然，我们希望“良好”预测的二元论概念更少，而我们对预测质量的评价会随着发生的结果的增加而增加。

为了标准化这个结论，令X为所有可能的结果的集合，而我们迄今为止讨论的二元事件（“阴晴”“民主共和”“准时延迟”）表明|X|=2。取|X|=2确实是足够的，尽管如果取更多的值我们就能得到更加一般性的结论。

定义1.1：（Scoring Rule，评分规则）一个评分规则是指一个实值函数S(q,i)，其中q是一个在X上的概率分布（预测），i是X上的真实结果。

例如，我们在上面的例子可以解释为：q是“下雨/不下雨：30％/70%”，i是“下雨”。如果q_i> 1/2，则上面的二元计分规则对应于设置S（q，i）= 1，否则为0.

1.2 Strictly Proper Scoring Rules（严格正确评分规则）

我们接下来的目标是建立一个“真实的（truthful）”的评分规则。为了规范化，我们需要考虑是什么在激励预报者。模型如下：

一个拥有某种“信念”p的预报员，p是在X上的一个概率分布。
一个预报员希望选择她的预报q，使得她在上面的评分函数中得到的分数最大化（q和p可能相等也可能不等）。事实上，这并不是很有意义，因为预报员的分数还要取决于真实的结果，这并不由她控制。因此我们假设播报员希望最大化她的期望分数：
max⁡qEi∼p[S(q,i)]\max _{\mathbf{q}} \mathbf{E}_{i \sim \mathbf{p}}[S(\mathbf{q}, i)] qmaxEi∼p[S(q,i)]
其中i的期望是由播报员心中对i的分布的“信念”p决定的。

注意：我们假设播报员是关心她的期望分数的。这可能是因为分数代表着报酬，或者名誉之类的激励趋势。

给定这个模型，我们就能够定义评分规则的“真实性”：使得p=q的评分规则。因为历史原因，这种规则称为“strictly proper（严格正确评分规则）”。

接下来是对于评分规则的关键定义：

定义1.2：（严格正确评分规则）一个评分规则S是严格正确的，如果不论播报员的真实信念p是多少，其唯一最优反应都是诚实地进行预报。

当然，也可以定义（较弱的）正确评分规则：最优反应是诚实播报，但是可能会有多种最优反应。但是，这种定义比较无聊，因为就算给所有的q都评分S(q,i)=0，结果也是正确的。

1.3 A Non-Example

让我们试着来寻找一个严格正确评分规则。回忆一下，我们想要播报员给出她们真实的预测。也许我们应该先来试试这个：
S(q,i)=qiS(\bold{q},i)=q_i S(q,i)=qi
其中q_i是指在q中预测的出现i的概率。

这个规则是严格正确的吗？事实上，它甚至都不是弱正确的！这个规则会激励播报员报出的q是其在信念p下认为最有可能出现的结果。

证明：显然在q和规则S下得到的期望评分为：
E[Score]=∑i∈XpiqiE[Score]=\sum_{i\in X} p_iq_i E[Score]=i∈X∑piqi
根据排序不等式和调整法，显然得知E在q_k=1（k使得p_k最大），其余为0的情况下取得最大值。

1.4 The Quadratic Scoring Rule（平方评分规则）

好在，严格正确的规则确实是存在的，而且有不少。下面我们介绍第一个：平方评分规则，其定义如下：
S(q,i)=qi−12∑j∈Xqj2S(\mathbf{q}, i)=q_{i}-\frac{1}{2} \sum_{j \in X} q_{j}^{2} S(q,i)=qi−21j∈X∑qj2
虽然平方规则包含了和之前一样的线性项，但是同时也包含了平方的惩罚项。这个惩罚项避免了之前线性项可能导致的极端情况。

命题1.3：平方评分规则是严格正确的：

证明：同样的，对于给定的p，得到的期望评分如下：
∑i∈Xpiqi−12∑i∈Xpi∑j∈Xqj2\sum_{i \in X} p_{i} q_{i}-\frac{1}{2} \sum_{i \in X} p_{i} \sum_{j \in X} q_{j}^{2} i∈X∑piqi−21i∈X∑pij∈X∑qj2
这个函数关于q是凸函数，因此其仅有一个极值点。然而，对于任意i，对q_i求偏导，立得：
∂f∂qh=ph−∑i∈Xpiqh\frac{\partial f}{\partial q_{h}}=p_{h}-\sum_{i \in X} p_{i} q_{h} ∂qh∂f=ph−i∈X∑piqh
由于Σp_i=1，立得p_h=q_h时该偏导为0。因此，这表明当p=q的时候取到最大值。证毕！

对于这个证明，我们有很多评论：

首先，检查所有导数均为零（“一阶条件”）通常仅是最大值的必要条件，而并不一定充分。但是对于这样的严格凹函数，一阶条件也足以达到最优。

其次，证明显示出比命题1.3所主张的要强大的东西。即设置q = p是（3）在所有实值向量q上（而不仅是在概率分布q（还要求Σq_i=1）上。）当然，如果q = p在实值向量中最优，那么它当然在所有概率分布中也都是最优的。

给定一个严格正确的评分规则，一个人可以通过平移和放缩来构建其他评分规则（亦即，通过仿射变换）。

命题1.4：如果S是一个严格正确评分规则，a>0，那么aS+b也是一个严格正确评分规则。

证明：显然

这个结论的一个用处是让可怜的播报员的得分不要变成负数，例如，给上面的评分加一个常数项1/2可以让它保持非负。

1.5 The Logarithmic Scoring Rule（对数评分规则）

关于平方评分规则的一个令人好奇的地方在于：分配给预测的得分不仅取决于实际发生的结果，而且取决于未发生的结果。这样做可能是不自然的——尚不清楚为什么评分规则应该对未发生的结果的不同预测具有管辖权。这种奇怪的规则是为了满足严苛条件的必然结果吗？

我们的第二个规则由Good在1952年发现，被称为对数评分规则：它很简洁：
S(q,i)=ln qiS(\bold{q},i)=\text{ln}\ q_i S(q,i)=ln qi
评论：首先，请注意分配给预测的分数仅取决于预测者分配给发生的结果的概率，而不取决于分配给其他结果的概率。其次，请注意，对数的底数并不重要，因为不同的对数相差一个常数（并且通过缩放保持严格的正确性）。第三，该评分规则的结果永远非正，因此通常使用其移位版本。例如，在后面加一个常数，可以确保预测者可以保证自己具有非负效用（通过报告一个均匀分布）。最后，请注意，对数评分规则不受以下限制：如果播报员将预测某个结果的概率为0，但该结果却发生了，则预测员的分数就是-∞。（当然，如果预测者100％确信不可能取得结果，则不在乎在那种（不可能的）情况下她得到的分数。）但是，如果你不希望这样，你可以要求每个事件的预测概率必须有一个正下限。

命题1.5：对数评分规则也是一个严格正确的规则。

证明：同理，期望评分为：
Ei∼p[S(q,i)]=∑i∈Xpiln⁡qi\mathbf{E}_{i \sim \mathbf{p}}[S(\mathbf{q}, i)]=\sum_{i \in X} p_{i} \ln q_{i} Ei∼p[S(q,i)]=i∈X∑pilnqi
同样的，这个函数对q来说是严格的凸函数。那么，再次求偏导：
∂f∂qi=piqi\frac{\partial f}{\partial q_i}=\frac{p_i}{q_i} ∂qi∂f=qipi
与命题1.3的证明不同，没有q的值将这些导数归零。我们断言：当且仅当所有偏导数相等时q才是最优的。否则，假设一个（i的）大于另一个（j的）——则将少量的的概率密度从j转移到i，这将产生一个新的分布q0，其期望分数严格大于（5）。所以，达到均衡的唯一方法是将q与p成正比。具有此属性的唯一概率分布为p。

1.6 Final Comments（最后的评论）

二次或对数评分规则哪个更好？通常，没有明确的答案。如果您对二次评分规则使用了未出现的结果的概率感到困扰，那么您可能更喜欢对数规则。如果您对数规则对小概率的变化非常敏感感到不安，那么您可能更喜欢二次规则。尽管对数规则已被更广泛地使用（特别是在预测市场的背景下，在下一讲讨论），但实际上这两个规则都已在实践中实现。在实验中，两者看起来都能很好地得出真实的预测。

当然，我们不能光学理论，应用也很重要。接下来，我们将看到它的两种应用：在本讲中，是关于激励诚实反馈；在下一讲中，则关于设计或预测市场。

2 Incentivizing Honest Feedback（激励诚实反馈）

2.1 Motivating Examples

假设您要求某人以1到5的等级对电影评分。我们可以使用评分规则来激励评论者陈述他们的真实观点吗？当然不行——问题是计分规则依赖于某些可验证的“基础事实（ground truth）”结果的实现。这个假设可能由于两个概念上不同的原因而失败：第一，根本没有事实依据；第二，存在基本事实，但确定成本太高。可验证结果的假设对于天气预报来说是很好的，但似乎不太适合对电影分级等主观意见进行评分。

第二个相关示例是同伴评分（peer grading）（学生对其他学生的作业进行评分），尤其是在MOOC（“大规模在线公开课程”）中进行大规模评分。可以想象一个经验丰富的老师提供作业的“基本事实等级”，然后使用某种评分规则根据学生的评分给作业进行评分。但这在大规模课程中是不可行的（老师无法给所有作业打分）。

那么，现在MOOC中是如何进行同伴评分的？不考虑任何激励措施，例如，一个学生的作业可能由五个同伴评分，而该学生的最终成绩是这五个成绩的中位数。

并不惊奇的是，实际上，同伴的评分之间存在很大差异（尽管中位成绩通常出乎意料地准确）。但是，如果我们想在无法直接验证准确与否的情况下激励准确的评分，该怎么办？例如，可以将评分质量作为学生成绩的一部分，或引入声誉系统以公开认可好（或坏）的评分者。

2.2 The Model

首先，我们当然要对这个问题建立一个模型：

有n个玩家（MOOC里面的n个同学）
第i个玩家有一个“信号”si，表示其现在拥有的信息，例如，对作业的质量的真实看法。
每个玩家i向机制（例如，mooc平台）提交一个报告ri，ri可以等于或不等于si
这个机制向i支付π_i（r1,…,rn）

评论：首先，“支付”πi可能是金钱，也可能是玩家关心的其他某种货币（例如额外的信用点或声誉）。当前，在大多数MOOC中，πi仅为零。无论如何，我们假设每个玩家都想最大化πi（r1，…，rn）。最后，请注意，该机制做出的决定（即付款πi）取决于它所拥有的唯一信息，即玩家的报告r1,…,rn（而不是任何“真理”）。

一个玩家想从机制中选择她的报告ri，以最大化其支付πi（r1,…,rn）。但是这笔费用取决于其他玩家的报告（可能未知）。那么玩家应该如何比较不同报告的相对收益？与上一讲类似（用于使收益最大化的拍卖），我们预先假设信号存在一个先验分布。

也就是说，我们会假设信号的集合(s1,…,sn)是从一个n维先验分布D中提取出来的，而且每个玩家都知道D。例如：

我们同时假设D是对称的，也就是说玩家的排序方式对结果的概率没有影响。

在上面的示例分布中，两个玩家的信号不是独立的（这与上一讲讨论的拍卖模型形成对比，在拍卖模型中，我们假设出价者具有独立的估值）。例如，如果对于s1一无所知，s2为0或1的概率分别为2/5和3/5。但是，如果我们给定s1 = 0，则s2为0或1的（条件）概率分别变为3/4和1/4。即，另一个玩家将给该作业评分很差的可能性变大。 在我们的激励性应用中，玩家拥有相关联的信号是有意义的。 例如，玩家的信号可能会受到某些未观察到的事实的干扰，例如任务的真实质量。

2.3 Output Agreement

那么我们应该如何选择支付函数π1,…,πn激励玩家进行真实的报告？第一个想法是奖励玩家之间的共识。如果我们希望从玩家的报告中得出粗略的共识，那么这很直观。正式地，该机制的工作原理如下：

Output Agreement：（输出共识）

对于每个玩家i，选择一个随机的玩家j≠i，i的支付πi等于1当且仅当ri=rj，否则等于0

如果您曾经玩过ESP游戏（规范的“有目的的游戏”），就会熟悉输出共识机制。 ESP游戏的目的是使人们对图像进行注释的过程变得有趣，以为监督的机器学习算法生成一个较好的标记数据集。 ESP游戏的工作原理是向两个随机的玩家展示相同的图像，要求他们输入图像的描述性单词，并在他们每次输入相同的单词时用虚拟货币奖励他们。这正是输出共识机制。

输出协议机制是否真实？也就是说，玩家是否能通过报告自己的真实信号来最大化其预期的报酬？至少，在所有其他参与者都真实地举报的情况下，这种保证是否成立？

答案取决于先验分布D。在上面的示例中，输出协议机制是真实的，这意味着，如果所有其他参与者都在如实报告，则如实报告对于玩家是唯一的最佳响应。例如，如果玩家1收到信号0，则相对地，他知道玩家2更有可能得到信号0（3/4概率）而不是1（1/4概率）。这意味着他报告0（这是真实的报告）可以取得最大的收益。同样，如果s1 = 1，则第二个玩家具有信号1的概率为5/6，因此最佳响应也是报告信号1。

当然了，一般情况下，这个机制不是真实的，例如：

假设第一个玩家收到信号0。第二个玩家也收到信号0的条件概率为1/3。所以，第二个玩家收到信号1的可能性仍然更高。因此，第一个玩家的最佳反应是报告1，即使她的信号为0。

总之，这个机制是真实的当且仅当对任意的x,y，P[s2=x|s1=x]>P[s2=y|s1=x]，也就是说，对角线上的数值必须是其所在行列最大的。

但是是否存在一个完美的激励机制呢？

2.4 The Peer Prediction Mechanism（同伴预测机制）

接下来我们做一个额外的假设，即该机制已知信号上的分布D。根据设置，此假设可能是合理的，也可能是不合理的。

我们接下来描述一个优雅的机制：同伴预测机制。其核心想法在于：把每个玩家的报告当做是对于其他人的报告的一种预测，然后使用一个严格正确的评分机制S来评价这个预测。S可以随便取，不管是平方还是对数都可以。机制如下：

Peer Prediction（同伴预测）

对于每个玩家i：

（a）选取一个随机玩家j≠i

（b）令Dj(ri)表示sj的分布（假设si=ri）

（c）令i的支付πi是S(Dj(ri),rj)

也就是说，这个机制假设ri=si，并以此推导出sj的概率分布。

同伴预测机制在较弱的条件下是真实的：不同的报告（ri）应该造成不同的条件分布（Dj（ri））。例如，第二个学生分配分数的条件分布对于第一个学生可以分配的每个等级（在{A，B，C，D，F}中）是不同的。这种假设或多或少不失一般性：如果两个信号在其他信号上引起相同的条件分布，您也可以将两个信号合并为一个。

下一个命题指出，同伴预测机制的均衡是真实的。

命题2.1：在同伴预测机制中，给定其它玩家是诚实的，那么每个玩家也会诚实地进行报道。

证明：由于每个i以外的同伴j都是诚实的，因此，假设i拥有的信号是si，那么rj的分布就应该确实是Dj(si)，从而，根据S的严格正确性，当且仅当ri=si的时候，Dj(ri)取得最大值，因此诚实报道是最优的。

2.5 Implementation Chanllenges（补充挑战）

同伴预测机制是一个很好的主意，但是在实践中直接实施它有一些障碍（在过去的十年中，这激发了很多后续工作）。首先，我们已经提到了缺点，即该机制需要事先了解信号分布上的先验分布D。我们已经注意到，这种假设有时是可行的，有时不是。许多随后提出的机制实际上是通过从玩家的报告中学习D的近似值来解决此问题的（以增加机制复杂性或对玩家数量的额外假设为代价）。

第二个非常严重的问题是存在额外的（非真实的）均衡。使用输出共识机制最容易看到此问题——如果每个机构始终报告“ 1”，那么每个人都可以获得其最佳情况下的1收益。而且，玩家们有很大的动力进行这种平衡的移动——不仅每个人都得到他们最大可能的回报，而且不需要付出任何努力。但是，这种平衡对任何运行该机制的人来说都是一场灾难——报告独立于参与者的信号，不提供任何信息。这种“非信息性”的平衡也困扰着同伴预测机制。

这个问题不仅仅是理论上的。在实验中，在某些情况下，参与者确实在高收益但缺乏信息平衡的情况下进行了协调。伤害不大，但侮辱性极强的是，向参与者支付固定的报酬（与报告无关）反而可以带来比Peer Prediction风格的机制更真实的报告！！使用非平凡的机制来引起反馈似乎会促使参与者进行战略性思考与合作，从而导致信息量较少。

许多正在进行的研究正在尝试减轻这些问题。例如，一种逃避上述障碍的方法是进行有限数量的验证，以针对少量结果（例如，由教师而不是由学生评分一些作业）得出基本事实。另一种方法是调整同伴预测机制，以使所有非信息性（即与信号无关）的均衡为所有参与者提供比真实均衡更低的收益，以此鼓励参与者在真实均衡上进行协调。