©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

根据相关性概率对项目进行排序一直是传统排序系统的目标。虽然这最大化了传统的排名标准,但人们越来越认识到,在线平台不仅服务于多样化的用户群体,而且还服务于产品的生产者,这是一种过于简单化的做法。

特别是,排名算法在如何服务所有用户群体(而不仅仅是多数用户群体)方面应该是公平的,而且在如何在项目之间划分曝光率方面也应该是公平的。

然而,本文证明了用户公平、item 公平和多样性是本质上不同的概念。特别地,作者发现,只考虑其中一个需求的算法可能无法满足,甚至损害其他两个需求。

作者提出了第一个排序算法,它显式地强制执行所有三个要求。

从它的解中,可以通过一种新颖的 Birkhoff-von Neumann 分解算法得到一个排序策略,该算法优化了多样性。

论文标题:

User Fairness, Item Fairness, and Diversity for Rankings in Two-Sided Markets

论文来源:

ICITR 2021

论文链接:

http://www.cs.cornell.edu/people/tj/publications/wang_joachims_21a.pdf

理论分析

第一,作者进行了零效用分析,具体来说:

  • 首先,最大化整体效用可能会导致用户组和/或 item 组的效用为零,并且它可能无法覆盖意图的最大数量。

  • 其次,强制执行 item 公平性可能会导致用户组的效用为零,并且无法覆盖最大的意图量。

  • 第三,最大化用户公平性可能导致 item 组的效用为零,并且不能覆盖最大的意图量。

  • 第四,最大化多样性会导致用户组和/或 item 组的效用为零。

根据这一分析,作者得到如下结果,并总结了两条定理:

  • 定理 1:存在非退化排序问题,任何排序策略 ???? 最大化整体效用 ????(????|????) 对某用户组 ???????? 的效用 ????(????|????????,????)=0。

  • 定理 2:对于任何非退化排序问题,都存在一个用户公平函数 ????,使得排序策略 ???? 使用户公平最大化 ???????? (????|????),那么在这个排名策略 ???? 下,每个用户组都有非零的效用。

其次,作者进行了效用-效率分析,得到了如下结果,并同样总结了两条定理:

  • 定理3:对于任何非退化的排名问题和用户公平性函数 ????,如果排名策略 ???? 使用户公平性 ????????(????|????) 最大化,则 ???? 对用户组来说是帕累托效率。

  • 定理4:存在排名问题和用户公平性函数,在任何排名政策下,项目都没有按照每个 item 组内的预期相关性进行排名 ???? 这最大化了用户的公平性 ???????? (????|????)。

模型

在研究的基础上,作者提出了 TSFD 算法,该算法分为 3 个步骤。

首先优化用户公平性和商品公平性:

然后采样一些多样性排序结果:对于每一轮 Birkhoff 算法,找到一个排列(排名)????,该排列可以从边缘排名概率矩阵 Σ 中抽样。这相当于寻找由 Σ 生成的二部图的完美匹配 ????。然后将这个 ???? 添加到排名策略 ???? 中,选择概率为排列 ???? 中最小的条目。然后从 Σ 中减去这个排列中所有元素的选择概率。实验证明该算法是正确的,在每一轮中,总能从 Σ 生成的二部图中找到一个完美匹配。而且,生成的策略不超过 (????−1)2 +1 排列,其中 ???? 是 Σ 的维度。

实验

在实验阶段,作者首先研究了用户意图相似性、用户群体比例和曝光度如何影响用户公平性

作者发现三个因素的影响在男性和女性之间的实用率用户组 ????????????????????????????/????????????????????=????(????|????????????????????????,????)/????(????|????????????????,????),衡量效用两个用户组之间的区别。对于最大化用户公平的政策,少数人(女性)随着意向相似性的降低,群体的效用比率也会降低。该比率也随着男性群体比例的增加而降低,并在不同的暴露陡度下保持平稳。这是意料之中的,因为用户公平性目标为大多数群体赋予了更大的权重,但却忽略了曝光度的陡度。

所提出的 TSFD Rank 与只最大化用户公平性的策略达到了几乎相同的比例,这表明了它在公平分配两个用户组之间由于其他需求造成的效用下降方面的有效性。最大化 item 公平性或整体效用的策略放大少数(女性)用户群体的效用降幅大于 TSFD 排名。使多样性最大化的政策有时会放大效用下降,有时又会矫枉过正。

其次作者研究了外在偏差和曝光陡度如何影响 item 公平性

具有不同偏差的结果如图(d)所示。最大化 item 公平性的策略确保随着偏差的增加,曝光率大致呈线性变化,这是可以预料的,因为曝光率是黑点电影的平均相关性的线性函数,而黑点电影的平均相关性又是偏差水平的线性函数。

所提出的 TSFD 排序与最大化 item 公平性的策略获得了相似的曝光率,而所有其他方法都导致了对较少代表性的黑线电影的偏见的过度放大。图(e)显示,当曝光陡峭度增加时,TSFD 排名和最大化 item 公平性的策略都能够控制赢家通吃的动态,而所有其他方法都不能确保对较少代表性的黑线电影的更公平的曝光量。

最后作者研究了意图的数量和曝光的陡度如何影响多样性

图(f)显示,随着意图数量的增加,最大化多样性与最大化用户公平性的距离越来越远。图(g)和(h)表明,随着意图数量的增加和暴露度分布的陡峭,满足其他需求的政策会进一步偏离政策最大化多样性。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

ICITR 2021 | 排序算法中的用户公平性、item公平性和多样性相关推荐

  1. 在遗传算法中出现等式约束_排序算法中的稳定性-等式的处理

    在遗传算法中出现等式约束 by Onel Harrison 通过Onel Harrison 排序算法中的稳定性-等式的处理 (Stability in Sorting Algorithms - A T ...

  2. 排序算法中平均时间复杂度_操作系统中的作业排序(算法,时间复杂度和示例)...

    排序算法中平均时间复杂度 作业排序 (Job sequencing) Job sequencing is the set of jobs, associated with the job i wher ...

  3. 分治法在排序算法中的应用(JAVA)--快速排序(Lomuto划分、Hoare划分、随机化快排)

    分治法在排序算法中的应用--快速排序 时间复杂度:平均O(nlogn),最坏O(n^2) 如果说归并排序是按照元素在数组中的位置划分的话,那么快速排序就是按照元素的值进行划分.划分方法由两种,本节将主 ...

  4. 蛮力法在排序算法中的应用(JAVA)--选择排序、冒泡排序

    蛮力法在排序算法中的应用 对于一个排序问题,我们能想到的最简单的排序方法就是选择和冒泡 1.选择排序:时间复杂度O(n^2) public class Main {public static void ...

  5. 减治法在排序算法中的应用(JAVA)--插入排序

    一.减治法在排序算法中的应用 插入排序:时间复杂度O(n^2),虽然和选择.冒泡在最坏的情况下时间复杂度相同,但是插排平均性能在比自身的最差性能快一倍,所以相比选择.冒泡来说,插排要领先于二者. pu ...

  6. 排序算法中——归并排序和快速排序

    冒泡排序.插入排序.选择排序这三种算法的时间复杂度都为 $O(n^2)$,只适合小规模的数据.今天,我们来认识两种时间复杂度为 $O(nlogn)$ 的排序算法--归并排序(Merge Sort)和快 ...

  7. 分治法在排序算法中的应用(JAVA)--归并排序

    分治法最常用的就是将规模为n的实例划分成两个n规模为n/2的实例 .推广到一般的情况,我们可以将规模为n的实例划分为b个规模为n/b的实例.这样对于算法的运行时间存在递推式:T(n) = aT(n/b ...

  8. 12种排序算法:原理、图解、动画视频演示、代码以及笔试面试题目中的应用

    0.前言 从这一部分开始直接切入我们计算机互联网笔试面试中的重头戏算法了,初始的想法是找一条主线,比如数据结构或者解题思路方法,将博主见过做过整理过的算法题逐个分析一遍(博主当年自己学算法就是用这种比 ...

  9. 程序员必知必会的十大排序算法

    绪论 身为程序员,十大排序是是所有合格程序员所必备和掌握的,并且热门的算法比如快排.归并排序还可能问的比较细致,对算法性能和复杂度的掌握有要求.bigsai作为一个负责任的Java和数据结构与算法方向 ...

最新文章

  1. 使用虚拟机运行Ubuntu时,主机与宿主机共享文件的方法。
  2. 克服拖延的11种方法
  3. 产品微操的艺术:提高核心指标的5个需求原理(1~5完)
  4. 注意力机制中的Q、K和V的意义
  5. 清华大学人工智能研究院知识智能研究中心成立
  6. 分布式流媒体直播服务器系统 For Linux
  7. 《Java8实战》笔记(07):并行数据处理与性能
  8. Python 两个list获取交集,并集,差集的方法(合并、交叉)
  9. hal库串口dma卡死_HAL库版DMA循环模式串口数据收发
  10. Python 语言简介与入门(1)
  11. LINGO 11.0安装教程
  12. 计算机二级access数据库考试题型,2016最新计算机二级Access数据库试题及答案
  13. kuangbin带你飞系列目录与简介
  14. catia批量转stp文件格式_CATIA CGR格式文件转stp或igs文件 | 坐倚北风
  15. DH算法图解+数学证明
  16. php取名字第一个字,php 获取姓名拼音首字母
  17. python输入半径计算球的体积公式_编写程序:根据输入的球的半径,分别计算球的表面积、体积输出计算结果。...
  18. P4939 Agent2
  19. STM32RBT6+RC522读取CPU卡demo
  20. 什么是散列表(Hash Table)

热门文章

  1. c++ map 析构函数_说说C++的虚析构函数
  2. delphi 遍历所有文件夹
  3. HDU 3537 Daizhenyang's Coin
  4. 在64位的linux中运行32位的应用程序
  5. 23.IntelliJ IDEA 常用设置-1
  6. 报表移动端app如何实现页面自适应?
  7. sqlserver中GUID的默认值设置
  8. Java版世界时钟示例
  9. 测试架构师的目标和价值
  10. 北京2008奥运会吉祥物福娃大家庭