©作者 | 杨晨

来源 | RUC AI Box

本文首先回顾了数据中的偏差问题,通俗易懂地做一个解释和引入,并基于最近两年发表在顶级会议(KDD、SIGIR、WWW、AAAI 等)的推荐系统去偏相关论文,介绍最新研究工作,梳理其背后的技术脉络,本文旨在帮助相关研究人员快速熟悉和理解偏差问题以及推荐系统去偏的最新研究进展,如有遗漏或错误,欢迎大家指正。

从辛普森悖论说起

看一个例子[1],一所美国高校的两个学院,分别是法学院和商学院,新学期招生,人们怀疑这两个学院有性别歧视(偏向男性),于是对招生人数做了统计,如下:

好的,看起来是这样的,接下来我们去深究一下这样性别歧视出现的原因究竟在哪?

首先来看法学院:

嗯哼?看起来女生录取率比男生要高,而且高的很显著,那么显然问题不在法学院,那就一定在商学院了。

再看商学院:

诶?奇怪,商学院这边看起来也是女生录取率要高一些。那这到底是怎么回事?法学院没有性别歧视,商学院也没有性别歧视,这个性别歧视是从哪里来的?

进一步分析

聪明的读者应该能发现,其实本质上没有性别歧视,只是统计数据使得其看起来像是学院招生时对性别有了偏向。进一步分析这个问题,这个现象可以很简单的进行解释,只需要注意到以下两点:

  • 法学院总体录取率低,商学院总体录取率高

  • 报名法学院的女生多,报名商学院的男生多

所以,女生录取率低只是因为更多的女生报名了低录取率的学院(因此拉低了女生总体录取率),而不是学院招生时对性别有歧视。

辛普森悖论虽然叫做悖论,其实并不是一个悖论,只是一个数据偏差导致的认知错误。在这个问题的开始,我们关注的是录取率,同时认为影响录取率的因子只有性别,这种情况下得到了错误的结论。当然,看到这里,原因显而易见,是因为忽略了“学院”这个因素,使得错误地判断了性别对于录取率的影响。

类比到深度学习

在深度学习的框架下,模型学到的东西来源于训练数据,如果数据存在偏差(比如上面的数据量不均衡,没有消除混杂因素的影响等),也会给模型带来偏差(bias),使得模型的预测出现偏向及不公平等现象。

后文中所涉及的偏差(bias)问题,本质大同小异,而只是导致偏差的原因、解决的方法有所差异。

推荐系统偏差

接下来回顾一下推荐系统中的偏差问题,以下分类沿用之前推文(Debiased Recommendation: 推荐系统去偏研究进展概述)中的分类方式,并给出一句话为读者进行总结和通俗解释,以便更好的理解偏差类型和具体来源。

  • 选择偏差:用户的主观选择使数据带有偏向

  • 一致性偏差:用户打分会有从众现象

  • 曝光偏差:未曝光的数据认为不感兴趣

  • 流行度偏差:流行度高的物品越来越流行

  • 公平性问题:对特定群体有偏袒,比如性别

  • 循环偏差:偏差的恶性循环

  • 归纳偏置:模型归纳的经验(不算错误/误差)

浅谈一下推荐系统对社会的影响

偏差问题不仅仅会影响推荐系统的效果,还会造成一定的社会效应,推荐系统不仅仅是信息搜索工具,还控制着资源如何在不同的各方之间分配,下面简单地提了一些实际例子,来说明一下这种影响,以进一步明确我们为什么需要关注以及研究偏差问题。

首先,为什么推荐系统需要公平?

  • 推荐曝光的位置有限,曝光哪些商品?

  • 社交平台用户注意力有限,曝光哪些资讯?

  • 打车软件,用户有限,哪些司机接单?

  • 面试机会有限,面试哪些候选人?

其次,推荐偏差是如何引入的?

  • 训练数据引入社会偏见

  • 模型本身可能会呼应甚至强化数据中的偏差

上图中训练数据引入了一些社会偏见(男性 = 软件工程师 = 高收入,女性 = 护士 = 低收入),由此训练出的模型也带有了偏见,因为AI并不明白哪些是敏感属性(性别)。这种不公平性会导致许多不良影响,例如信息不对等、马太效应、回音室等等[3]。

最新研究进展

下面基于最近两年发表在顶级会议(KDD、SIGIR、WWW、AAAI等)的推荐系统去偏的相关论文,介绍部分最新研究工作,简单梳理其背后的技术脉络,也是在上一篇推文的基础上做一个补充和更新。

Causal Intervention for Leveraging Popularity Bias in Recommendation. SIGIR 2021

这篇工作针对流行度偏差提出了一个新颖的角度:如何利用流行度偏差来提高推荐效果?并不是所有的数据偏差都是有害的,盲目地追求无偏学习可能会移除掉数据中一些有益的模式。本文主要针对以下两个问题:

  • 训练阶段如何移除流行度偏差的负面影响?

  • 推理阶段如何利用流行度偏差?

该工作提出了一种新的训练和推理范式,在模型训练时移除混杂的流行度偏差,同时通过因果干预来利用流行度偏差对预测得分进行调整。

在训练阶段,绘制因果图,将流行度定义为混杂因素并切断其与物品之间的因果关系,利用do算子来计算交互概率,以此完成去混淆排名。

在推理阶段,高效利用流行度偏差(比如希望推广那些可能受欢迎的物品),使用简单的时间序列预测方法来设置流行度,利用do算子干预来进行模型推断。

Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System. KDD 2021

关键词:popular bias

现有研究大部分通过逆倾向权重(IPW)处理流行度偏差,但是IPW方法对加权策略高度敏感,难以调整。本文核心关注点在于从因果关系的角度来探讨流行度偏差问题。

为了消除流行偏见,需要回答一个反事实的问题:如果模型只使用物品属性,排名得分会是多少?该工作设计了一个模型不可知的反事实推理(MACR)框架,该框架通过多任务学习来训练推荐人,通过反事实推理来进行去偏推荐。

该模型包含三个部分,用户-物品匹配 / 物品模块 / 用户模块,对应三个优化损失目标同时优化。消除流行度偏差的关键在于从排名分数中去除路径

浅谈数据中的偏差问题和推荐系统去偏最新研究进展相关推荐

  1. 浅谈数据中心里的光纤测温技术

    数据中心对温度要求很高,要全年365天恒温.但是,实际上在数据中心机房内部,不同位置的温度是有差别的,如果通风不好,虽然在同一个数据中心里温度也可以相差好几度,这样局部位置的温度比较高,长期处于这个位 ...

  2. python读取json数据格式问题_浅谈Python中的异常和JSON读写数据的实现

    异常可以防止出现一些不友好的信息返回给用户,有助于提升程序的可用性,在java中通过try ... catch ... finally来处理异常,在Python中通过try ... except .. ...

  3. python读取图像数据流_浅谈TensorFlow中读取图像数据的三种方式

    本文面对三种常常遇到的情况,总结三种读取数据的方式,分别用于处理单张图片.大量图片,和TFRecorder读取方式.并且还补充了功能相近的tf函数. 1.处理单张图片 我们训练完模型之后,常常要用图片 ...

  4. 浅谈yolov4中的一部分数据增强

    浅谈yolov4中的数据增强 前言 数据增强 数据增强步骤 1.对图片进行水平翻转 2.对图片进行缩放 3.对图片HSV色域变换 4. Mosaic数据增强 5. 总代码 前言 在接下来的几天,我将解 ...

  5. [转] 浅谈脱壳中的附加数据问题(overlay)

    浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...

  6. 浅谈脱壳中的附加数据问题(overlay)

    浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...

  7. mybatis与php,浅谈mybatis中的#和$的区别

    浅谈mybatis中的#和$的区别 发布于 2016-07-30 11:14:47 | 236 次阅读 | 评论: 0 | 来源: 网友投递 MyBatis 基于Java的持久层框架MyBatis 本 ...

  8. oracle hash join outer,CSS_浅谈Oracle中的三种Join方法,基本概念 Nested loop join: Outer - phpStudy...

    浅谈Oracle中的三种Join方法 基本概念 Nested loop join: Outer table中的每一行与inner table中的相应记录join,类似一个嵌套的循环. Sort mer ...

  9. 浅谈caffe中train_val.prototxt和deploy.prototxt文件的区别

    浅谈caffe中train_val.prototxt和deploy.prototxt文件的区别 标签: caffe深度学习CaffeNet 2016-11-02 16:10 1203人阅读 评论(1) ...

最新文章

  1. cad沿线插入块 lisp_CAD制图软件中如何快速绘制推拉窗平面简图
  2. ES6 你可能不知道的事 – 基础篇
  3. Oracle客户端安装教程
  4. oracle12c 清理归档,Oracle 12c中数据删除(delete)新特性之数据库内归档功能
  5. iOS NSString 与NSData转化
  6. Liunx上训练模型的常见情况(不定期更新)
  7. 下一时代的HTML5和JavaScript
  8. 如何成为一个技术全面的架构师
  9. 标定_基于目标的激光雷达与相机外参标定方法汇总
  10. 309.最佳买卖股票时机含冷冻期
  11. sharelatex在centos 6.7 64位上的部署(1)
  12. 全球半导体产业60年兴衰启示录!
  13. cad计算机忘了保存,cad图纸没保存怎么恢复(电脑突然断电,怎么找回未保存的CAD?)...
  14. LeapFTP 显示服务器端文件名乱码问题处理
  15. Floorplan的SSN(Simultaneous Switching Noise)问题
  16. 重磅!《中国DevOps现状调查报告(2021年)》正式发布!(附报告获取方式)
  17. 【亲测有效】解决 Ubuntu 虚拟机无法共享文件夹的问题
  18. PS制作android图标
  19. 数独计算脚本(基本9X9)
  20. vuepress侧边栏配置_VuePress默认主题配置(default theme config) - VuePress中文网

热门文章

  1. node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)
  2. php+html5+jquery断点续传_PHP学习路线:PHP从入门到精通教程
  3. java插入数据库字段过长_数据库插入数据长度过大,出现提示:将截断字符串或二进制数据...
  4. mysql 遍历二叉树_【自考】数据结构之二叉树遍历
  5. yii2框架的安装配置启动
  6. react state成员
  7. 【python】python2.x中的除法
  8. Intellij IDEA中 Debug 用法
  9. C# Aes CryptoStream Specified padding mode is not valid for this algorithm的解決方法
  10. mysql 5.x数据库安装_手把手教你进行Mysql5.x版本的安装及解决安装过程中的bug