Causal Embeddings for Recommendation 论文笔记

有什么问题欢迎讨论呀！

论文标题：Causal embeddings for recommendation

目的

用过去的 user-item 矩阵预测用户未来的行为会造成偏差，本文是为了消除这种偏差。

方法

构建两个数据集 $S_c$ 和 $S_t$ ，其中 $S_t$ 数据集的分布（给定每个用户所有item暴露给用户的概率分布）和测试集的分布是一致的。采用领域自适应的算法进行去偏。

结果

MSE lift、NLL lift、AUC 评价指标来衡量各个方法的好坏，结果表明本文的方法要更好一些。

内容

1. Introduction

用过去的 user-item matrix 来预测用户未来的行为是存在偏差的。

传统的方法：
【推荐】协同过滤的方法：计算 item-item 对或者 item-user 对之间的距离
【预测】对用户的历史行为建模来预测下一个行为
这两种方法都没有对推荐系统内在的干预本质进行预测（不应该只尝试对用户的自然行为进行建模，而是根据预设目标以最优的方式去影响它）

2. 通过ITE优化的推荐策略

【推荐策略 recommendation policy】
我们假设一个随机推荐策略 $π_x$ 是将所有物品 $p_j$ 暴露给给定用户 $u_i$ 的概率分布：
$p_j~π_x (·|u_i)$

【策略奖赏 policy rewards】
我们定义 $r_{ij}$ 为向用户 $u_i$ 推荐物品 $p_j$ 后真实的奖赏。在我们的例子中， $r_{ij}$ 是一个二元变量（click/no click, sale/no sale）。我们假设奖赏 $r_{ij}$ 是由未知条件分布 $r$ 给定的：
$r_{ij}~r(·|u_i,p_j)$
我们定义 $y_{ij}$ 为日志策略 $π_x$ 下观察到的奖赏值（也是一个二元变量）：
$y_{ij}=r_{ij} π_x (p_j |u_i)$
在策略 $π_x$ 下的奖赏值 $R^{π_x}$ 等价于通过使用相关的个性化产品曝光概率，从所有进入系统的用户中收集到的奖励的总和：
$R^{π_x}=∑_{ij}r_{ij} π_x (p_j|u_i)p(u_i)=∑_{ij}y_{ij} p(u_i)=∑_{ij}R_{ij}$
看到的用户的概率是来自一个未知的分布 $p(X):u_i~p(X)$ 并且 $R_{ij}$ 是用户物品对的奖赏值
在策略 $π_x$ 下，给定用户 $i$ 和物品 $j$ 的 ITE(Individual Treatment Effect)值可以定义为当前策略下的奖赏值和控制策略 $π_c$ 下的奖赏值之差：
$ITE_{ij}^{π_x}=R_{ij}^{π_x}-R_{ij}^{π_c}$
本文我们感兴趣的是 ITE 和最大时对应的策略 $π^*$ ：
$π^*=arg max_{π_x}{ITE^{π_x}}$ ，其中 $ITE^{π_x}=∑_{ij} ITE_{ij}^{π_x}$

【引理1】对于任意控制策略 $π_c$ ，最优的增长策略 $π^*$ 是向每一个用户展示出最高相关奖赏值的物品的策略。（证明略）

$π_{det}$ 是对每个用户展示最优的个性化物品的策略：
$πdet={1,ifpj=pi∗0,otherwiseπ_{det}=\left\{ \begin{array}{cc} 1 & ,if\quad p_j=p_i^* \\ 0 & ,otherwise \end{array} \right.$
因此， $π^*=π_{det}$
为了找到最优策略 $π^*$ ，我们需要找到每个用户能获得的最高个性化奖赏值 $r_i^*$ 的产品。实际上我们是没办法直接观察到 $r_{ij}$ 的，但我们有 $yij∼rijπx(pj∣ui)y_{ij}\sim r_{ij} π_x (p_j |u_i)$ 来预测不可观察的 $r_{ij}$ ：
$r^ij≈yij(πc(pj∣ui))\hat{r}_{ij} ≈ \frac{y_{ij}}{(π_c (p_j |u_i))}$
该方法的不足之处：1. 基于IPS的估计值不能很好的处理 treatment 和 control policy 之间的暴露概率的巨大变化；2. 方差会很大
如果 $π_c=π^*$ ，虽然让方差最小化了，但推荐效果也会变差
解决方法：从 $π_c$ 中学习一个预测器，然后在 $π^{rand}$ 下执行

3. 本文方法：Causal Embeddings(CausE)

我们的目标是建立一个好的预测器：对所有的用户-物品对，通过随机暴露来推荐结果。
假设我们从日志策略 $π_c$ 中获得大量样本 $S_c$ ，从随机处理策略 $π_t^{rand}$ 中获得小样本 $S_t$ 。到此本文提出了一个多任务目标：分解矩阵 $y_{ij}^c∈S_c$ 和 $y_{ij}^t∈S_t$
我们假设真实的control和treatment奖赏值可以用线性预测器来估计：
$y_{ij}^c≈<u_i,θ_j^c>$
$y_{ij}^t≈<u_i,θ_j^t>$
到此，可以估计用户-物品对的ITE值：
$ITE^ij=<ui,θjt>−<ui,θjc>=<ui,θj∆>\hat{ITE}_{ij}=<u_i,θ_j^t>-<u_i,θ_j^c> = <u_i,θ_j^∆>$
$L_t=L(UΘ_t,Y_t )+Ω(Θ_t)$
$L_c=L(UΘ_c,Y_t )+Ω(Θ_c)$
$L_{CausE}^{prod}=L(UΘ_t,Y_t )+Ω(Θ_t )+L(UΘ_c,Y_t )+Ω(Θ_c )+Ω(Θ_t-Θ_c )$

4. 实验

Dataset：MovieLen 100k, MovieLen 10M 显式评分数据集
创建了两个数据集：regular（REG）和skewed（SKEW）
70/10/20 train/valid/test
SKEW Dataset：目标是产生一个测试数据集-simulates rewards uniform expose $π_t^{rand}$

Causal embeddings for recommendation 论文中 SKEW 对训练集(train)/验证集(valid)/测试集(test)（70/10/20）的划分参考了论文 Causal inference for recommendation论文，从完整的数据集中针对 item 均匀采样出 20% 的数据作为测试集，剩下的数据随机划分成 7：1，分别作为训练集和验证集。
但是为了模拟随机策略产生的 S_t 数据集，将测试集的采样比例增加到 30%，其中 20% 作为测试集，10% 作为模拟随机策略得到的数据 S_t，剩下数据随机划分成 6：1。那么一共就有四种数据集：训练集S_c（ $πc\pi_c$ ）、训练集S_t（ $πt\pi_t$ ）、验证集（ $πc\pi_c$ ）和测试集（ $πt\pi_t$ ），比例为：6：1：1：2。

本实验中，改变 $S_t$ 的大小 1%-15%

定义了5中合并的暴露数据设置：

No adaptation： $S_c$
Blended adaptation: $S_c$ , $S_t$
Test adaptation: $S_t$
Product adaptation: Separate treatment embedding for each product based on the $S_t$ sample
Average adaptation: Average treatment product by pooling all the $S_t$ sample into a single vector

5. 结论

新的方法来分解隐式的 user-item 矩阵
用一致的暴露分布来预测 user-item 的相似度
CausE 是对 MF 算法的一个扩展，加入了正则项 $Ω(Θ_t-Θ_c )$

6. 不足

$S_t$ 的数据太难获取
没有对用户序列进行建模
ITE 最大化和损失函数最小化之间的关联