google推荐系统初探

Google推荐系统架构

google 推荐系统的总体架构

由上图可以看出google推荐系统分为候选部分（candidate Generation）及检索、评分与重排名三部分。下面我们以YouTube的视频数据作为数据样例，来分别看这三个组件。
YouTube上有上亿的视频数据。并且每秒都还有新的视频数据在上传。推荐系统就是想为不同的用户从海量的视频数据中挑选出他们可能感兴趣的视频。

候选部分

概述
候选部分是要完成从海量数据中抽取与query(user or context) 及item(被推荐的东西，在此是视频）有关的数据，即从上亿的数据抽取成千或成百的子数据集。
如何判断抽取的数据是与Query(user or context) 、item有关的呢？通过判断query与item的相似性来确定他们是否相关。
Query数据的信息包括user信息（userId, user曾经看过的视频）和context信息（当前的时间，用户使用的设备等）。为了能判断query与item数据的相似性，我们需要先对它们做embedding, 将它们都映射到一个相同的向量空间中，然后考虑使用常见的cosine, dot product 及欧式距离来判断他们的相似性。
抽取数据的算法
- 基于内容过滤
  提取item的特征，并以此作为embedding vector, 基于用户的行为来为该用户寻找他感兴趣的item。例如，一个用户以前看过哪些视频，根据人工定义的视频的特征（视频的分类，时长等），找与看过的视频类似的视频，将它们作业候选集。
  优点：首先该算法只与当前用户过去的行为有关，并不会使用其他用户的信息，故可以极大的缩小候选数据的规模。其次它只关注当前用户的兴趣，可以为当前用户找到他感兴趣，但比较冷门的视频。
  缺点：item的特征是人工定义的，所以特征的定义要求比较高，如果不了解视频，可能不能得到好的特征集，也就会影响到模型的效果。其次，它只能基于已有的行为得到候选集，对于新用户是无法提取候选集的。
- 协同过滤及矩阵分解
  协同过滤与基于内容过滤的不同点在于，它是基于用户对item数据的反馈来学习user, item的embedding数据，并不需要人工去定义特征项。其次，它不仅基于当前用户推荐他所感兴趣的视频，也将与他相似的用户所感兴趣的视频推荐给他。
  协同过滤又分为领域算法和隐语义模型（Latent Factor Model ）两类算法。
  领域算法：是为当前用户推荐与其相似的用户选择的item（user based) 或者是推荐当前用户以前选择的item相似的item (item based)。
  隐语议模型：即矩阵分解，通过学习用户对item的反馈数据，得到用户、item的隐（即无法解释）属性矩阵（即特征空间)，再通过两者的点乘得到用户对该item的反馈（即评分），并以此来作为推荐的基础。算法意义层面的解释就是通过用隐含特征(latent factor)来将用户的兴趣与item特征关联起来。
  对于矩阵分解，其基本目标函数为：
  $r^ui=qiT∗pu\hat{r}_{ui} = q_i^T*p_u$
  其中 $r^ui\hat{r}_{ui}$ 是预测的用户对item的反馈值， $p_u$ 为用户u的隐向量， $q_i$ 为item i的隐向量。 $q_i, p_u$ 都是通过输入的反馈数据的训练得到的向量值。 $p_u$ 矩阵的值表示的是用户对隐含特征的感兴趣的程度，而 $q_i$ 表示的是item与这些隐含特征的相关联的程度。它们的点乘就为预测用户对item的反馈数据。
  如何训练才能得到我们想要的隐向量呢？
  首先我们得定义损失函数，在这里我们使用MSE，由此得到：
  $L=∑u,i∈K(rui−r^ui)2L = \sum_{u,i \in K}(r_{ui} - \hat{r}_{ui})^2$
  其中K表示的是得到的隐性属性（特征）的个数。
  加上L2正则项：
  $L=∑u,i∈K(rui−r^ui)2+λ∗(∥qi∥2+∥pu∥2)L = \sum_{u,i \in K}(r_{ui}-\hat{r}_{ui})^2 + \lambda * (\parallel{q_i}\parallel^2 + \parallel{p_u}\parallel^2)$
  然后再使用SGD: $qi=qi+γ∗(eui∗pu−λ∗qi)q_i = q_i + \gamma * (e_{ui}*p_u - \lambda * q_i)$ , $pu=pu+γ∗(eui∗qi−λ∗pu)p_u = p_u + \gamma *(e_{ui}*q_i - \lambda * p_u)$ 逐步求得使用损失函数值最小的。
  进一步改进
1. 添加偏置项(Bias SVD)
  但是使用最基本的目标函数，训练的效果并不是很好，因为不同的用户对item的评分会有不同的偏好，有些宽容的用户，对item的评分会稍高些，而有些严格的用户，则会偏低些，所以，我们可以对目标函数做进一步的改进，加上 $μ,bu,bi\mu, b_u, b_i$ 。它们分别表示网站平均偏置，用户的偏置和item的偏置。它又被称为 BiasSVD:
  $r^ui=qiT∗pu+μ+bu+bi\hat{r}_{ui} = q_i^T * p_u + \mu + b_u + b_i$
  $L=∑u,i∈K(rui−r^ui)2+λ∗(∥qi∥2+∥pu∥2+bu2+bi2)L = \sum_{u,i \in K}(r_{ui} - \hat{r}_{ui})^2 + \lambda * (\parallel{q_i}\parallel^2 +\parallel{p_u}\parallel^2 + b_u^2 + b_i^2)$
2. 添加隐式反馈信息(SVD++)
  由于显示的反馈信息（用户视频评分）数据并不多，很稀疏，训练的效果也不会太好，我们需要增加隐式反馈（如用户点击过，浏览过的item)的信息，虽然不一定准确，但可以使我们的训练数据更稠密，对于这块数据用 $x_i$ 表示历史的偏好向量，用 $N(u)|^{0.5}$ 表示对 $x_i$ 数据的置信度。目标函数为：
  $r^ui=qiT∗[pu+∣N(u)∣0.5∗∑i∈N(u)xi]+μ+bu+bi\hat{r}_{ui} = q_i^T * [p_u+|N(u)|^{0.5}*\sum_{i \in N(u)} x_i] +\mu +b_u+b_i$
  $L=∑u,i∈K(rui−r^ui)2+λ∗(∥qi∥2+∥pu∥2+bu2+bi2+∑i∈N(u)∥xi∥2)L = \sum_{u,i \in K}(r_{ui} - \hat{r}_{ui})^2+\lambda * (\parallel{q_i}\parallel^2 + \parallel{p_u}\parallel^2+b_u^2+b_i^2+\sum_{i\in N(u)}\parallel{x_i}\parallel^2)$
  N(u)表示用户u提供的隐式反馈物品的集合。这也是svd++算法。
3. 添加标签信息(SVD++)
  此外，我们还可以使用用户的一些标签信息（年龄，性别，职业等）加入来推测用户对每个喜好的偏好程度。使用 $y_a$ 来表示喜好程度。
  增加标签信息偏好后的目标函数为：
  $r^ui=qiT∗[pu+∣N(u)∣0.5∗∑i∈N(u)xi+∑a∈A(u)ya]+μ+bu+bi\hat{r}_{ui} = q_i^T * [p_u+|N(u)|^{0.5}*\sum_{i \in N(u)} x_i + \sum_{a\in A(u)}y_a]+\mu + b_u + b_i$
  $L=∑u,i∈K(rui−r^ui)2+λ∗(∥qi∥2+∥pu∥2+bu2+bi2+∑i∈N(u)∥xi∥2+∑a∈A(u)∥ya∥2)L = \sum_{u,i \in K}(r_{ui}-\hat{r}_{ui})^2+\lambda*(\parallel{q_i}\parallel^2+\parallel{p_u}\parallel^2+b_u^2+b_i^2+\sum_{i \in N(u)}\parallel{x_i}\parallel^2 + \sum_{a\in A(u)}\parallel{y_a}\parallel^2)$
4. 添加时间信息(timeSVD)
  用户的偏好是会随着时间而改变的，每个项目的评分也会随着时间而改变。因此 $b_i, b_u, p_u$ 都是随着时间变化的函数，为了进一步准确，可定义目标函数为：
  $r^ui=qiT∗pu(t)+μ+bu(t)+bi(t)\hat{r}_{ui} = q_i^T * p_u(t) + \mu+b_u(t)+b_i(t)$
  $⁣nM\in {{\mathbb{R}}^{\text{m }\!\!\times\!\!\text{ }n}}$
5. 添加社会信息[^1]
  $L=min⁡U,V12∑i=1m∑j=1nIij(rij−uiTvj)2+α2∑i=1m∑f∈F+(i)sif∥ui−uf∥F2+β2∑j=1n∑q∈Q+(j)sjq∥vj−vq∥F2+λ12∥U∥F2+λ22∥V∥F2\begin{aligned} L=& \min _{U, V} \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{n} I_{i j}\left(r_{i j}-\mathbf{u}_{i}^{T} \mathbf{v}_{j}\right)^{2} \\ &+\frac{\alpha}{2} \sum_{i=1}^{m} \sum_{f \in \mathcal{F}^{+}(i)} s_{i f}\left\|\mathbf{u}_{i}-\mathbf{u}_{f}\right\|_{F}^{2} \\ &+\frac{\beta}{2} \sum_{j=1}^{n} \sum_{q \in \mathbb{Q}^{+}(j)} s_{j q}\left\|\mathbf{v}_{j}-\mathbf{v}_{q}\right\|_{F}^{2} \\ &+\frac{\lambda_{1}}{2}\|U\|_{F}^{2}+\frac{\lambda_{2}}{2}\|V\|_{F}^{2} \end{aligned}$
  其中， $s_{if}$ 表示用户 $i$ 和用户的 $f$ 社交相似度， $s_{jq}$ 表示项目 $j$ 与项目 $q$ 的隐社交相似度， $I_{ij}$ 表示当用户i对item j 打分时，值为1，没打分，值为0。 $α,β,λ1,λ2\alpha, \beta, \lambda1,\lambda2$ 都是正则参数。 $F+(i)\mathcal{F}^{+}(i)$ 表示与用户i相似的用户的集合，相应的 $Q+(j)\mathbb{Q}^{+}(j)$ 表示与item j相似的item的集合。在用户维度和项目维度分别增加了平滑项约束，使得学得的隐特征表示更加符合现实意义。需要注意的是这里直接使用用户显示反馈数据（稀疏数据），如果没有对某个item打分，就直接设置为0。
6. 加权矩阵分解法（google推荐系统使用的模型）
  $L=∑(i,j)∈obsWi,j(ru,i−r^u,i)2+∑(i,j)∉obsW0r^u,iL=\sum_{(i,j) \in obs}W_{i,j}(r_{u,i}-\hat{r}_{u,i})^2 +\sum_{(i,j) \notin obs}W_{0}\hat{r}_{u,i}$
  其中 $W_{i,j}$ 表示的是用户i对item j做了评分时的权重，而 $W_{0}则是没有评分时的权重$ 。而 $r_{u,i}$ 的值，不再是具体的分数，而是0, 1值，0表示用户对该item没有做评分，1是表示做了评分。然后使用WALS方法来求得使损失函数L的值最小的U，V值。
  使用WALS来计算工U，V值，比SGD收敛得更快些，也能较好的处理没有得到显示反馈的数据。
7. DNN(google for Youtube)[^2]
  输入：用户看的视频的ID平均值（embedded video watches), 即watch vector。用户查询的平均值（embedded search tokens)，即search vector。还有用户的其他特征，如地理位置embedding, 年龄、性别等，一起组成一个定长的输入层数据。
  输出：用户对每个视频可能观看的概率。使用softmax函数（训练时）。而在实际使用时，使用ANN(Approximate nearest neighbor)查询出候选集。
  DNN模型与前面的MF相比，它能更好的使用更多的用户的特征，能够更好的提取出用户特别的兴趣。但是它的训练成本很高，且如果不采用负采样的方法可能会出现fold的问题。

评分、排序

生成候选集后，我们就需要对候选集中的数据再评分、排序。在这阶段，我们的候选集可能有多个，不仅仅来源于一个数据源。如有来自于MF提取的相关的item候选集，有基于用户个性化提取的候选集，有基于流行性、流行趋势的候选集等。在这些数据基础上，我们需要建立一个模型，预测用户观看这些候选视频的概率，然后基于预测结果排序。
YouTube的评分模型的架构：

由DNN + Logistic Regression

[^1]引用论文《An experimental study on implicit social recommendation》link
[^2] 引用《Deep Neural Networks for YouTube Recommendations》