异构网络中基于元图的推荐—

主要参考论文：《Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks》

概述

基于异构信息网络的推荐系统面临两个问题：1.如何表示高阶推荐语义；2.如何融合异构信息用于推荐。

针对第一个问题，本文采用了元图（和元路径）来表示高阶推荐语义；对于第二个问题，本文先用标准矩阵分解技术（MF）分解每个元图（元路径）得到的相似度矩阵，生成用户和物品的隐式表征，对不同元图（元路径）得到的表征使用带有group lasso正则的因子分解机（FM with Group lasso）融合异构信息。

为什么采用元图（meta-graph）

为了描述丰富的语义特征，异构信息网络先根据实体类型建立一个网络架构。例如，对于Yelp数据集（https://www.yelp.com/dataset_challenge），包含的实体类型有用户（User）、评论（Review）、词（Word）、业务（Business）等，可以定义如下的网络架构：

然后可以根据网络架构定义一些元路径来捕获两个实体间的语义相关性。比如，可以定义“User–>Review–>Word–>Review–>Business”这样一条元路径。这条元路径定义了一种用户与业务间的语义相关性，去度量“如果用户的评论与其他用户对某种业务的评论相似，是否该用户会喜欢这个业务”。

但是元路径可能并不是捕获丰富语义的最好方式。如果我们想捕获“用户U1U_1U1和用户U2U_2U2评分了同种类型的业务（如餐厅），同时又提及了同一方面（如海鲜）”这种语义，元路径是无法实现的，所以提出了元图（meta-graph）。如此，刚才的语义可以通过下面的元图来捕获：

为什么采用带group lasso正则的因子分解机（FMG，FM with Group lasso）

对于不同的元图（元路径）会产生不同的相似度矩阵，如何有效地整合它们是一个挑战。
1）一种方式是像SemRec一样，根据不同元路径得到不同的用户-用户相似度矩阵，并根据相似用户对目标物品的评分得到目标用户对目标物品的评分：

R^u,i(l)=∑r=1Nr×Qu,i,r(l)∑k=1NQu,i,k(l)=∑r=1Nr×∑vSu,v(l)×Ev,i,r∑k=1N∑vSu,v(l)×Ev,i,k\hat{R}_{u,i}^{\left ( l\right )}=\sum_{r=1}^{N}r\times \frac{Q_{u,i,r}^{\left ( l\right )}}{\sum_{k=1}^{N}Q_{u,i,k}^{\left ( l\right )}}=\sum_{r=1}^{N}r\times \frac{\sum_{v}^{}S_{u,v}^{\left ( l\right )}\times E_{v,i,r}}{\sum_{k=1}^{N}\sum_{v}^{}S_{u,v}^{\left ( l\right )}\times E_{v,i,k}}R^u,i(l)=∑r=1Nr×∑k=1NQu,i,k(l)Qu,i,r(l)=∑r=1Nr×∑k=1N∑vSu,v(l)×Ev,i,k∑vSu,v(l)×Ev,i,r

然后对不同路径的评分加权求和得到最终的评分：

R^u,i=∑l=1∣P∣w(l)×R^u,i(l)\hat{R}_{u,i}=\sum_{l=1}^{\left | P\right |}\mathbf{w}^{\left ( l\right )}\times \hat{R}_{u,i}^{\left ( l\right )}R^u,i=∑l=1∣P∣w(l)×R^u,i(l)

但这种方式没有只是显式地利用了每条元路径，没有考虑元路径中的隐式特征；而且相似度矩阵可能非常稀疏。

2）另一种方式是像HeteRec一样，由不同的元路径得到不同的用户偏好扩散矩阵，然后进行矩阵分解得到用户和物品的隐式表征：

(U^(q),V^(q))=argminU,V∥R~(q)−UVT∥F2s.t.U⩾0,V⩾0\left ( \hat{U}^{\left ( q\right )},\hat{V}^{\left ( q\right )}\right )=argmin_{U,V}\left \| \tilde{R}^{\left ( q\right )}-UV^{T}\right \|_{F}^{2}\\ s.t.\ \ U\geqslant 0,V\geqslant 0(U^(q),V^(q))=argminU,V∥∥∥R~(q)−UVT∥∥∥F2s.t. U⩾0,V⩾0

最后对不同路径的评分加权求和得到最终的评分：

r(ui,ej)=∑q=1Lθq⋅U^i(q)V^j(q)Tr\left ( u_{i},e_{j}\right )=\sum_{q=1}^{L}\theta _{q}\cdot \hat{U}_{i}^{\left ( q\right )}\hat{V}_{j}^{\left ( q\right )T}r(ui,ej)=∑q=1Lθq⋅U^i(q)V^j(q)T

这种方式虽然解决了SemRec的数据稀疏问题，得到了用户和物品的隐式表征，但不同路径间整合时只用了分数，没有充分利用隐式表征。

为了克服这些问题，首先基于元图（元路径）计算用户-物品相似度矩阵，然后使用MF对这些矩阵进行分解得到用户和物品的隐式表征（这部分与HeteRec类似），接着对不同组的用户和物品的隐式表征采用FM去整合它们。由于1）太多的路径同时学习会引入噪声损害预测性能，而且路径间可能包含重复语义，某些路径可能作用小；2）计算复杂度高，需要给FM添加一个正则化项，来惩罚权重。最终选择的是FM with Group lasso。

基于元图的相似度计算

本文对Yelp数据集设计了如下9个元图（元路径）：

首先看基于元路径的相似度计算。通勤矩阵（commuting matrix）常被用于元路径上节点间相似度计算。设元路径P=(A1,A2,⋅⋅⋅,Al)P=\left ( A_{1},A_{2},\cdot \cdot \cdot ,A_{l}\right )P=(A1,A2,⋅⋅⋅,Al)，其中AiA_iAi是节点类型，定义矩阵WAiAjW_{A_{i}A_{j}}WAiAj为类型AiA_iAi与AjA_jAj间的邻接矩阵，则元路径PPP的通勤矩阵为CP=WA1,A2⋅WA2,A3⋅⋅⋅WAl−1,AlC_{P}=W_{A_{1},A_{2}}\cdot W_{A_{2},A_{3}}\cdot \cdot \cdot W_{A_{l-1},A_{l}}CP=WA1,A2⋅WA2,A3⋅⋅⋅WAl−1,Al。例如，上图中的元路径M3M_3M3对应的通勤矩阵为CM3=WUB⋅WUBT⋅WUBC_{M_{3}}=W_{UB}\cdot W_{UB}^{T}\cdot W_{UB}CM3=WUB⋅WUBT⋅WUB。本质上就是数这种元路径有多少条。

但是对于元图，不能简单地使用通勤矩阵。如上图中的元图M9M_9M9，U1U_1U1到B2B_2B2有两条路径：1.(U,R,A,R,U,B)\left ( U,R,A,R,U,B\right )(U,R,A,R,U,B);2.(U,R,B,R,U,B)\left ( U,R,B,R,U,B\right )(U,R,B,R,U,B)。具体计算步骤如下：

1）计算上支路(R,A,R)\left ( R,A,R\right )(R,A,R)的通勤矩阵：CP1=WRB⋅WRBTC_{P_{1}}=W_{RB}\cdot W_{RB}^{T}CP1=WRB⋅WRBT；

2）计算下支路(R,B,R)\left ( R,B,R\right )(R,B,R)的通勤矩阵：CP1=WRA⋅WRATC_{P_{1}}=W_{RA}\cdot W_{RA}^{T}CP1=WRA⋅WRAT；

3）计算支路通勤矩阵的Hadamard积：CSr=CP1⊙CP2C_{_{S_{r}}}=C_{P_{1}}\odot C_{P_{2}}CSr=CP1⊙CP2；

4）计算元图M9M_9M9的通勤矩阵：CM9=WUR⋅CSr⋅WURT⋅WUBC_{M_{9}}=W_{UR}\cdot C_{S_{r}}\cdot W_{UR}^{T}\cdot W_{UB}CM9=WUR⋅CSr⋅WURT⋅WUB

通过上述方法，可以计算每个元图（元路径）对应的用户-物品相似度矩阵R^∈Rm×n\hat{R}\in \textrm{R}^{m\times n}R^∈Rm×n。设有LLL个元图（元路径），则对应有R^1,⋅⋅⋅,R^L\hat{R}^{1},\cdot \cdot \cdot ,\hat{R}^{L}R^1,⋅⋅⋅,R^L。

论文链接

《Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks》
论文代码：https://github.com/HKUST-KnowComp/FMG