工业界推荐_Industrial RS(4)

Industrial RS

Huawei

Huifeng et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction. IJCAI, 2017.
DeepFM是一个集成了FM和DNN的神经网络框架，思路和Google的Wide&Deep相似，都包括wide和deep两部分。W&D模型的wide部分是广义线性模型，DeepFM的wide部分则是FM模型，两者的deep部分都是深度神经网络。DeepFM神经网络部分，隐含层的激活函数用ReLu和Tanh做信号非线性映射，Sigmoid函数做CTR预估的输出函数。
W&D模型的输入向量维度很大，因为wide部分的特征包括了手工提取的pairwise特征组合，大大提高计算复杂度。和W&D模型相比，DeepFM的wide和deep部分共享相同的输入，可以提高训练效率，不需要额外的特征工程，用FM建模low-order的特征组合，用DNN建模high-order的特征组合，因此可以同时从raw feature中学习到low-和high-order的feature interactions。在真实应用市场的数据和criteo的数据集上实验验证，DeepFM在CTR预估的计算效率和AUC、LogLoss上超越了现有的模型（LR、FM、FNN、PNN、W&D）。

Bin et al. Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction. WWW, 2019.
本文指出之前的CTR预估模型大多都基于特征交互，然而这些模型的问题在于相比于特征交互空间的规模，真正有效的特征交互往往是稀疏的，因此在这种大量参数的情况下进行有效学习是困难的。
Wide & Deep通过在wide部分的特征工程来帮助deep部分的学习，然而，特征工程需要领域知识，并且代价较高。本文的想法是通过机器学习模型来进行高效的特征交互。
原始特征放入model中来产生新的特征，之后原始特征和产生的新特征进行组合输入到deep neural network中。产生的新特征通过提前捕捉稀疏但是重要的特征交互来减少deep model的学习难度。
最直接的学习特征交互的方法是使用MLP，然后把hidden neural作为产生的新特征(MLP其实可以看作是表示学习的过程)。然而正如前面所提到的，真正有效的特征交互是非常稀疏的，用MLP从这么大的参数空间中学习特征交互是困难的。 同时本文指出了直接把CNN用在CTR预估任务中的缺点。在CTR预估任务中，原始特征的不同排列顺序并没有不同的意义(这一点与cv和nlp是不同的)，如果只用CNN抽取局部区域的信息，那么很多有用的全局特征交互信息将会被丢失，这也是为什么CNN在CTR预估中表现不好的原因。
为了克服这一不足，本文使用CNN和MLP，两者是互补的，来学习global-local的特征交互信息。
本文提出了Feature Generation by Convolutional Neural Network(FGCNN)，由Feature Generation和Deep Classifier两部分组成。

Feature Generation部分，通过CNN+MLP的结构来从原始特征中产生新特征。CNN学习了局部区域的特征交互(local)，而通过MLP可以将它们进行组合来抽取全局的特征交互(global)。通过Feature Generation，组合原始特征和新的特征来扩充特征空间。
Deep Classifier部分，可以使用各种state-of-the-art的网络结构，比如PIN、xDeepFM、DeepFM。选择了IPNN作为Deep Classifier部分。

Huifeng et al. PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems. RecSys, 2019.
解决推荐、广告中的position-bias问题（训练的时候知道位置信息，预估的时候不知道）。文章将广告被点击的概率分为两个因素：广告被用户看到的概率和用户看到广告后点击广告的概率。进一步假设用户看到广告后点击广告的概率与广告的位置无关。因此建模成两个模块：

广告被看到的概率预估模型;
用户看到广告后点击的概率预估模型。
同时在线上servering的时候，只需要预估第二个模型（不需要位置信息）。

PAL的思想是基于这样一个假设：用户点击某个商品的概率取决于两个因素：

用户看到该商品的概率；
用户点击该商品的概率；

假设用户看到了该商品。每个因素在PAL中被建模为一个模块，这两个模块的输出的乘积就是用户点击某个项目的概率。
如果对两个模块分别进行优化，由于两个模块的训练目标不一致，可能导致整个系统处于次优状态。为了避免这种局限性，提高CTR预测性能，PAL对两个模块同时进行了优化。一旦这两个模块通过离线训练得到很好的训练，第二个模块即用户点击该项目的概率（假设该项目已被用户看到）就被部署来预测在线推理中的CTR。

Kai et al. Automatic Feature Engineering From Very High Dimensional Event Logs Using Deep Neural Networks. KDD, 2019.
随着通信网络的发展，事件日志的大小和复杂度都以非常快的速度增加。因此，挖掘事件日志变得非常具有挑战性，因为它们具有很高的多样性和容量。对原始事件日志建模的传统解决方案是通过手动特性工程将格式的原始日志转换为维度更少的特性。然而，特征工程非常耗时，其质量高度依赖于数据科学专家的领域知识。此外，反复预处理事件日志会显著延迟评分过程，评分过程必须扫描日志中的所有项。
论文介绍了利用深度神经网络挖掘高维事件日志的最新研究。我们提出了中途神经网络(Midway Neural Network, MNN)，以避免人工特征工程和事件日志的再预处理。MNN将来自特定时间窗的输入特征向量嵌入到密集表示中，并记忆这些中间表示，以进行增量训练和预测。实验结果表明，与传统方法相比，该方法减少了人工干预，减少了训练和评分时间，降低了记忆和存储成本，同时保持了类似的建模性能。我们希望我们的见解和知识能够激励正在从事类似工作的同事。主要贡献如下：

MNN结构可以在没有人为干预的情况下，探索时间窗口内和跨时间窗口的特征相关性;
通过将之前时间窗口的特征编码成低维中途向量，极大地减少了评分过程中的内存和存储使用量;
通过防止在第二次处理原始事件日志，极大地加速了评分计算;
MNN的培训和评分过程都可以递增执行

Yishi et al. GraphSAIL Graph Structure Aware Incremental Learning for Recommender Systems. CIKM, 2020.
由于在线服务收集信息的便利性，推荐系统现在需要消耗大量的数据，在改善用户体验方面发挥着更重要的作用。随着近年来图神经网络(gnn)的出现，基于gnn的推荐模型显示出将推荐系统建模为用户-项目二部图的优势，从而学习用户和项目的表示。然而，这种模型的训练成本很高，而且很难进行频繁的更新以提供最新的建议。在本工作中，我们提出对基于gnn的推荐模型进行增量更新，以大大减少计算时间，提高模型更新的频率。我们开发了一个图结构感知的增量学习框架GraphSAIL，来解决在以增量方式训练模型时常见的成熟的灾难性遗忘问题。我们的方法是在增加心理模型更新时保持用户的长期偏好(或物品的长期属性)。GraphSAIL实现了一个图结构保存策略，该策略分别显式地保存每个节点的局部结构、全局结构和自信息。我们认为，我们的增量训练框架是为基于GNN的推荐系统量身定制的第一次尝试，并在两个公共数据集上展示了与其他增量学习技术相比的改进。我们在一个大规模的工业数据集上进一步验证了我们的框架的有效性。

(1) GraphSAIL是首次尝试在推荐系统的gnn上进行增量学习。该方法在提高算法性能和计算效率的同时，降低了系统的灾难性遗忘问题。
(2) 在GNN模型中，我们提出了一种既保留局部结构又保留全局结构的新策略。我们通过鼓励在连续学习的模型中嵌入相应的响应局部图邻域之间的相似性来实现局部结构的保存。我们使用概率分布来表示格式的全局结构，最小化这些分布之间的距离，使后续模型能够实现拓扑感知的知识转移。
(3) 所提出的解决方案具有良好的泛化能力，易于扩展到任何基于gnn的推荐系统。

Huifeng et al. DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction. arXiv, 2018.
关于特征交互的作用，文中给出了一个例子：1、如人们经常在要吃饭的时候下载关于food的APP，所以APP和时间戳的二阶交互可以是一个很重要的预测信号；2、青少年男生更喜欢玩射击类游戏，所以可以引入三阶特征交互(APP类型+用户性别+用户年龄)；但是这些都是很复杂的，同时考虑低阶和高阶特征交互，是要优于只用两个中的一个的；虽然专家可以引入很好的特征交互，但是也存在问题，比如啤酒和尿布的故事，它们的关系被发现是通过大量的数据挖掘出来的，是由ML自动发现的；一系列对于CTR的研究开展：FTRL、FM、CNN/RNN、FNN、PNN、Wide&Deep等等；可以看出这些模型要么偏向低阶，要么偏向高阶特征组合，要么依赖特征工程；所以，文中的DeepFM自动学习高低阶，且是端到端的学习。

JingDong

Meizi et al. Micro Behaviors: A New Perspective in E-commerce Recommender Systems. WSDM, 2018.
电子商务网站的爆炸式流行已经改变了用户的购物习惯，越来越多的用户喜欢花更多的时间在网上购物。这使得电子商务网站能够观察到关于用户的丰富数据，包括用户与商品的宏观交互数据，如：用户-商品评分矩阵，和微观的行为数据，如：浏览商品的时间、对商品的阅读和评论等。大多数传统推荐系统集中于用户和商品之间的每个宏观交互中，利用微观行为数据进行推荐的系统相当有限。本文中，我们从微观行为的角度改进推荐系统，我们将用户的固有数据视为用户和商品之间的一些列宏观交互，并保留宏观交互的顺序信息，同时，每个宏观交互都包含一些列的微观行为。如何模拟宏观交互中的顺序信息以及如何有效地的捕捉各种微观行为的影响是一个巨大的挑战。文中为了应对这种挑战，提出了一个新颖的模型RIB，它由以下部分组成：（1）Input layer，（2）Embedding layer：解决数据稀疏和数据高维的问题，（3）RNN layer：建模时序信息，（4）Attention layter:捕捉各种微观行为的影响，（5）Output layer

Xiangyu et al. Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning. KDD, 2018.
推荐系统能够解决信息过载的问题。但是传统的推荐系统只能是一种静态并且固定的方式做推荐。
强化学习的有点在于可以根据不断尝试不断改进策略，就是它所达到的目标并不是什么准确率或者什么其他。
contributions：

发现了负反馈的影响并且将其运用到了推荐当中
我们推出了一个基于RL的推荐系统，并且用到了负反馈和正反馈。
在真实的数据上进行实验并且发现很好

Xiangyu et al. Deep Reinforcement Learning for List-wise Recommendations. arXiv, 2019.
推荐系统存在的问题：

无法通过与用户的交互建模用户的动态兴趣变化
最大化单次ranking的最大收益，未必是长期的全局最大收益
ranking过程忽略了item之间的关联

方法：
强化学习基于马尔科夫决策过程(MDP)，一个马尔科夫决策过程用一个五元组(S, A, P, R, gamma)表示.
S: 状态空间定义为用户的浏览历史，即推荐之前，用户点击或购买的最新的N个物品
A: 动作空间定义为要推荐给用户的状态列表
P: 状态转移概率
R: 给出推荐列表后根据用户的反馈（点击、购买）得到的奖励
gamma: 折扣因子