Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba (Application)
期刊:KDD’18
作者:Jizhe Wang, Pipei Huang,Zhibo Zhang, Binqiang Zhao,Huan Zhao,Dik Lun Lee
单位:Alibaba,Hong Kong University of Science and Technology
Abstract
推荐系统一直面临三个问题:可扩展性、稀疏性和冷启动。
为了缓解稀疏性和冷启动问题,文章在图嵌入框架上考虑加入辅助信息,以提高点击率。
1.Introduction
之前常用的方法是协同过滤、基于内容和基于深度学习的方法。
可扩展性:已有算法大部分只能运用于小数据集上;
稀疏性:大部分用户只是和小部分的item之间有连接;
冷启动:每小时数以万计的item会持续更新,在没有用户交互行为之前做到准确推荐是一个很大的挑战。
为了解决这些问题,提出的解决方法分为两个步骤,第一步是对用户购买的每个商品生成一个推荐集,第二步是训练深度神经网络模型对这些推荐商品进行排名。我们根据用户的历史行为生成项目图,提出三种算法:
BGE:传统的图嵌入,考虑方向和边权
GES:加入辅助信息,解决冷启动问题——新加入的item交互很少,具有相似辅助信息的item嵌入向量应该相似
EGES:不同的item辅助信息贡献不同,考虑权重
2.Framework
由于考虑用户的所有购买历史对算力要求太高,同时用户兴趣会随着时间迁移,所以文章加入时间窗的概念,一个小时内的点击视为共现,构建无向有权网络。同时剔除一些噪音:短时间浏览的用户行为,购买次数极端高的垃圾邮件用户,删除标识符相关的item。
BGE: Base graph embedding
使用DeepWalk算法学习item的网络嵌入;
GES: Graph embedding with side information
基于用户的历史浏览行为,我们可以构建item网络,也可以根据item的品牌、类别、颜色等特征构建相应的网络,然后对每种辅助信息进行嵌入,这样每一个item除了拥有自身的向量以外还拥有自身辅助信息的向量表达,最后对学习到的所有向量进行算数平均处理,作为item最后的表征。
Enhanced Graph Embedding with Side Information
文章认为不同的辅助信息对不同的item的贡献不同,所以学习到所有向量后应该考虑加入权重。
3.Experiments
首先线下链路预测评估方法,然后用线上点击实证,最后给出一些现实世界的案例。
3.1 Offline Evaluation
移除网络中的部分边,然后预测这些边的存在与否。移除网络中1/3的边,剩下的网络作为训练集,移除部分作为测试集,对测试集随机生成正样本数量的没有连接的负样本对。
数据集:亚马逊、淘宝
side information:category, sub-category and brand;
retailer, brand, purchase level, age, gender, style etc.
参数设置: the length of random walk is 10, the number of walks per node is 20, and the context window is 5.
数据集:
实验结果:
3.2 Online A/B Test
使用文章提出的算法产生候选集,图为不同算法推荐结果下用户的在线点击率。Base表示协同过滤算法。
3.3 Case Study
1.可视化
可以看到不同类别的鞋子被聚成了不同的类;
不同类别之间远近距离不同,可解释性高。说明羽毛球鞋和乒乓球的爱好者有较多的重叠。
2.冷启动
使用算数平均生成最后的向量,推荐结果如下。
3.EGES中的权重
(1)不同item的辅助信息权重分布不同
(2)item自身向量权重最大,主要还是基于历史行为
(3)辅助信息中商店的权重最大,用户倾向
4 System deployment and operation
在图8中,我们显示了淘宝中推荐平台的体系结构。 该平台由两个子系统组成:在线和离线。
对于在线子系统,主要组成部分是淘宝个性平台(TPP)和排名服务平台(RSP)。 工作流程:
1.当用户启动移动淘宝应用程序时,TPP会提取用户的最新信息,并从离线子系统中检索候选项目集,然后将其提供给RSP。
2.RSP使用深度神经网络模型对候选项目集进行排名,并将排名结果返回给TPP。
离线子系统的工作流程,在其中实现和部署了图嵌入方法:
1.检索包括用户行为的日志。项目图是根据用户的行为构造的,实际选择最近三个月的日志。
2. 在生成基于交互的用户行为序列之前,将反垃圾邮件处理应用于数据。 剩余的日志包含大约6,000亿个条目。 然后,根据第2节中所述的方法构造项目图。为了运行我们的图嵌入方法,采用了两种实用的解决方案:
1)将整个图分为多个子图,这些子图可以在淘宝的开放数据处理服务(ODPS)分布式平台中并行处理。每个子图中大约有5000万个节点。
2)为了在图中生成随机游动序列,我们在ODPS中使用了基于迭代的分布式图框架。随机游走产生的序列总数约为1500亿。
3.为了实现建议的嵌入算法,我们的XTF平台中使用了100个GPU。 在已部署的平台(拥有1500亿个样本)下,离线子系统中的所有模块(包括日志检索,反垃圾邮件处理,项目图构造,通过随机游走生成序列,嵌入,项目间相似度计算和地图生成)都可以在不到六个小时的时间内执行。因此,我们的推荐服务可以在很短的时间内响应用户的最新行为。
5. Related work
5.1 Graph embedding
已经提出了图嵌入算法作为一般的网络表示方法。 它们已应用于许多实际应用中。 在过去的几年中,在该领域有很多研究集中在设计新的嵌入算法上。 这些方法可分为三大类:
1)分解方法,例如LINE [1]试图近似分解邻接矩阵并保留一阶和二阶邻近度;
2)深度学习方法[3,20,21]增强了模型捕获图形中非线性的能力;
3)基于随机游走的技术[7、8、15]使用图上的随机游走来获得非常高效的节点表示,因此可以在超大规模网络中使用。
在本文中,我们的嵌入框架基于随机游走。
5.2 Graph embedding with side information:
近年来,许多工作尝试合并辅助信息以增强图形嵌入方法。大多数工作都是基于这样的假设来完成任务的,即具有相似辅助信息的节点在嵌入空间中应该更靠近。
为了实现这一目标,[10,19]提出了一个联合框架,以利用分类器函数优化嵌入目标函数。
在[24]中,谢等人 进一步将复杂的知识图嵌入到具有子结构等层次结构的节点中。
此外,与节点有关的文本信息被合并到图形嵌入中[18,23,25,26]。
在[4]中,Chang等人提出了一个深度学习框架来同时处理异构图形嵌入的文本和图像特征。
RS已成为图形嵌入中最受欢迎的下游任务之一。 有了手头的表示,可以使用各种预测模型进行推荐。
5.3 Graph Embedding for RS:
[27,29]中,在异构信息网络中分别在元路径和元图的监督下学习了用户和项的嵌入。
[27]提出了一个线性模型来聚合嵌入以进行推荐。
[29]提出将factorization machine应用于嵌入以进行推荐。
[28]提出了一个联合嵌入框架,以学习用于推荐的图形,文本和图像的嵌入。
[30]提出了图嵌入以捕获非对称相似性以进行节点推荐。
在本文中,我们的图形嵌入方法被集成在一个两阶段的推荐平台中。 因此,嵌入效果直接影响最终的推荐结果。
6. Conclusion and future work
淘宝的数十亿规模的数据(十亿用户和二十亿项)在可伸缩性,稀疏性和冷启动方面给RS带来了巨大压力。 在本文中,我们提出了基于图嵌入的方法来应对这些挑战。 为了解决稀疏性和冷启动问题,我们建议将辅助信息合并到图形嵌入中。 进行了离线实验,以证明辅助信息在提高推荐准确性方面的有效性。 在线点击率还证明了我们提出的方法在淘宝现场中的有效性和可行性。 通过分析实际案例,以突出我们提出的图形嵌入方法在利用用户的行为历史对相关项进行聚类以及使用辅助信息处理冷启动项方面的优势。 最后,为了解决我们在淘宝中提出的解决方案的可伸缩性和部署问题,我们详细介绍了用于训练图嵌入方法的平台以及淘宝推荐平台的整体工作流程。 对于未来的工作,我们将追求两个方向:首先是在我们的图嵌入方法中利用注意力机制,这可以为学习不同辅助信息的权重提供更大的灵活性; 第二个方向是将文本信息整合到我们的方法中,以利用附加到淘宝商品的大量评论。
Some references:
[27]Personalized entity recommendation: A heterogeneous information network
approach. In WSDM, pages 283–292, 2014
https://dl.acm.org/doi/10.1145/2556195.2556259
[28] Collaborative knowledge base embedding for recommender systems. In KDD, pages 353–362, 2016
https://dl.acm.org/doi/10.1145/2939672.2939673.
[29]Meta-graph based recommendation fusion over heterogeneous information networks. In KDD, pages 635–644, 2017
https://dl.acm.org/doi/10.1145/3097983.3098063
[30]Scalable graph embedding for asymmetric proximity. In AAAI, pages 2942–2948, 2017
https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14696
Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba (Application)相关推荐
- 【Graph Embedding】:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba
本文是阿里在kdd2018发表的关于使用graph embedding作为淘宝首页推荐召回策略的算法实现.现在利用图embedding来做召回算是业界最前沿的技术,下面我们来看看淘宝是如何来用户行为转 ...
- 【推荐系统】Graph Embedding系列之EGES: Billion-scale Commodity Embedding for E-commerce Recommend in Alibaba
Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba 论文地址:https://arxiv.org/pd ...
- 知识图谱论文阅读(十三)【2020 arXiv】Attentive Knowledge Graph Embedding for Personalized Recommendation
题目: Attentive Knowledge Graph Embedding for Personalized Recommendation 论文链接: 代码链接: 知识图谱特征学习在推荐系统中的应 ...
- 深度学习推荐系统中各类流行的Embedding方法(下)
我的个人微信公众号: Microstrong 微信公众号ID: MicrostrongAI 微信公众号介绍: Microstrong(小强)同学主要研究机器学习.深度学习.推荐系统.自然语言处理.计算 ...
- Zero-shot Learning零样本学习 论文阅读(五)——DeViSE:A Deep Visual-Semantic Embedding Model
Zero-shot Learning零样本学习 论文阅读(五)--DeViSE:A Deep Visual-Semantic Embedding Model 背景 Skip-gram 算法 算法思路 ...
- Inferring Motion Direction using Commodity Wi-Fi for Interactive Exergames (WiDrancd)论文翻译
Inferring Motion Direction using Commodity Wi-Fi for Interactive Exergames (WiDrance) 利用wifi推断运动方向的互 ...
- www21推荐系统之点击原因分解:用户兴趣和一致性(流行度)Disentangling User Interest and Conformity for Recommendation with Cau
Disentangling User Interest and Conformity for Recommendation with Causal Embedding http://staff.ust ...
- 【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ViT)像处理自然语言那样处理图片
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE abstract 虽然Transformer体系结 ...
- 基于图卷积的价格推荐论文(Price-aware Recommendation with Graph Convolutional Networks)
基于图卷积的价格推荐论文概述 ICDE2020非常好的文章 Price-aware Recommendation with Graph Convolutional Networks paper lin ...
最新文章
- 机器学习实战_09_树回归_源代码错误修正
- 如何在VS2008中添加WM_INITDIALOG消息映射
- SAP ABAP Netweaver Authorization trace tool - SAP ABAP 权限跟踪监控工具
- [翻译] NumSharp的数组切片功能 [:]
- php 合并数组成父子关系,php - 将电子表格解析为PHP数组并返回具有父子关系的嵌套MLM表 - SO中文参考 - www.soinside.com...
- localhost 已拒绝连接_【Python】MongoDB数据库的连接和操作
- 【英语学习】【WOTD】tenacious 释义/词源/示例
- python冒泡排序时间复杂度_Python算法中的时间复杂度问题
- 微软、阿里抢占开源一线,JavaScript、Python 备受热捧,GitHub 2020 数字洞察报告揭晓!...
- c#类的方法表的建立和方法的调用
- html在线直播ppt,PPT在HTML网页上播放方法
- ubantu20.04 ros的安装
- [7.19NOIP模拟测试6]失恋三连(雾 题解
- 倾斜摄影测量(无人机影像)的三维建模和DSM,DOM的生成(挖坑)
- 年薪100万?纯属忽悠!!但年薪60万真不是个梦
- C# Contract诊断
- JDK JRE JVM ===》JavaSE 标准版
- 7 爬虫爬取网页文章(保留图片和文本顺序,原封不动)的数据库设计,且避免重复抓取...
- 自动驾驶之车辆运动学与动力学模型
- 多元时间序列预测之(一)DA-RNN模型