推荐系统（一）召回阶段

（目前理解不深，待补充完整）

前言

推荐系统的三个阶段分为

召回
粗排
精排

粗排精排阶段又可统称为排序阶段。

召回是推荐系统的第一个阶段，当然前面还有user embedding阶段也就是提取用户和商品或者视频的特征传入召回阶段。

召回是根据用户和视频的特征从海量的视频库中找回一小部分客户可能感兴趣视频，然后交给后面的环节。

我们可以想象到这个环节特点是处理的量级大，速度需要快，所以策略和模型，都不能太复杂。

下面是四种常见的召回方法：

基于内容的召回
协同过滤
基于FM的模型召回
基于神经网络的方法

(以下的item是对推荐内容的简称，可以是视频，文章或者其他推荐内容）

召回方法一：基于内容的召回（CB Context Based召回）

基于内容的召回最简单的理解就是用户看了某个item表示很喜欢，那么我就给他推相关的其他item，这个内容就是视频的标签或者属性。

优点：

这种方法只要当前用户的数据就行，不用其他用户的任何数据
可以捕获用户的特定兴趣
缺点：
该方法只能基于用户现有的兴趣提出建议，所以这种方法拓展用户现有兴趣的能力有限
视频的特征某种程度上是手工设计的，虽然可以自动生成，但也需要大量领域的知识。
当视频的属性越来越多的时候，怎么用好这些属性，提升召回的效果十分重要

CB倒排实现

对于每个item，计算出每个item的关键词（一般是机器学习或许深度学习的方法），然后在ES（ElasticSearch）中构建关键词item的倒排表。

正排表一般是：

item1:[ attr1:0.9, attr2: 0.7…]
item2:[ attr1:0.8, attr2: 0.3…]

那么倒排就是针对属性来找item：

attr1: [item1: 0.9, item2: 0.8…]
attr2: [item1: 0.7, item2: 0.3…]

这样一来，当我们通过用户行为获得的关键词（一般可以通过hive和spark计算）如果是attr1: 0,7, attr2: 0.3的话的

根据用户关键词，如果召回数量为10的话，attr1相关的item数量为7，attr2为3，直接根据ES中的倒排数据去取item就好了

多维度的问题

当一个用户点击多个标签的时候tag1,tag2，推荐系统推荐的item1对应tag1和tag3，item2对应tag2和tag3，item3对应tag1和tag2那么我们可以简单的知道肯定是推荐item3是最合适的，
但是在上述的方法里怎么去实现这样一个更加合适的多维度的召回方式，也是一个需要优化的点

（待补充）

召回方法二：协同过滤

协同过滤不是单纯的比对用户和item之间的标签是否相同，而是同时用用户和item之间的相似性来进行推荐，但让也可以计算用户A和用户B之间的相似性，如果相似性高，推荐给A的item也可以推荐给B

一般来说，协同过滤分为三种

基于用户的协同过滤
考虑用户与用户之间的相似度，通过相似用户喜欢的item，预测目标用户对这些item的评分，选出评分最高的若干个物品进行推荐
基于item的协同过滤
计算item与item之间的相似度，如果用户喜欢某个item，那么跟这个item相似的其他item其中若干个预测评分高的item就会被推荐给用户
基于模型的协同过滤
目前最流行的协同过滤类型，矩阵分解，关联算法，聚类算法，深度学习，图模型等

协同过滤的特点

优点：

无需专业的知识，因为提取特征和计算相似度是自动学习的，这里用到更多的是机器学习和深度学习的算法
可以发掘用户的兴趣，相对于CB而言，拓展性更强

缺点：

冷启动问题：模型预测结果是给定的（用户，商品）相应Embedding的点积。因此，如果在训练数据中item从未出现过，则系统也无法计算其Embedding，也无法得到相应的预测结果。此问题通常称为冷启动问题
难以融入query/item的附加特征
附加特征是query或itemID以外的其他特征。对于电影推荐，附加特征可能包括国家或年龄。融入可用的附加特征可以提高模型的效果。尽管在WALS中融入付诸特征可能并不容易，但是WALS的泛化模型使这成为可能

推荐系统（一）召回阶段

前言

召回方法一：基于内容的召回（CB Context Based召回）

CB倒排实现

多维度的问题

召回方法二：协同过滤

协同过滤的特点

召回方法三：基于FM模型召回

召回方法四：基于深度神经网络模型

推荐系统（一）召回阶段相关推荐

最新文章

热门文章