详解推荐系统的算法与应用

原创：晏茜
资料来源：钟老师

如果你想购物，推荐系统会帮你先“看”你想买的东西；如果你想看新闻，推荐系统会帮你先“挑”你喜欢的内容；如果你想刷剧，推荐系统会帮你“筛”掉你不喜欢的电视剧；如果你想学习，推荐系统会“考”你相关的题目；如果你想放松，推荐系统会给你“听”你爱听的音乐，这些都是推荐系统在日常生活中的具体的应用场景。

本文主要讲解推荐系统的算法与应用，内容包括推荐系统的基础知识点，协同过滤算法，推荐系统的发展情况以及如何去应用推荐系统。

1. 什么是推荐系统

2. 与推荐系统相关的知识点

推荐系统其实有很多种结合方式，推荐系统可以与机器学习、深度学习进行结合，比如某商品我们是否要跑一个二分类模型，这种其实就是与机器学习相关的问题。推荐系统与自然语言处理也有很大的关系，比如自然语言处理经常会用到一些书或是文本的 Embedding 信息。推荐系统还可以与图片、视频，以及多模态进行结合，以实现最终的推荐效果。

3. 推荐系统的特征

推荐系统的用户的特征

推荐系统的用户特征基本上分为显式的反馈和隐式的反馈两种。显式反馈往往能真实的表达一个人的偏好，而隐式反馈却很难做到这一点。

我们来举例说明这一点，比如你打开了一个游戏页面，这时突然想起来还有一件重要的事没做，你急着去处理事情忘记了刚才打开了游戏这件事，游戏的页面仍一直处于打开的状态，这时你停留在这个游戏页面的时间已经很长了，后台系统会认为你对这个游戏很感兴趣。为了避免错误的统计带来失败的推荐结果，我们需要进行去噪，也就是说，我们要通过其他的指令来反馈用户对这款游戏是不是真的感兴趣。比如说虽然这名用户停留在游戏页面的时间很长，但是他到底有没有进行其他的操作呢，他有没有点击鼠标，有没有进入下一个游戏页面等等，这些都是需要我们考虑的因素。

总结来说，在显式反馈中，用户能够明确表示对物品喜好的行为，也就是说，显性反馈能够明显区分用户是否喜欢此物品，显性反馈数值代表偏好程度。而隐式反馈不能明确反映用户喜好的行为，它没有负反馈，无法判断用户是否不喜欢。隐式反馈先天性具有噪声。隐性反馈数值代表置信度，置信度其实就是说我们不能太相信隐式反馈提供的结果，但是它能起到一定的作用，所以隐性行为需要近似评估。

4. 推荐系统算法分类

我们对推荐系统做了几种简单的分类，第一个是基于内容的分类，第二个是基于协同过滤的分类，第三个是混合的分类。基于内容的分类其实就是基于 Embedding 的分类，基于协同过滤的分类还可以分为基于领域和模型的协同过滤分类。

协同过滤的演化

协同过滤的演化首先基于用户的相似度和基于物品的相似度，然后我们再给用户推荐一些商品，或者说给物品推荐一些用户，基于不同用户推荐不同的物品，我们会发现这样的方式并不能解决用户打分的问题，所以我们这个时候又想到了用矩阵分解的方式来解决问题。

5. 基于领域协同过滤推荐算法

算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类，分别是基于用户的协同过滤算法（user-based collaboratIve filtering），和基于物品的协同过滤算法（item-based collaborative filtering）。

基于用户的协同过滤（UserCF）

基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢（如商品购买，收藏，内容评论或分享），并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。

UserCF 算法主要是考虑用户与用户之间的相似度，给用户推荐和他兴趣相似的其他用户喜欢的物品。你朋友喜欢的东西你大概率也可能会喜欢，UserCF 算法正是利用了这个原理。举个例子，如果要给一个用户 1 推荐物品，可以先找到与 1 最为相似的用户 2，接着获取用户 2 最喜欢的且用户 1 没有听说过的物品，并预测用户 1 对这些物品的评分，从中选取评分最高的若干个物品推荐给用户 1。

基于用户的协同过滤（UserCF）特点如下：

⑴ 用户面对的商品特别多，人的需求随时随地都在变化

⑵ 商品太多，用户往往只选择部分甚至更少

⑶ 计算量大

⑷ 面对冷启动问题很难解决

基于物品的协同过滤（ItemCF）

在网上购物时，你是否有这样的经历呢？我们在网上订购一部手机之后，网页会在订单完成界面向我们推荐相同型号的的手机壳。这个时候，我们很可能会点击浏览并购买一个手机壳。这就是 ItemCF 算法在做的事情，他帮助推荐与用户之前喜欢的物品相似的物品。

如果喜欢物品 3 的用户大多数也喜欢物品 1，那么认为物品 1 与物品 3 具有一定的相似度。

① 首先观察用户（user）与商品（item）的交互数据

② 1 和 3 共同出现

③ 可以推给 3，product 1

基于物品的协同过滤（ItemCF）特点如下：

⑴ 更流行，电商往往更愿意使用 ItemCF

⑵ 商品固定，通常更容易计算商品的相关性，用户变动性大

⑶ 上新，还是有各种标签

⑷ 除了实时性强（如新闻等）比较适合各大网站

6. ItemCF 单路召回

这部分我们会带大家看一下天池的新闻推荐的案例，赛题以新闻 APP 中的新闻推荐为背景，要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为，即用户的最后一次点击的新闻文章，测试集对最后一次点击行为进行了剔除。

召回手段：内容-CF-embedding

我们有字段：

train_click_log.csv：训练集用户点击日志

testA_click_log.csv：测试集用户点击日志

articles.csv：新闻文章信息数据表

articles_emb.csv：新闻文章embedding向量表示

sample_submit.csv：提交样例文件

user_id,article_1,article_2,article_3,article_4,article_5

目前需要解决的问题：

1.共有 36 万篇文章，怎么筛选 5 篇文章给用户

2.之前我们学习机器学习结构化数据或者深度学习都有训练集 -label 进行模型训练，这里这么转化为有监督学习

3.test 里面最直面的数据就是历史点击的文章，需要预测最后一次点击的文章，所以我们需要通过找 36 万文章中和用户点击过的文章最相关的进行推荐

面对问题我们的解决方案：

1.通过相似度从海量的新闻中找到比较相似的 5 篇文章

2.通过筛查出的文章转化成点击问题，如果点击则认为是 1，如果不点击则认为是 0，这样可以通过点击的概率对文章进行排序，从大到小，依次推荐 5 篇文章

面对问题我们的解决方案（ItemCF）：

1.获取用户点击浏览过的新闻列表

2.获取最热门的文章用于补充

3.计算物品与物品之间的相似度

4.召回 topk 个新闻

5.对新闻进行排序，最终生成 top5 篇新闻用于推荐

7. 推荐系统的进一步发展

推荐系统的进一步发展主要包含多模态、多目标，推荐系统也与我们的深度学习结合的越来越紧密，在以后推荐系统的从业者可能还需要了解知识图谱的相关内容，推荐系统在工作中的运用主要体现在推荐算法工程师这一岗位，随着技术的发展，推荐算法工程师的能力要求和薪资水平也呈现着水涨船高的状态。