基于Redis的推荐系统开发

介绍

推荐系统并不总是需要用到复杂的机器学习技术．只要手头上有足够的数据，你就可以花很少的功夫开发一个推荐系统．一个最简单的推荐系统可以只是从用户感兴趣的表中查找所需要的推荐信息．当你已经有很多用户和其行为的数据时，使用协同过滤就是一个简单的推荐方案．例如，对于一个运用了协同过滤推荐算法的电子商务网站，你就可以知道哪些购买过睡袋的用户也购买了手电筒，灯笼和驱虫剂．而基于内容的推荐系统则进一步，它具有强大的预测功能，如基于用户的交互就能预测一个用户想要什么．本文将演示如何使用Redis基于用户的兴趣和协同过滤算法开发一个简单的推荐系统．

什么是Redis?

Redis是一个被经常当作数据库，缓存和消息代理来使用的内存型NoSQL数据存储．不像其它的内存型数据存储，它还能够将你的数据保存到磁盘上，同时也提供了大量的数据结构类型(Sets, Sorted Sets, Hashes, Lists, Strings, Bit Arrays, HyperLogLogs, and Geospatial Indexes). Redis命令可以帮助开发者以极低的复杂度在其数据结构上执行高性能操作．也就是说，Redis 的构建是基于性能和简单性的考量而出发的．

Redis的数据结构

Redis数据结构就像乐高的积木，可以帮助开发者实现低复杂度，低网络开销和低延时的具体功能，因为这些操作都是在仅临数据存储的内存中高效执行．多样而灵活的数据结构使得Redis与其它的K/V存储和NoSQL数据库相区分开来．Redis数据结构包括:

Strings
Hashes
Lists
Sets
Sorted sets
Bit Arrays
HyperLogLogs
Geospatial Indexes

什么是推荐引擎?

推荐引擎就是一个最可能为用户做出下一个选择的应用或微服务．推荐内容包括如用户最想听的下一首歌，他们最想看的下一场电影或者他们预定某服务后下一步可能做出的选择行为．

在系统层面，推荐引擎会匹配用户最可能感兴趣的物品．通过推送相关的个性化推荐给用户，应用会引导用户购买相关物品，提升他们在网站或APP上的停留时间或者点击想看的广告-最终帮助对收入，使用率的最大化．

一个有效的推荐引擎需要具备以下条件:

提供正确相关的选择给用户(这通常取决于所选择的算法).
能够实时的提供高性能的选择给用户．
能够高效的使用系统或其它应用的资源．

常见的推荐引擎

最常用的推荐引擎有基于用户选择的画像设置，协同过滤和基于内容的推荐．

基于用户选择的画像设置是最易实现的一种，但它是静态的，即它不会考虑用户的行为或尝试理解什么需要被推荐．

当你有许多用户并收集了足够的信息，那么就很适合用协同过虑基于用户的行为去给用户进行分类．协同过滤非常的高效并能取得到非常好的效果．不足之处就是它是重量级的计算．

基于内容的推荐则依赖于机器学习技术并需要理解被推荐用户和物品的属性维度．为它准备正确的数据模型通常是个严格而漫长的过程．然而，一旦有了正确的数据模型，那么基于内容的推荐只需要少量的历史数据或系统用户就可以产生很好的推荐结果．

Redis中适合推荐引擎的数据结构和命令

Redis的数据结构在大规模的高性能应用中可极大的降低应用的复杂度．推荐引擎方案通常需要Set的一些可快速执行的操作诸如 intersection, union和setdifference．我们可以很方便地使用Redis的Strings, Sets和 Sorted Sets等数据结构来实现推荐引擎或一个内存数据库平台．Redis只需极少计算资源就可以达到亚毫秒级的高性能．

在我们开发推荐系统之前，让我们先来熟悉下Redis的一些数据结构和命令:

基于用户兴趣的推荐

这是一个简单的基于用户兴趣的推荐系统．在这个方法中，我们让用户选择他们所感兴趣的类别．我们也会根据他们选择的类别对物品进行分类．然后我们会基于这样的分类将用户的兴趣和物品相关联起来．

算法:

找出用户U所感兴趣的所有类别，我们将这个类别集合叫做userU．然后得到userU所关联的所有物品．

步骤1

设置每个用户所感兴趣的类别.

SADD user:<user id>:categories <category>

步骤 2

为每个类别维护一个集合，此集合存放该类别的所有物品。

SADD category:<category>:items <item id>

步骤 3

获取一个用户所感兴趣的所有类别(假设这个集合很小，对于大数据集则使用SSCAN).

SMEMBERS user:<user id>:categories

步骤 4

获取属于用户所感兴趣类别的所有物品.

SUNION category:<category 1>:items category:<category 2>:items category:<category 3>:items …

对于大数据集，最好使用SUNIONSTORE.

示例场景: 一个当地杂货铺的移动应用

杂货铺刚发布了一款新的手机应用以供客户选择他们感兴趣的商品. 应用的背后会追踪每个类别促销的所有商品. 当一个客户走进此店并打开这个应用，那么客户将会收到个性化的目标优惠劵。该例子的数据结构:

categories = {organic, dairy,… }

category:organic:items = {milk, carrots, tomatoes, …}

category:dairy:items = {milk, butter, cheese, …}

user:U1:categories = {organic, dairy}

user:U2:categories = {dairy}

当客户U1打开她的应用，她将会收到关于以下商品的促销信息:

SUNION category:organic:items category:dairy:items

= {milk, carrots, tomatoes, butter, cheese, …}

基于用户-物品关系的协同过滤

在这个方法中，我们将深入了解用户的行为并基于其它用户类似的行为做出相关的推荐.

算法:

找出与用户U具有相同物品集合的其它之关联用户 (U1, U2, U3…) .
获取与U1, U2, U3相关联的所有物品…
移除已经与用户U相关联的物品，这样只有非关联的物品会被推荐给用户U.

步骤 1

维护一个与指定用户相关联的所有物品集合，例如：所有通过电子商务应用所购买的物品.

SADD user:<user id>:items <item id>

步骤 2

对每个用户-物品关系，维护一个反向映射即物品-用户关系.

SADD item:<item id>:users <count> <user id>

步骤 3

获取同用户相关联的所有物品 (假设这是一个小集合，对于大数据集则使用SSCAN).

SMEMBERS user:<user id>:items

步骤 4

获取属于用户所感兴趣类别的所有用户.

SUNION item:<item id 1>:users items:<item id 2>:users items:<item id 3>:users …

步骤 5

获取属于用户所感兴趣类别的所有物品.

SUNIONSTORE user:<user id>:all_recommended user:<user id 1>:items user:<user id 2>:items user:<user id 3>:items …

上面这个计算出来的集合将包含其它用户所具有相同物品关系的所有关联物品.

步骤 6

获取还未与用户相关联但与其它具有类似行为用户相关联的物品列表.

SDIFF user:<user id>:all_recommended user:<user id>:items

示例场景: 本地杂货铺移动应用的推荐信息

本地杂货铺的个性化促销灵感取得了很大的成功，杂货铺决定继续升级，即通过用户的行为来促销物品。杂货铺想告诉顾客，“购买了物品X的顾客也购买了Y”，此例的数据结构如下:

userid:U1:items = {milk, bananas}

userid:U2:items = {milk, carrots, bananas}

userid:U3:items = {milk}

item:milk:users = {U1, U2, U3}

item:bananas:users = {U1, U2}

item:carrots:users = {U2}

那么，什么物品将会被推荐给用户U1?

SMEMBERS user:U1:items

= {milk, banana}

SUNION item:milk:users items:banana:users

= {U1, U2, U3}

SUNIONSTORE user:U1:all_recommended user:U1:items user:U2:items user:U3:items

= {milk, bananas, carrots}

SDIFF user:U1:all_recommended user:U1:items

= {milk, bananas, carrots} - {milk, bananas}

= {carrots}

杂货铺会推荐carrots给U1

基于用户-物品关系及其打分的协同过滤

此方法不仅要计算具有相同物品集合的不同用户的共同行为，还要决定每个用户如何给物品打分。对于一个给定用户U，此技术要找出给同用户U类似的物品打过分的所有用户，然后系统将根据打分情况推荐具有类似行为用户打过分的物品.

算法:

给定一个用户，根据以下条件找出最相似的用户:

找出同此用户至少有一个或多个共同物品并打过分的所有用户，将这些用户作为候选者.
对于每个候选者，对他们相互的物品积分差进行开平方根计算，从而得出一个分数.
为每个独立的用户保存与其最相似的用户.

找出将要排在最前的物品:

找出与原用户类似的用户所打过分的所有物品，但不包含独立用户未打过分的物品.
计算每个物品的平均积分.
保存排在前面的物品.

步骤 1 插入打分事件

为每个用户维护一个Sorted Set用于存储该用户打过分的所有物品.

ZADD user:<user id>:items <rating> <item id>

为每个物品维护一个Sorted Set来追踪所有给该物品打过分的用户.

ZADD item:<item id>:scores <rating> <user id>

步骤 2 获取具有相同物品积分的候选者

这里需要分两步，第一步，获取给相同物品打过分的所有用户. 第二，找出第一步中已经计算过的每个与用户U相似的用户，这个用户就是需要推荐的.

找出<user id>打过分的物品

ZRANGE user:<user id>:items 0 -1

找出给相同物品打过分的用户

ZUNIONSTORE user:<user id>:same_items 3 item:I1:scores item:I2:scores item:I3:scores

步骤 3 计算每个候选者的相似性

找出<user id> 与列表中其它用户的差异 .

ZRANGE user:<user id>:same_items 0 -1

ZINTERSTORE rms:<user id1>:<user id2> 2 user:<user id1>:items user:<user id2>:items WEIGHTS 1 -1

将两个用户的差开平方根再取绝对值。然后根据这值去实现自己的逻辑来判断谁与给定用户最为接近.

步骤 4 获取候选物品

既然我们有一个与用户U1类似的Sorted用户Set，那么我们可以将与那些用户和他们打过分相关联的物品抽取出来. 我们将会用ZUNIONSTORE 和U1的相似用户来做这个, 但我们需要保证已经排除了用户U1已经打过分的所有物品.

这里又要用到权重，这次使用AGGREGATE选项和ZRANGEBYSCORE命令. 将U1的物品乘以-1，其它的物品乘以1，指定AGGREGATE MIN选项可以得到一个比较容易截取的Sorted Set: 所有U1物品的分数将是负数,而其它用户的物品分数将是正数. 借助ZRANGEBYSCORE, 我们可以获取到分数大于0的所有物品，并返回用户U1未打过分的那些物品.

假设<user id 1> 与<user id 3>, <user id 5>, <user id 6>相似:

ZUNIONSTORE recommendations:<user id 1> 4 user:<user id 1>:items user:<user id 3>:items user:<user id 5>:items user:<user id 6>:items WEIGHTS -1 1 1 1 AGGREGATE MIN

示例场景: 本地杂货铺移动应用的推荐信息

杂货连锁店决定在应用内增加另一个特性. 允许顾客给物品打分，分数范围从1到5. 那些购买过类似物品并给物品打过类似分的顾客将更具有相关性，因为商铺现在开始促销的物品不仅仅是基于顾客购买的行为来推荐的，而且还基于他们如何给物品打分来做推荐.

数据结构如下:

userid:U1:items = {(milk, 4), (bananas, 5)}

userid:U2:items = {(milk, 3), (carrots, 4), (bananas, 5)}

userid:U3:items = {(milk, 5)}

item:milk:scores = {(U1, 4), (U2, 3), (U3, 5)}

item:bananas:scores = {(U1, 5), (U2, 5)}

item:carrots:scores = {(U2, 4)}

ZRANGE user:U1:items 0 -1

= {(milk, 4), (bananas, 5)}

ZUNIONSTORE user:U1:same_items 2 item:milk:scores item:bananas:scores

user:U1:same_items = {(U1, 9), (U2, 8), (U3, 5)}

ZINTERSTORE rms:U1:U2 2 user:U1:items user:U2:items WEIGHTS 1 -1

ZINTERSTORE rms:U1:U3 2 user:U1:items user:U3:items WEIGHTS 1 -1

rms:U1:U2 = {(bananas, 0), (milk, 1)};

rms:U1:U3 = {(milk, -1)};

RMS of rms:U1:U2 = 0.7

RMS of rms:U1:U3 = 1

根据以上的计算，我们可以得出结论U2与U1的相似性要高于U3与U1的相似性.然而，对我们的计算，我们会选择开平方根的值<=1的，因此，我们会同时考虑 U2和U3的打分.

ZUNIONSTORE recommendations:U1 3 user:U1:items user:U2:items user:U3:items WEIGHTS -1 1 1 AGGREGATE MIN

recommendations:U1 = {(bananas, -5), (milk, -4), (carrots, 4)}

具有最高分的物品推荐给了U1. 在我们例子中，商铺推荐了carrots给U1.

高级推荐

如果有大量的用户行为数据，那么使用协同过滤是一个很好的技术方案。协调过滤相对比较泛化，不需要深入理解被推荐物品的内容. 这个技术对于许多用户具有相同兴趣的情况下会工作的很好。反观基于内容的推荐却很乏味. 但他们如果结合了预测分析和机器学习技术后会最有效. Redis-ML提供了一个使用树族如随机树的分类技术.

下面的伪代码阐述了我们如何使用Redis-ML模块做推荐. 代码中假设你已经生成了在Apache Spark上的模型并将其导入到了Redis. Apache Spark提供了一些必要的工具用于创建和训练一个机器学习(ML)模块. 当你将Apache Spark的ML模型导入到Redis, Redis-ML会自动将Spark ML模块转成Redis的数据结构并使用得它可以立即工作.

代码的主要思路是:

从Redis中获取用户画像.
抓取用户感兴趣的分类. 我们允许用户选择他们感兴趣的类别或者/和基于他们的购买历史来计算类别.
获取属于感兴趣分类的所有物品.
对每个物品，在随机树分类器中计算分数(RedisRandomForestClassfy).
根据打分对物品进行排序, 并推荐具有最高分的物品.

关于Redis-ML更多的信息,请访问 http://redismodules.com/modules/redis-ml/.

优化生产环境中的实时推荐服务

Set和Sorted Set操作比较耗时耗资源，特别是对大数据集而言. 对于实时推荐，我们所需要的最终产品就是：推荐给每个用户的物品Set或Sorted Set. 作为一个高性能，低延时，内存型的数据存储,Redis通常能完成好推荐所需要的计算量. 然而，我们推荐你应该提前为每个用户准备最终推荐产品，主要是为了(1) 以亚毫秒的延时推送推荐信息且(2) 让方案更资源有效. 所有临时的用于计算的Sets和Sorted Sets可在生成用户的最终推荐集合后被丢弃.

推荐引擎是否要以一个batch job来创建还是当用户更新他们的画像或活动时做为一个正在运行的进程?这其实取决于许多因素, 如用户访问应用频率有多高,他们的行为改变有多频繁, 事务的量有多大以及业务目标等. 例如，如果方案的设计者正在一个退休计划应用(一个不被用户经常使用的应用)中创建推荐 ,那么没有实时的推荐信息并不重要. 反之，如果方案设计者正在给白天的交易员创建推荐，那么推荐需要及时的反应市场最佳情况才是有价值的. 方案设计者必须研究他们的数据，用户的行为，推荐的目标等来选择正确的响应级别.

本文分享自微信公众号 - IT技术精选文摘（ITHK01），作者：Bill Tu

原文出处及转载信息见文内详细说明，如有侵权，请联系 yunjia_community@tencent.com删除。

原始发表时间：2017-08-04

本文参与腾讯云自媒体分享计划，欢迎正在阅读的你也加入，一起分享。

展开阅读全文

基于Redis的推荐系统开发相关推荐

开放下载！基于PAI个性化推荐系统开发指南
亚马逊的CEO Jeff Bezos曾经说过,他的梦想是"如果我有100万个用户,我就要为他们做100万个亚马逊网站".而智能推荐系统的出现,就是为了实现这个梦想,智能推荐系统解决 ...
基于springboot+redis+bootstrap+mysql开发一套属于自己的分布式springcloud云权限架构（七）【权限架构生产者（数据字典）】
在我们的编码中我们经常会存放一些静态常量,而这些静态变量我们通常都是写死的,如果我们需要改变这些静态变量的值那么我们必须要修改代码,并重新发布程序,这很明显很不符合我们现实中的业务场景,我们现实中的业 ...
python 消息队列 go_gmq: gmq是基于redis提供的特性,使用go语言开发的一个简单易用的消息队列;支持延迟任务,异步任务,超时任务,优先级任务...
1. 概述 gmq是基于redis提供的特性,使用go语言开发的一个简单易用的队列;关于redis使用特性可以参考之前本人写过一篇很简陋的文章Redis 实现队列; gmq的灵感和设计是基于有赞延迟队 ...
基于redis的短信验证码服务开发
基于redis的短信验证码服务开发目前可以提供的验证码服务平台有很多,这里选择阿里大于短信验证码服务平台,里面有10元体验卷可以免费试用,不多说上代码.写代码之前需要去阿里大于平台申请验证码服务,同 ...
大神级教程！300分钟撸一个基于Redis 6.0 版本的高并发架构
刚好原先公司搞职位调整,我不太满意,赶上这波金三银四的面试浪潮,干了也有5年的后端开发了,不是大神也是有实战经验的,我就自信满满地去面了几家大厂,结果就遇到... 面试官这夺命连环12问,谁顶得住? ...
python分布式任务调度_Python使用Celery分布式异步队列/任务调度(基于Redis) - pytorch中文网...
今天使用爬虫有些耗时较长,需要使用任务调度,Celery是Python开发的分布式任务调度模块,Celery本身不含消息服务,它使用第三方消息服务来传递任务,目前,Celery支持的消息服务有Rabb ...
CentOS7下安装Redis伪集群（基于Redis官方Cluster集群模式版本redis-5.0.10）
文章目录 Redis简介什么是redis redis的优点 Redis集群都有哪些模式主从复制(Master-Slave Replication) 哨兵模式(Sentinel) Redis官方 C ...
基于redis实现的扣减库存
2019独角兽企业重金招聘Python工程师标准>>> 在日常开发中有很多地方都有类似扣减库存的操作,比如电商系统中的商品库存,抽奖系统中的奖品库存等. 解决方案使用mysql数据 ...
【BCVP】实现基于 Redis 的消息队列
聆听自己的声音如果自己学不动了,或者感觉没有动力的时候,看看书,听听音乐,跑跑步,休息两天,重新出发,偷懒虽好,可不要贪杯. 话说上回书我们说到了,Redis的使用修改<[BCVP更新]Sta ...
Spring Boot之基于Redis实现MyBatis查询缓存解决方案
转载自 Spring Boot之基于Redis实现MyBatis查询缓存解决方案 1. 前言 MyBatis是Java中常用的数据层ORM框架,笔者目前在实际的开发中,也在使用MyBatis.本文主要 ...

基于Redis的推荐系统开发

基于Redis的推荐系统开发相关推荐

最新文章

热门文章