2019独角兽企业重金招聘Python工程师标准>>>

关于推荐引擎

如今的互联网中,无论是电子商务还是社交网络,对数据挖掘的需求都越来越大了,而推荐引擎正是数据挖掘完美体现;通过分析用户历史行为,将他可能喜欢内容推送给他,能产生相当好的用户体验,这就是推荐引擎。

推荐算法Slope one的原理

首先Slope one是一种基于项目的协同过滤算法(Item-based Recommendation),简单介绍这种算法(若理解有误,欢迎大家更正,I am just a beginner):根据用户们对产品的喜好程度,来将产品分类;举个简单例子:比如有10个用户,其中有9个人即喜欢产品A,也喜欢产品B,但只有2个人喜欢产品C;于是可以推断产品A和产品B是属于同类的,而产品C可能跟它们不是一类。

好了话不多讲,让我们看看Slope one吧!

Slope one是通过用户们对每个产品的评分,来计算产品间的一个差值;这种计算是通过 线性回归

f(x) = ax + b到的,其中a = 1,正如它的名字Slope one(斜率为一);另外用户的评分,在Slope one中

是必不可少的。这里举例看看它的计算方式:下面是一张用户对书籍的评分表

书 1

书 2

书 3

用户A

5

3

2

用户B

3

4

未评分

用户C

未评分

2

5

书1是否适合推荐给用户C,需要通过Slope one 计算出一个值来判定:首先得到书1和书2之间的平均差值X = ((5-3)+(3-4))/ 2 = 0.5,然后通过用户C对书2的打分得到相应的推荐值 2+0.5 = 2.5 (推荐引擎会通过推荐值的高低来选择要推荐的物品),这里只是通过书2来计算用户C对书1的推荐值,实际的Slope one算法中若要得到用户C对书1的推荐值,会把用户C评分过的所有书按此方法依次对书1(为评分的书)算推荐值,然后取平均值得到,放到表中如下:

(((5-3)+(3-4))/ 2 +2 + (5 - 2)/ 1 + 5 )/ 2 = 5.25

实际应用中你还可以设权值,这里就不深入了。

以上是Slope one的原理,接下来看看它在Mahout中是如何设计与实现的。

Mahout中Slope one的设计思路以及代码实现

先简单介绍下,Mahout是Apache的一个开源项目,由Lucene项目组和Hadoop项目组分离出来,它实现了推荐引擎中的大部分经典算法,有兴趣的朋友可以研究研究

首先我们需要基础数据,即用户对产品的评分,这部分数据可以来自数据库也可以来自文件,Mahout中对此设计了一个简单的数据库表,SQL如下:

CREATE TABLE taste_preferences (user_id BIGINT NOT NULL,item_id BIGINT NOT NULL,preference FLOAT NOT NULL,PRIMARY KEY (user_id, item_id),INDEX (user_id),INDEX (item_id)
)

其次,Mahout在启动时,会对这部分数据进行处理,算出每对产品间的平均评分差值,已Map<ItemId, Map<ItemId, Average>>的数据结构存放在内存中(当然这帮牛人没有用Java中Map的实现,自己写了一个叫FastByIDMap的类)。处理基础数据的计算代码如下:

1. 首先获取所有评过分的用户id (7,而dataModel就是用于存放我上面提到的基础)

2. 然后依次计算每个用户评分过的产品间的平均评分差值 (9,具体在processOneUser中实现)

private void buildAverageDiffs() throws TasteException {log.info("Building average diffs...");try {buildAverageDiffsLock.writeLock().lock();averageDiffs.clear();long averageCount = 0L;LongPrimitiveIterator it = dataModel.getUserIDs();while (it.hasNext()) {averageCount = processOneUser(averageCount, it.nextLong());}pruneInconsequentialDiffs();updateAllRecommendableItems();} finally {buildAverageDiffsLock.writeLock().unlock();}}

3. 首先取出该用户所有评分过的项目和评分值(4)

4. 依次计算这些项目间的平均评分差值(6 ~ 26),并存储在内存中。

private long processOneUser(long averageCount, long userID) throws TasteException {log.debug("Processing prefs for user {}", userID);// Save off prefs for the life of this loop iterationPreferenceArray userPreferences = dataModel.getPreferencesFromUser(userID);int length = userPreferences.length();for (int i = 0; i < length - 1; i++) {float prefAValue = userPreferences.getValue(i);long itemIDA = userPreferences.getItemID(i);FastByIDMap<RunningAverage> aMap = averageDiffs.get(itemIDA);if (aMap == null) {aMap = new FastByIDMap<RunningAverage>();averageDiffs.put(itemIDA, aMap);}for (int j = i + 1; j < length; j++) {// This is a performance-critical blocklong itemIDB = userPreferences.getItemID(j);RunningAverage average = aMap.get(itemIDB);if (average == null && averageCount < maxEntries) {average = buildRunningAverage();aMap.put(itemIDB, average);averageCount++;}if (average != null) {average.addDatum(userPreferences.getValue(j) - prefAValue);}}RunningAverage itemAverage = averageItemPref.get(itemIDA);if (itemAverage == null) {itemAverage = buildRunningAverage();averageItemPref.put(itemIDA, itemAverage);}itemAverage.addDatum(prefAValue);}return averageCount;}

以上是启动时做的事,而当某个用户来了,需要为他计算推荐列表时,就快速许多了(是一个空间换时间的思想),下面的方法是某一个用户对其某一个他未评分过的产品的推荐值,参数UserId:用户ID;ItemId:为评分的产品ID

1. 再次取出该用户评分过的所有产品(4):PreferenceArray prefs中保存着ItemID和该用户对它的评分

2. 取得上一步得到的prefs中的所有物品与itemID代表的物品之间的平均评分差值(5),其中

DiffStorage diffStorage对象中存放中每对产品间的平均评分差值(而上面启动时的计算都是在

MySQLJDBCDiffStorage中实现的,计算后的值也存于其中,它是DiffStorage接口的实现),所以

取得的流程很简单,这里不贴代码了

3. 最后就是依次推算评分过的产品到未评分的产品的一个推荐值 = 平均评分差值(两者间的) + 已评分的分值(用

户对其中一个评分),然后将这些推荐值取个平均数(7 ~ 37),其中11行判断是否要考虑权重。

private float doEstimatePreference(long userID, long itemID) throws TasteException {double count = 0.0;double totalPreference = 0.0;PreferenceArray prefs = getDataModel().getPreferencesFromUser(userID);RunningAverage[] averages = diffStorage.getDiffs(userID, itemID, prefs);int size = prefs.length();for (int i = 0; i < size; i++) {RunningAverage averageDiff = averages[i];if (averageDiff != null) {double averageDiffValue = averageDiff.getAverage();if (weighted) {double weight = averageDiff.getCount();if (stdDevWeighted) {double stdev = ((RunningAverageAndStdDev) averageDiff).getStandardDeviation();if (!Double.isNaN(stdev)) {weight /= 1.0 + stdev;}// If stdev is NaN, then it is because count is 1. Because we're weighting by count,// the weight is already relatively low. We effectively assume stdev is 0.0 here and// that is reasonable enough. Otherwise, dividing by NaN would yield a weight of NaN// and disqualify this pref entirely// (Thanks Daemmon)}totalPreference += weight * (prefs.getValue(i) + averageDiffValue);count += weight;} else {totalPreference += prefs.getValue(i) + averageDiffValue;count += 1.0;}}}if (count <= 0.0) {RunningAverage itemAverage = diffStorage.getAverageItemPref(itemID);return itemAverage == null ? Float.NaN : (float) itemAverage.getAverage();} else {return (float) (totalPreference / count);}}

Slope one 的源码已分析完毕。

其实Slope one推荐算法很流行,被很多网站使用,包括一些大型网站;我个人认为最主要的原因是它具备如下优势:

1. 实现简单并且易于维护。

2. 响应即时(只要用户做出一次评分,它就能有效推荐,根据上面代码很容易理解),并且用户的新增评分对推荐数据的改变量较小,应为在内存中存储的是物品间的平均差值,新增的差值只需累加一下,且范围是用户评分过的产品。

3. 由于是基于项目的协同过滤算法,适用于当下火热的电子商务网站,原因电子商务网站用户量在几十万到上百万,产品量相对于之则要小得多,所以对产品归类从性能上讲很高效。

分析至此,祝大家周末愉快。

参考资料:

1. Slope one http://zh.wikipedia.org/wiki/Slope_one

2. 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html

3. Apache Mahout 源代码

另:原创blog,转载请注明http://my.oschina.net/BreathL/blog/41063

转载于:https://my.oschina.net/BreathL/blog/40397

Apache Mahout中推荐算法Slope one源码分析相关推荐

  1. netty中的future和promise源码分析(二)

    前面一篇netty中的future和promise源码分析(一)中对future进行了重点分析,接下来讲一讲promise. promise是可写的future,从future的分析中可以发现在其中没 ...

  2. WebRTC[1]-WebRTC中h264解码过程的源码分析

    目录 前言 正文 <WebRTC工作原理精讲>系列-总览_liuzhen007的专栏-CSDN博客_webrtc 原理前言欢迎大家订阅Data-Mining 的<WebRTC工作原理 ...

  3. 推荐算法_CIKM-2019-AnalytiCup 冠军源码解读_2

    最近在为机器学习结合推荐算法的优化方法和数据来源想办法.抱着学习的态度继续解读19-AnalytiCup的冠军源码. 第一部分itemcf解读的连接:https://www.cnblogs.com/m ...

  4. Spark 随机森林算法原理、源码分析及案例实战

    图 1. Spark 与其它大数据处理工具的活跃程度比较 回页首 环境要求 操作系统:Linux,本文采用的 Ubuntu 10.04,大家可以根据自己的喜好使用自己擅长的 Linux 发行版 Jav ...

  5. Apache Storm 实时流处理系统通信机制源码分析

    我们今天就来仔细研究一下Apache Storm 2.0.0-SNAPSHOT的通信机制.下面我将从大致思想以及源码分析,然后我们细致分析实时流处理系统中源码通信机制研究. 1. 简介 Worker间 ...

  6. SVM算法及OpenCV源码分析

    关于SVM原理,请参看: 系统学习机器学习之SVM(一) 系统学习机器学习之SVM(二) 系统学习机器学习之SVM(三)--Liblinear,LibSVM使用整理,总结 系统学习机器学习之SVM(四 ...

  7. LIRe图像检索:CEDD算法原理与源码分析

    本文节选自论文<Android手机上图像分类技术的研究>,并结合我对LIRe中CEDD源码进行分析.解读和研究. 颜色和边缘方向性描述符(Color and EdgeDirectivity ...

  8. 【Java】NIO中Selector的select方法源码分析

    该篇博客的有些内容和在之前介绍过了,在这里再次涉及到的就不详细说了,如果有不理解请看[Java]NIO中Channel的注册源码分析, [Java]NIO中Selector的创建源码分析 Select ...

  9. LIRe图像检索:FCTH算法原理与源码分析

    本文节选自论文<基于半监督和主动学习相结合的图像的检索研究>,并结合我对LIRe中FCTH源码进行分析.解读和研究. 模糊颜色和纹理直方图(Fuzzy Color and Texture ...

最新文章

  1. 智源抗疫 - 药物研发小分子性质预测赛
  2. java 窗口开始_Java窗口(JFrame)从零开始(3)——绝对布局
  3. java session 是什么意思_Java:Session详解
  4. 端口复用和半关闭补充
  5. Ansible相关工具介绍、实例演示
  6. 随手练——HDU-2037 、P-2920 时间安排(贪心)
  7. java写hive自定义函数_hive自定义函数的实现和执行
  8. Kubernetes[3]-Server
  9. 在按钮上绑定一个图案
  10. 封装一个帮助类来写文件到android外置存储器上
  11. 单点登录相关问题总结
  12. 编译错误:vulkan/vulkan.h:没有那个文件或目录
  13. 企业应用网站性能优化实例分析
  14. python excel怎么将字母后的数字取出来_Excel提取数字、字母、汉字,靠Python一个公式搞定...
  15. vue项目中设置浏览器图标
  16. 阿里云飞天技术总架构师唐洪:飞天技术与应用
  17. javascript获取本周、本月、本季度、本年时间
  18. VR头显中的一朵奇葩,FaceDisplay使用三屏交互
  19. opensips代码分析
  20. Invalid bound statement (not found): com.admin.dao.SysLogUserMapper.selectByUserAndLogou

热门文章

  1. 洪小文: 今天的AI只是一个黑盒,仍需与HI密切配合
  2. 谷歌宣布对外开放聊天机器人数据分析平台Chatbase
  3. 好气啊,面试官不讲武德! | 每日趣闻
  4. CSDN七夕包分配,最后一天啦!
  5. 腾讯:我就是那只吃了假辣椒酱的憨憨。老干妈:企鹅你可长点心吧!
  6. 重学前端之(4)函数、作用域、预解析
  7. 超越halcon速度的二值图像的腐蚀和膨胀,实现目前最快的半径相关类算法(附核心源码)。...
  8. Android 5.0状态栏和导航栏
  9. 关于ubuntu 16.04 docker常用命令
  10. set集合, 深浅拷贝, join, 列表和字典在循环中删除元素的问题, fromkeys( , )