0 相关源码

将结合前述知识进行综合实战,以达到所学即所用。在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。

1 推荐系统简介

1.1 什么是推荐系统



1.2 推荐系统的作用

1.2.1 帮助顾客快速定位需求,节省时间

1.2.2 大幅度提高销售量

1.3 推荐系统的技术思想

1.3.1 推荐系统是一种机器学习的工程应用

1.3.2 推荐系统基于知识发现原理

1.4 推荐系统的工业化实现

  • Apache Spark

  • Apache Mahout

  • SVDFeature(C++)

  • LibMF(C+ +,Lin Chih-Jen)

2 推荐系统原理

可能是推荐系统最详细且简单的入门教程

官方文档指南

协同过滤

协同过滤通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。
spark.ml目前支持基于模型的协同过滤,其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。
spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:

  • numBlocks
    用户和项目将被分区为多个块的数量,以便并行化计算(默认为10)。

  • rank
    模型中潜在因子的数量(默认为10)。

  • maxIter
    要运行的最大迭代次数(默认为10)。

  • regParam
    指定ALS中的正则化参数(默认为1.0)。

  • implicitPrefs
    指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的变量(默认为false,这意味着使用显式反馈)。

  • alpha
    适用于ALS的隐式反馈变量的参数,其控制偏好观察中的基线置信度(默认为1.0)。
    nonnegative指定是否对最小二乘使用非负约束(默认为false)。

注意:基于DataFrame的ALS API目前仅支持用户和项ID的整数。 user和item id列支持其他数字类型,但id必须在整数值范围内。

显性与隐性反馈

基于矩阵分解的协同过滤的标准方法将用户项矩阵中的条目视为用户对项目给出的显式偏好,例如,给予电影评级的用户。

在许多现实世界的用例中,通常只能访问隐式反馈(例如,观看,点击,购买,喜欢,分享等)。
spark.ml中用于处理此类数据的方法取自Collaborative Filtering for Implicit Feedback Datasets。本质上,这种方法不是试图直接对评级矩阵进行建模,而是将数据视为表示用户操作观察强度的数字(例如点击次数或某人花在观看电影上的累积持续时间)。然后,这些数字与观察到的用户偏好的置信水平相关,而不是与项目的明确评级相关。然后,该模型试图找到可用于预测用户对项目的预期偏好的潜在因素。

缩放正则化参数

我们通过用户在更新用户因素时产生的评级数或在更新产品因子时收到的产品评级数来缩小正则化参数regParam以解决每个最小二乘问题。 这种方法被命名为“ALS-WR”,并在“Netflix奖的大规模并行协同过滤”一文中进行了讨论。 它使regParam较少依赖于数据集的规模,因此我们可以将从采样子集中学习的最佳参数应用于完整数据集,并期望获得类似的性能。

冷启动策略

在使用ALS模型进行预测时,通常会遇到测试数据集中的用户和/或项目,这些用户和/或项目在训练模型期间不存在。这通常发生在两种情况中:

  • 在生产中,对于没有评级历史且未对模型进行过训练的新用户或项目(这是“冷启动问题”)。
  • 在交叉验证期间,数据在训练和评估集之间分割。当使用Spark的CrossValidator或TrainValidationSplit中的简单随机分割时,实际上很常见的是在评估集中遇到不在训练集中的用户和/或项目
    默认情况下,当模型中不存在用户和/或项目因子时,Spark会在ALSModel.transform期间分配NaN预测。这在生产系统中很有用,因为它表示新用户或项目,因此系统可以决定使用某些后备作为预测。

但是,这在交叉验证期间是不合需要的,因为任何NaN预测值都将导致评估指标的NaN结果(例如,使用RegressionEvaluator时)。这使得模型选择不可能。

Spark允许用户将coldStartStrategy参数设置为“drop”,以便删除包含NaN值的预测的DataFrame中的任何行。然后将根据非NaN数据计算评估度量并且该评估度量将是有效的。以下示例说明了此参数的用法。

注意:目前支持的冷启动策略是“nan”(上面提到的默认行为)和“drop”。将来可能会支持进一步的战略。

在以下示例中,我们从MovieLens数据集加载评级数据,每行包含用户,电影,评级和时间戳。 然后,我们训练一个ALS模型,默认情况下,该模型假设评级是显式的(implicitPrefs为false)。 我们通过测量评级预测的均方根误差来评估推荐模型。

import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.recommendation.ALScase class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long)
def parseRating(str: String): Rating = {val fields = str.split("::")assert(fields.size == 4)Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat, fields(3).toLong)
}val ratings = spark.read.textFile("data/mllib/als/sample_movielens_ratings.txt").map(parseRating).toDF()
val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2))// Build the recommendation model using ALS on the training data
val als = new ALS().setMaxIter(5).setRegParam(0.01).setUserCol("userId").setItemCol("movieId").setRatingCol("rating")
val model = als.fit(training)// Evaluate the model by computing the RMSE on the test data
// Note we set cold start strategy to 'drop' to ensure we don't get NaN evaluation metrics
model.setColdStartStrategy("drop")
val predictions = model.transform(test)val evaluator = new RegressionEvaluator().setMetricName("rmse").setLabelCol("rating").setPredictionCol("prediction")
val rmse = evaluator.evaluate(predictions)
println(s"Root-mean-square error = $rmse")// Generate top 10 movie recommendations for each user
val userRecs = model.recommendForAllUsers(10)
// Generate top 10 user recommendations for each movie
val movieRecs = model.recommendForAllItems(10)// Generate top 10 movie recommendations for a specified set of users
val users = ratings.select(als.getUserCol).distinct().limit(3)
val userSubsetRecs = model.recommendForUserSubset(users, 10)
// Generate top 10 user recommendations for a specified set of movies
val movies = ratings.select(als.getItemCol).distinct().limit(3)
val movieSubSetRecs = model.recommendForItemSubset(movies, 10)

如果评级矩阵是从另一个信息源派生的(即从其他信号推断出来),您可以将implicitPrefs设置为true以获得更好的结果:

val als = new ALS().setMaxIter(5).setRegParam(0.01).setImplicitPrefs(true).setUserCol("userId").setItemCol("movieId").setRatingCol("rating")

3 推荐系统实战coding

3.1 分割数据集

  • 数据集 tab分割

  • 代码分割数据集

  • 分割结果

3.2 预测评分

  • 预测代码
  • 预测结果

3.3 MovieLens数据集推荐

  • 数据集推荐代码

    MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1,10和20万个评分。 最大的数据集使用约14万用户的数据,并覆盖27,000部电影。 除了评分之外,MovieLens数据还包含类似“Western”的流派信息和用户应用的标签,如“over the top”和“Arnold Schwarzenegger”。 这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码,例如颜色,形状,流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。

MovieLens的数据在过去20年中已经由大学的学生以及互联网上的人们进行收集了。 MovieLens有一个网站,您可以注册,贡献自己的评分,并接收由GroupLens组实施的几个推荐者算法这里之一的推荐内容。

  • 用户ID

  • 所推电影

Spark机器学习实践系列

  • 基于Spark的机器学习实践 (一) - 初识机器学习
  • 基于Spark的机器学习实践 (二) - 初识MLlib
  • 基于Spark的机器学习实践 (三) - 实战环境搭建
  • 基于Spark的机器学习实践 (四) - 数据可视化
  • 基于Spark的机器学习实践 (六) - 基础统计模块
  • 基于Spark的机器学习实践 (七) - 回归算法
  • 基于Spark的机器学习实践 (八) - 分类算法
  • 基于Spark的机器学习实践 (九) - 聚类算法
  • 基于Spark的机器学习实践 (十) - 降维算法
  • 基于Spark的机器学习实践(十一) - 文本情感分类项目实战
  • 基于Spark的机器学习实践 (十二) - 推荐系统实战

X 交流学习

Java交流群

博客

知乎

Github

转载于:https://blog.51cto.com/13601128/2382216

Spark机器学习实战 (十二) - 推荐系统实战相关推荐

  1. OpenCV C++案例实战十二《图像全景拼接》

    OpenCV C++案例实战十二<图像全景拼接> 前言 一.OpenCV Stitcher 1.功能源码 2.效果 二.图像全景拼接 1.特征检测 2.计算单应性矩阵 3.透视变换 4.图 ...

  2. 从头开始学Tableau-第十二章(实战3 地图实践)

    从头开始学Tableau-第十二章(实战3 地图实践) 第一章 第二章 第三章 第四章 第五章 第六章 第七章 第八章 第九章 第十章 第十章 数据源 这个实践主要是用地图来呈现数据,我们所用的是保险 ...

  3. [2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL

    [2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL 做笔记的目的 What is RL Policy Gradient Version 1 Ver ...

  4. 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost

    文章目录 0. 前言 1. AdaBoost算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Boosting:先训练一个基学习器,然后根据学习器的表现对样本 ...

  5. 从壹开始前后端分离 [ Vue2.0+.NET Core2.1] 二十二║Vue实战:个人博客第一版(axios+router)...

    前言 今天正式开始写代码了,之前铺垫了很多了,包括 6 篇基础文章,一篇正式环境搭建,就是为了今天做准备,想温习的小伙伴可以再看看<Vue 基础入门+详细的环境搭建>,内容很多,这里就暂时 ...

  6. [python opencv 计算机视觉零基础到实战] 十二 直方图

    一.学习目标 了解matplotlib绘图库的使用 了解如何通过折线图或者直方图对图表进行绘制 了解了通过图标对图片内容进行直观判断 如有错误欢迎指出~ 二.了解图像直方图及其应用 2.1 了解mat ...

  7. K8S 快速入门(十二)实战篇:配置 ConfigMapSecret

    一.ConfigMap 官方文档 ConfigMap 1. 动机 我们经常都需要为我们的应用程序配置一些特殊的数据,比如密钥.Token .数据库连接地址或者其他私密的信息.你的应用可能会使用一些特定 ...

  8. 从壹开始前后端分离 [ Vue2.0+.NET Core2.1] 二十二║Vue实战:个人博客第一版

    前言 今天正式开始写代码了,之前铺垫了很多了,包括 6 篇基础文章,一篇正式环境搭建,就是为了今天做准备,想温习的小伙伴可以再看看<Vue 基础入门+详细的环境搭建>,内容很多,这里就暂时 ...

  9. Android学习笔记(十二)——实战:制作一个聊天界面

    //此系列博文是<第一行Android代码>的学习笔记,如有错漏,欢迎指正! 运用简单的布局知识,我们可以来尝试制作一个聊天界面. 一.制作 Nine-Patch 图片 : Nine-Pa ...

最新文章

  1. JanusGraph报错:Unknown external index backend
  2. mysql的tcp链接过程_tcp建立连接和断开连接过程
  3. 前端学习(1365):express框架导读
  4. 为iOS7重新设计你的App
  5. turtle生成二叉树
  6. html中%3c%3e括号,打开关闭大括号检查
  7. 小程序入门学习06--data、url传参、调用豆瓣api
  8. 图像转svg,及绘制svg图像
  9. 2018年全国多校算法寒假训练营练习比赛(第一场)D. N阶汉诺塔变形(找规律)
  10. OGNL 过滤与投影
  11. 使用Epoch-Based Reclamation(EBR,特定域回收的一种方法)修改 lazy-list
  12. 19年PDYZ冬令营游记
  13. oracle数据库和sql有什么区别,sql server 和oracle数据库的区别
  14. python种子数是什么意思_Python:随机种子问题
  15. 乐高spike python_SPIKE Prime科创套装 篇四:乐高教育SPIKE Prime入门编程和搭建活动教学...
  16. RGB转YCbCr422_BT709颜色空间转换仿真
  17. 20170919_C++面试问题记录
  18. 中国微型连接器市场趋势报告、技术动态创新及市场预测
  19. Unity实现跨场景的传送门
  20. NASA庆祝地球日:50年地球最精美图片亮相(转载)

热门文章

  1. 【Scala谜题】继承
  2. Tomcat 之 启动tomcat时 错误: 代理抛出异常 : java.rmi.server.ExportException: Port already in use: 1099;...
  3. OneAPM CI与阿里云容器服务集成
  4. 用c#开发微信 (13) 微统计 - 阅读分享统计系统 3 UI设计及后台处理
  5. web.xml与index.html
  6. 多代理集群调度:可伸缩性和灵活性
  7. 深入 Lucene 索引机制
  8. 21/100. Two Sum
  9. c#利用反射+特性实现简单的实体映射数据库操作类实现自动增删改查(一)
  10. [SCOI2012] 喵星球上的点名