目录

  • 数据说明
  • 需求1:Top10 热门品类
    • 需求说明
    • 实现方案一
      • 需求分析
      • 需求实现
    • 实现方案二
      • 需求分析
      • 需求实现
    • 实现方案三
      • 需求分析
      • 需求实现
  • 需求 2:Top10 热门品类中每个品类的 Top10 活跃Session 统计
    • 需求说明
      • 需求分析
      • 需求实现

数据说明

在前面的博客中已经介绍了了 Spark 的基础编程方式,接下来,再看下在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求,所以在实现功能前,先将数据准备好。
数据文档链接
提取码:xzc6

上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的4种行为:搜索,点击,下单,支付。数据规则如下:
(1)数据文件中每行数据采用下划线分隔数据
(2)每一行数据表示用户的一次行为,这个行为只能是4 种行为的一种
(3) 如果搜索关键字为 null,表示数据不是搜索数据
(4)如果点击的品类 ID 和产品ID 为-1,表示数据不是点击数据
(5)针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示
(6)支付行为和下单行为类似
详细字段说明:

根据上面的字段,自定义样例类:

//用户访问动作表
case class UserVisitAction( date: String,//用户点击行为的日期 user_id: Long,//用户的 ID session_id: String,//Session 的 ID page_id: Long,//某个页面的 ID action_time: String,//动作的时间点 search_keyword: String,//用户搜索的关键词 click_category_id: Long,//某一个商品品类的 ID click_product_id: Long,//某一个商品的 ID order_category_ids: String,//一次订单中所有品类的 ID 集合 order_product_ids: String,//一次订单中所有商品的 ID 集合 pay_category_ids: String,//一次支付中所有品类的 ID 集合 pay_product_ids: String,//一次支付中所有商品的 ID 集合 city_id: Long
)//城市 id

需求1:Top10 热门品类

需求说明

品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。

鞋        点击数     下单数  支付数
衣服  点击数     下单数      支付数
电脑  点击数     下单数      支付数

例如,综合排名 = 点击数20%+下单数30%+支付数*50%

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

实现方案一

需求分析

分别统计每个品类点击的次数,下单的次数和支付的次数:
(品类,点击总数)(品类,下单总数)(品类,支付总数)

需求实现

package com.atguigu.bigdata.spark.core.rdd.reqimport org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Spark01_Req1_HotCateforyTop10Analysis {def main(args: Array[String]): Unit = {//TODO : Top热门品类val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("HotCateforyTop10Analysis")val sc = new SparkContext(sparkConf)//1. 读取原始日志数据val actionRDD: RDD[String] = sc.textFile("datas/user_visit_action.txt")//2. 统计品类的点击数量(品类ID,点击数量)val clickActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(6) != "-1"})val clickCountRDD: RDD[(String, Int)] = clickActionRDD.map(action => {val datas: Array[String] = action.split("_")(datas(6), 1)}).reduceByKey(_ + _)//3. 统计品类的下单数量(品类ID,下单数量)val orderActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(8) != "null"})val orderCountRDD: RDD[(String, Int)] = orderActionRDD.flatMap(action => {val datas: Array[String] = action.split("_")val cid = datas(8)val cids = cid.split(",")//扁平化cids.map(id => (id, 1))}).reduceByKey(_ + _)//4. 统计品类的支付数量(品类ID,支付数量)val payActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(10) != "null"})val payCountRDD: RDD[(String, Int)] = payActionRDD.flatMap(action => {val datas: Array[String] = action.split("_")val cid = datas(10)val cids = cid.split(",")//扁平化cids.map(id => (id, 1))}).reduceByKey(_ + _)//5.将品类进行排序,并且取前十名// 点击数量排序,下单数量的排序,支付数量排序// 元组排序:先比较第一个,在比较第二个,依次类推// (品类ID, (点击数量,下单数量,支付数量))//join(不可以),zip(不可以),leftOutJoin(不可以),cogroup (可以)连接数据val cogroupRDD: RDD[(String, (Iterable[Int], Iterable[Int], Iterable[Int]))] =clickCountRDD.cogroup(orderCountRDD, payCountRDD)val analysisRDD = cogroupRDD.mapValues{case (clickIter, orderIter, payIter) => {var clickCnt = 0val iter1 = clickIter.iteratorif (iter1.hasNext){clickCnt = iter1.next()}var orderCnt = 0val iter2 = orderIter.iteratorif (iter2.hasNext){orderCnt = iter2.next()}var payCnt = 0val iter3 = payIter.iteratorif (iter3.hasNext){payCnt = iter3.next()}(clickCnt,orderCnt,payCnt)}}val resultRDD: Array[(String, (Int, Int, Int))] = analysisRDD.sortBy(_._2, false).take(10)//6.将结果采集到控制台resultRDD.foreach(println)sc.stop()}}

实现方案二

需求分析

一次性统计每个品类点击的次数,下单的次数和支付的次数:
(品类,(点击总数,下单总数,支付总数))

需求实现

package com.atguigu.bigdata.spark.core.rdd.reqimport org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Spark02_Req1_HotCateforyTop10Analysis1 {def main(args: Array[String]): Unit = {//TODO : Top热门品类val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark02_Req1_HotCateforyTop10Analysis1")val sc = new SparkContext(sparkConf)//Q: actionRDD重复使用//Q:cogr性能可能较低//1. 读取原始日志数据val actionRDD: RDD[String] = sc.textFile("datas/user_visit_action.txt")actionRDD.cache() //解决重复使用//2. 统计品类的点击数量(品类ID,点击数量)val clickActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(6) != "-1"})val clickCountRDD: RDD[(String, Int)] = clickActionRDD.map(action => {val datas: Array[String] = action.split("_")(datas(6), 1)}).reduceByKey(_ + _)//3. 统计品类的下单数量(品类ID,下单数量)val orderActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(8) != "null"})val orderCountRDD: RDD[(String, Int)] = orderActionRDD.flatMap(action => {val datas: Array[String] = action.split("_")val cid = datas(8)val cids = cid.split(",")//扁平化cids.map(id => (id, 1))}).reduceByKey(_ + _)//4. 统计品类的支付数量(品类ID,支付数量)val payActionRDD: RDD[String] = actionRDD.filter(action => {val datas: Array[String] = action.split("_")datas(10) != "null"})val payCountRDD: RDD[(String, Int)] = payActionRDD.flatMap(action => {val datas: Array[String] = action.split("_")val cid = datas(10)val cids = cid.split(",")//扁平化cids.map(id => (id, 1))}).reduceByKey(_ + _)//5.将品类进行排序,并且取前十名// 点击数量排序,下单数量的排序,支付数量排序// 元组排序:先比较第一个,在比较第二个,依次类推// (品类ID, (点击数量,下单数量,支付数量))//join(不可以),zip(不可以),leftOutJoin(不可以),cogroup (可以)连接数据//cogroup有可能存在shuffle//换一个方式实现 (品类ID, 点击数量)=>(品类ID, (点击数量))=>(品类ID, (点击数量,0,0)) (品类ID, 下单数量)=>(品类ID, (下单数量))=>(品类ID, (0,下单数量,0)) (品类ID, 支付数量)=>(品类ID, (支付数量))=>(品类ID, (0,0,支付数量))//之后再两两聚合val rdd1 = clickCountRDD.map{case (cid, cnt) => {(cid, (cnt,0,0))}}val rdd2 = orderCountRDD.map{case (cid, cnt) => {(cid, (0,cnt,0))}}val rdd3 = payCountRDD.map{case (cid, cnt) => {(cid, (0,0,cnt))}}//将三个数据源合并在一起,统一进行聚合计算val sourceRDD: RDD[(String, (Int, Int, Int))] = rdd1.union(rdd2).union(rdd3)val analysisRDD: RDD[(String, (Int, Int, Int))] = sourceRDD.reduceByKey((t1, t2) => {(t1._1 + t2._1, t1._2 + t2._2, t1._3 + t2._3)})val resultRDD: Array[(String, (Int, Int, Int))] = analysisRDD.sortBy(_._2, false).take(10)//6.将结果采集到控制台resultRDD.foreach(println)sc.stop()}}

实现方案三

需求分析

使用累加器的方式聚合数据

需求实现

package com.atguigu.bigdata.spark.core.rdd.reqimport org.apache.spark.rdd.RDD
import org.apache.spark.util.AccumulatorV2
import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject Spark04_Req1_HotCateforyTop10Analysis3 {def main(args: Array[String]): Unit = {//TODO : Top热门品类val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark03_Req1_HotCateforyTop10Analysis2")val sc = new SparkContext(sparkConf)//Q:存在shuffle操作(reduceByKey)//使用累加器//1. 读取原始日志数据val actionRDD: RDD[String] = sc.textFile("datas/user_visit_action.txt")val acc = new HotCategoryAccumulatorsc.register(acc,"HotCategory")//2. 将数据转换结构actionRDD.foreach(action => {val datas: Array[String] = action.split("_")if (datas(6) != "-1") {//点击场合acc.add((datas(6),"click"))} else if (datas(8) != "null") {//下单的场合val ids: Array[String] = datas(8).split(",")ids.foreach(id => {acc.add((id,"order"))})} else if (datas(10) != "null") {//支付的场合val ids = datas(10).split(",")ids.foreach(id => {acc.add((id,"order"))})}})val accVal: mutable.Map[String, HotCategory] = acc.valueval categories: mutable.Iterable[HotCategory] = accVal.map(_._2)val sort: List[HotCategory] = categories.toList.sortWith((left, right) => {if (left.clickCnt > right.clickCnt) {true} else if (left.clickCnt == right.clickCnt) {if (left.orderCnt > right.orderCnt) {true} else if (left.orderCnt == right.orderCnt) {if (left.parCnt >= right.parCnt) {true} else {false}}else {false}}else {false}})//5.将结果采集到控制台sort.take(10).foreach(println)sc.stop()}case class HotCategory(cid: String, var clickCnt: Int, var orderCnt: Int, var parCnt: Int)/*** 自定义累加器* 1.继承AccumulatorV2,定义泛型*    IN: (品类ID,行为类型)*    OUT:mutable.Map[String,HotCategory]** 2. 重写方法(6个)*/class HotCategoryAccumulator extends AccumulatorV2[(String,String),mutable.Map[String,HotCategory]]{private val hcMap = mutable.Map[String,HotCategory]()override def isZero: Boolean = {hcMap.isEmpty}override def copy(): AccumulatorV2[(String, String), mutable.Map[String, HotCategory]] = {new HotCategoryAccumulator}override def reset(): Unit = {hcMap.clear()}override def add(v: (String, String)): Unit = {val cid: String = v._1val actionType: String = v._2val category: HotCategory = hcMap.getOrElse(cid, HotCategory(cid, 0, 0, 0))if (actionType == "click"){category.clickCnt += 1}else if (actionType == "order"){category.orderCnt += 1}else if (actionType == "pay"){category.parCnt += 1}hcMap.update(cid,category)}override def merge(other: AccumulatorV2[(String, String), mutable.Map[String, HotCategory]]): Unit = {val map1 = this.hcMapval map2 = other.valuemap2.foreach{case (cid, hc) => {val category: HotCategory = map1.getOrElse(cid, HotCategory(cid, 0, 0, 0))category.clickCnt += hc.clickCntcategory.orderCnt += hc.orderCntcategory.parCnt += hc.parCntmap1.update(cid,category)}}}override def value: mutable.Map[String, HotCategory] = hcMap}
}

需求 2:Top10 热门品类中每个品类的 Top10 活跃Session 统计

需求说明

在需求一的基础上,增加每个品类用户session 的点击统计

需求分析

根据品类ID和Session进行点击量的统计,将统计的结果进行转换
((品类ID,sessionID ),sum) => (品类ID, (sessionID, sum))

需求实现

package com.atguigu.bigdata.spark.core.rdd.reqimport org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Spark05_Req2_HotCateforyTop10SessionAnalysis2 {def main(args: Array[String]): Unit = {//TODO : Top热门品类val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark05_Req2_HotCateforyTop10SessionAnalysis2")val sc = new SparkContext(sparkConf)val actionRDD: RDD[String] = sc.textFile("datas/user_visit_action.txt")actionRDD.cache()val top10Ids: Array[String] = top10Category(actionRDD)//1. 过滤原始数据,保留点击和前10品类IDval filterActionRDD: RDD[String] = actionRDD.filter(action => {val datas = action.split("_")if (datas(6) != "-1") {top10Ids.contains(datas(6))} else {false}})//2. 根据品类ID和Session进行点击量的统计val reduceRDD: RDD[((String, String), Int)] = filterActionRDD.map(action => {val datas = action.split("_")((datas(6), datas(2)), 1)}).reduceByKey(_ + _)//3.将统计的结果进行转换//((品类ID,sessionID ),sum) => (品类ID, (sessionID, sum))val mapRDD = reduceRDD.map {case ((cid, sid),sum) => {(cid, (sid,sum))}}//4. 相同的品类进行分组val groupRDD: RDD[(String, Iterable[(String, Int)])] = mapRDD.groupByKey()//5. 将分组后的数据进行点击量的排序,取前10名val resultRDD: RDD[(String, List[(String, Int)])] = groupRDD.mapValues(iter => {iter.toList.sortBy(_._2)(Ordering.Int.reverse).take(10)})resultRDD.collect().foreach(println)sc.stop()}def top10Category(actionRDD: RDD[String])  = {val flatRDD: RDD[(String, (Int, Int, Int))] = actionRDD.flatMap(action => {val datas: Array[String] = action.split("_")if (datas(6) != "-1") {//点击场合List((datas(6), (1, 0, 0)))} else if (datas(8) != "null") {//下单的场合val ids: Array[String] = datas(8).split(",")ids.map(id => (id, (0, 1, 0)))} else if (datas(10) != "null") {//支付的场合val ids = datas(10).split(",")ids.map(id => (id, (0, 0, 1)))} else {Nil}})val analysisRDD: RDD[(String, (Int, Int, Int))] = flatRDD.reduceByKey((t1, t2) => {(t1._1 + t2._1, t1._2 + t2._2, t1._3 + t2._3)})analysisRDD.sortBy(_._2, false).take(10).map(_._1)}}

Spark 案例(依据电商网站的真实需求)相关推荐

  1. 《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

    <Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述     本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...

  2. axure实现搜索功能_Axure案例:电商网站下拉搜索框的制作

    Axure案例应用 电商网站的搜索框,对商品.店铺和卖家进行搜索.切换下拉框中的内容时,切换到不同的搜索输入框,样式也相应改变,下面通过设置下拉列表框"选中项于"逻辑条件,实现上述 ...

  3. 【Spark】基于Spark的大型电商网站交互式行为分析系统项目实战

    1.项目背景 (1)Spark在美团的实践 美团是数据驱动的互联网服务,用户每天在美团上的点击.浏览.下单支付行为都会产生海量的日志,这些日志数据将被汇总处理.分析.挖掘与学习,为美团的各种推荐.搜索 ...

  4. 在html中做产品介绍页面,电商网站的产品介绍怎么写,有哪些方法?

    对于很多电商商家来说,产品介绍一直是一个令人头疼的问题,在设计产品介绍时常常会感觉无从下手,其中一个关键的问题就是没有对产品的目标客户做好定位,产品介绍也无法针对好目标人群,这样也就导致了消费者在看到 ...

  5. 电商网站怎么挑选高防服务器防御恶意攻击

    关于电商网站来说,每天的拜访量都是很大的,用户在进行购买操作时也是需求进行很多的数据请求的.关于用于电商网站类的服务器不只要在安全性上有必定保证,在服务器的各项装备上的需求也是不可以太低的. 那么咱们 ...

  6. 大型网站电商网站架构案例和技术架构的示例

    大型网站架构是一个系列文档,欢迎大家关注.本次分享主题:电商网站架构案例.从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型.除具备功能需求外,还具备一定的高性能,高可用,可伸 ...

  7. 大型网站架构系列:电商网站架构案例(1)

    大型网站架构系列:电商网站架构案例(1) 大型网站架构是一个系列文档,欢迎大家关注.本次分享主题:电商网站架构案例.从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型.除具备功 ...

  8. 关于大型网站架构系列:电商网站架构案例(目前最有深意喜欢的文章)

    算法与数据结构C++精解 ThinkPHP5.0+小程序商城构建全栈应用 AngularJS仿拉勾网WebApp开发移动端单页应用 Thinkphp 5.0实战 仿百度糯米开发多商家电商平台 原文出处 ...

  9. 大型电商网站架构案例和技术架构【推荐】

    大型网站架构是一个系列文档,欢迎大家关注.本次分享主题:电商网站架构案例.从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型.除具备功能需求外,还具备一定的高性能,高可用,可伸 ...

最新文章

  1. Go 学习笔记(13)— 指针定义、指针特点、空指针、指针数组、指向指针的指针、指针作为函数入参
  2. TensorFlow练习27: 验证码生成器-从文本生成图像
  3. mysql 按重复排序_php-按日期排序并允许重复的日期时,获取MySQL中的上一个和下一个记录...
  4. 机器学习导论(张志华):EM收敛性原理
  5. php7有没有使用jit,RegEx不适用于长模式PCRE的JIT编译器堆栈限制 – PHP7
  6. Lucene4:创建查询,并高亮查询关键词
  7. www.SQnote.cn
  8. Oracle Sql Developer 改成英文界面
  9. swift -inout关键字
  10. atitit.api设计 方法 指南 手册 v2 q929.docx
  11. jQuery的实用特性扩展类库:jQuery++
  12. 安卓rom制作教程_【ROM消息】Simplicity官改:MIUI11 9.12.14全机型更新
  13. 基于51单片机的多路温度采集控制系统的设计
  14. 如何优化Web服务器以实现高吞吐量和低延迟
  15. 电信光猫 TEWA 500AG 破解 超密 2020-3-21
  16. Xcode9 通过无线链接调试,亲测成功
  17. 《小目标目标检测的解决方法及方式》
  18. 如何批量将 Word 文档转为 HTML 格式
  19. DySAT: Deep Neural Representation Learning on Dynamic Graph via Self-Attention Networks
  20. CSDN博客放google广告

热门文章

  1. JavaScript继承的多种方式和优缺点
  2. 运维的shell小编(1)
  3. 自制Flash FLV视频播放器
  4. C# Label显示多行文本及换行(WinForm/WebForm)
  5. 编写高质量JavaScript代码的基本技巧
  6. 移动广告平台到底哪个好?哪个能赚的米米多?
  7. 使用工具类时尽量使用私有的无参构造函数
  8. SCCM 2012 Part 2 部署前AD准备
  9. 10 分钟入门 AST 代码优化与修改
  10. Django model层 mysql_Django模型层(models.py)之模型创建