SparkSQL实践

SparkSQL实战：统计用户及商品数据指标，包含以下三张表

orders表：

product表：

prior表：

实现以下业务需求：

user 统计/特征
1.每个用户平均购买订单的间隔周期

1)解决用户的第一个订单没有间隔天数的，需要赋值为0

val ordersNew =orders.selectExpr("*","if(days_since_prior_order='',0,days_since_prior_order) as dspo")
.drop("days_since_prior_order").show()

(drop：丢掉其中的一列)

2)最终代码：

ordersNew.selectExpr("user_id","cast(dspo as int)")
.groupBy("user_id").avg("dspo").show()

2.每个用户的总订单数量
orders.groupBy("user_id").count().show()

3.每个用户购买的product商品去重后的集合数据

1.)先求每个用户和product：

val po = orders.join(priors,"order_id").select("user_id","product_id").show(5)

2)对每个用户对product求和：

DataFrame转RDD处理：
val rddRecords=op.rdd.map(x=>(x(0).toString,x(1).toString))
.groupByKey()
.mapValues(_.toSet.mkString(","))

取出一条数据的结果：

3)隐式转换：

3.1导包：import spark.implicits._

3.2代码：rddRecords.toDF("user_id","product_records")

结果：

4.每个用户总商品数量以及去重后的商品数量

总商品数量:
orders.join(priors,"order_id").groupBy("user_id").count().show(5)

解法1：统计去重商品的数量：

结果：

解法2：

5.每个用户购买的平均每个订单的商品数量

1)先求每个订单的商品数量【对订单做聚合count()】
val ordProCnt = priors.groupBy("order_id").count()

2)求每个用户订单中商品个数的平均值【对user做聚合，avg(商品个数)】
orders.join(ordProCnt,"order_id").groupBy("user_id").avg("count")
(count出来的列名就叫count)

SparkSQL实践相关推荐

Spark 1.6 SparkSQL实践
为什么80%的码农都做不了架构师?>>> 数据源CDN日志. 每行日志数据格式: 序号名称说明 1 客户端IP 2 预留字段 3 预留字段 4 请求时间格式为:[dd/M ...
大数据工程师技能要求的学习路线图
一.大数据相关工作介绍大数据方向的工作目前主要分为三个主要方向: 1. 大数据工程师 2. 数据分析师 3. 大数据科学家 4. 其他(数据挖掘等) 二.大数据工程师的技能要求附上大数据工程师技能 ...
2018年12月云栖技术活动最全资料汇总：50+直播与Meetup分享...
云栖社区12月份技术活动资料下载大全:技术直播.系列公开课.Meetup.峰会.钉群分享等.欢迎分享给更多开发者. 2019年1月活动预告即将推出.欢迎加入社区钉群,将你所感兴趣的知识与话题共享给我们 ...
2018年12月云栖技术活动最全资料汇总：50+直播与Meetup分享
云栖君导读:应开发者建议,云栖社区特别将线下沙龙和直播活动进行汇总,一键分享给大家.当然,从2019年1月起,我们还有预告版. 云栖社区12月份技术活动资料下载大全:技术直播.系列公开课.Meetup ...
sparksql 操作hive_Spark SQL 物化视图原理与实践
导言物化视图作为一种预计算的优化方式,广泛应用于传统数据库中,如Oracle,MSSQL Server等.随着大数据技术的普及,各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色,而物化视图作 ...
史上最简单的spark教程第十三章-SparkSQL编程Java案例实践(终章)
Spark-SQL的Java实践案例(五) 本章核心:JDBC 连接外部数据库,sparkSQL优化,故障监测史上最简单的spark教程所有代码示例地址:https://github.com/My ...
binlog流程 mysql_小米 MySQL 数据实时同步到大数据数仓的架构与实践
背景MySQL由于自身简单.高效.可靠的特点,成为小米内部使用最广泛的数据库,但是当数据量达到千万/亿级别的时候,MySQL的相关操作会变的非常迟缓:如果这时还有实时BI展示的需求,对于mysql来说 ...
SparkSQL和Hadoop(面向数据科学家和大数据分析师)
了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题你会学到什么作为本课程的一部分,学生将获得在Spark Had ...
基于Hadoop的58同城离线计算平台设计与实践
作者:余意,来自:DataFun 导读:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大.58大数据平台的定位主要是服务数据 ...

SparkSQL实践

1.统计product被购买的数量：

2..统计product 被reordered的数量(再次购买)

3.结合上面数量统计product购买的reordered 的比率avg("reordered")

user 统计/特征
1.每个用户平均购买订单的间隔周期

2.每个用户的总订单数量
orders.groupBy("user_id").count().show()

3.每个用户购买的product商品去重后的集合数据

4.每个用户总商品数量以及去重后的商品数量

5.每个用户购买的平均每个订单的商品数量

SparkSQL实践相关推荐

最新文章

热门文章

SparkSQL实践

1.统计product被购买的数量：

2..统计product 被reordered的数量(再次购买)

3.结合上面数量统计product购买的reordered 的比率avg("reordered")

user 统计/特征 1.每个用户平均购买订单的间隔周期

2.每个用户的总订单数量 orders.groupBy("user_id").count().show()

3.每个用户购买的product商品去重后的集合数据

4.每个用户总商品数量以及去重后的商品数量

5.每个用户购买的平均每个订单的商品数量

SparkSQL实践相关推荐

最新文章

热门文章

user 统计/特征
1.每个用户平均购买订单的间隔周期

2.每个用户的总订单数量
orders.groupBy("user_id").count().show()