spark sql 不等值 join

products一个商品价格变化的表，orders商品订单，记录每次购买商品和日期
基于Spark SQL中的不等值join实现orders和products的匹配，统计每个订单中商品对应当时的价格

缓慢变化的商品价格表
旺仔牛奶，发生过一次价格变更


scala> val products = sc.parallelize(Array(|   ("旺仔牛奶", "2017-01-01", "2018-01-01", 4),|   ("旺仔牛奶", "2018-01-02", "2020-01-01", 5),|   ("王老吉", "2017-01-02", "2019-01-01", 5),|   ("卫龙辣条", "2010-01-01", "2020-01-01", 2)| )).toDF("name", "startDate", "endDate", "price")
products: org.apache.spark.sql.DataFrame = [name: string, startDate: string ... 2 more fields]scala> products.show();
+----+----------+----------+-----+
|name| startDate|   endDate|price|
+----+----------+----------+-----+
|旺仔牛奶|2017-01-01|2018-01-01|    4|
|旺仔牛奶|2018-01-02|2020-01-01|    5|
|   王老吉|2017-01-02|2019-01-01|    5|
|卫龙辣条|2010-01-01|2020-01-01|    2|
+----+----------+----------+-----+

订单表（商品名称，订单日期）
旺仔牛奶在不同价格时段分别发生了一次订单

scala> val orders = sc.parallelize(Array(|   ("2017-06-01", "旺仔牛奶"),|   ("2017-07-01", "王老吉"),|   ("2018-03-01", "旺仔牛奶")| )).toDF("date", "product")
orders: org.apache.spark.sql.DataFrame = [date: string, product: string]scala> orders.show
+----------+-------+
|      date|product|
+----------+-------+
|2017-06-01|旺仔牛奶|
|2017-07-01|    王老吉|
|2018-03-01|旺仔牛奶|
+----------+-------+

通过不等值连接，计算每个订单当时的商品价格
查看出旺仔牛奶，两个订单在不同时间段上对应的价格

scala> orders.join(products, $"product" === $"name" && $"date" >= $"startDate" && $"date" <= $"endDate").show()
+-----------+------------+----------+------------+-------------+-----+
|     date      |  product   |    name  |   startDate |   endDate   | price|
+-----------+------------+----------+------------+-------------+-----+
|2017-07-01|    王老吉  | 王老吉   |2017-01-02|2019-01-01 |    5  |
|2017-06-01|  旺仔牛奶 |旺仔牛奶|2017-01-01|2018-01-01 |    4  |
|2018-03-01|  旺仔牛奶 |旺仔牛奶|2018-01-02|2020-01-01 |    5  |
+-----------+------------+----------+------------+-------------+-----+

转载于:https://blog.51cto.com/10120275/2171066

spark sql 不等值 join相关推荐

spark sql练习之join操作
数据集如下:有两个json文件,table1.json和table2.json table1.json {"A":"A1", "B":30, ...
spark sql boardcast join 生效问题探索
这里写目录标题本文针对版本spark 2.2 问题描述问题排查 broadcast join 自动触发条件. 执行解决不能自动触发boardcast join得情况本文针对版本spark ...
Spark SQL: Relational Data Processing in Spark
Spark SQL: Relational Data Processing in Spark Spark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译,而是本篇 ...
Spark SQL之延伸Hive On Spark
目录一:Spark SQL 与 Hive On Spark的区别二:Hive的基本工作原理三:Hive On Spark的计算原理四:Hive On Spark的优化点五:RPC了解一:S ...
Spark SQL中出现 CROSS JOIN 问题解决
Spark SQL中出现 CROSS JOIN 问题解决参考文章: (1)Spark SQL中出现 CROSS JOIN 问题解决 (2)https://www.cnblogs.com/yjd_hy ...
Spark详解（十四）：Spark SQL的Join实现
1. 简介 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余.更新容错等.而建立表和表之间关系的最佳方式就是Join操作.Join连接是大数据处理 ...
Spark SQL JOIN操作代码示例
title: Spark SQL JOIN操作 date: 2021-05-08 15:53:21 tags: Spark 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建 ...
Spark SQL join的三种实现方式
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操 ...
使用 spark sql extensions 实现 skew join
文章目录背景 skew hint 实现方式原理用法语法编译&配置 Test 局限性参考背景使用 Join 时,如果出现数据倾斜就会导致OOM或者单task长时间执行的现象,如果 ...

spark sql 不等值 join

spark sql 不等值 join相关推荐

最新文章

热门文章