一、多表关联

输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表

二、maven设置

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.mk</groupId><artifactId>spark-test</artifactId><version>1.0</version><name>spark-test</name><url>http://spark.mk.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.8</maven.compiler.source><maven.compiler.target>1.8</maven.compiler.target><scala.version>2.11.1</scala.version><spark.version>2.4.4</spark.version><hadoop.version>2.6.0</hadoop.version></properties><dependencies><!-- scala依赖--><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>${scala.version}</version></dependency><!-- spark依赖--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>${spark.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><plugins><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin></plugins></pluginManagement></build>
</project>

三、编程代码

public class MultiTableJoinApp implements SparkConfInfo {public static void main(String[] args) {String factoryFilePath = "E:\\spark\\factory.txt";SparkSession sparkSession = new MultiTableJoinApp().getSparkConf("MultiTableJoinApp");JavaPairRDD<String, String> addressFactoryRdd = sparkSession.sparkContext().textFile(factoryFilePath, 4).toJavaRDD().flatMap(v -> Arrays.asList(v.split("\n")).iterator()).mapToPair(v -> {if(v.matches("\\s+factoryname\\s+addressed\\s+")){return null;}String[] data = v.trim().split("\\s{2,}");if (data.length != 2) {return null;}return new Tuple2<>(data[1],data[0]);}).filter(v -> v != null);String addressFilePath = "E:\\spark\\address.txt";JavaPairRDD<String, String> addressNameRdd = sparkSession.sparkContext().textFile(addressFilePath, 4).toJavaRDD().flatMap(v -> Arrays.asList(v.split("\n")).iterator()).mapToPair(v -> {if(v.matches("\\s+addressID\\s+addressname\\s+")){return null;}String[] data = v.trim().split("\\s{2,}");if (data.length != 2) {return null;}return new Tuple2<>(data[0],data[1]);}).filter(v -> v != null);JavaPairRDD<String, Tuple2<String, String> >  joinRdd = addressFactoryRdd.join(addressNameRdd);List<Tuple2<String, String>> childGrand = joinRdd.mapToPair(v->new Tuple2<>(v._2._1, v._2._2)).sortByKey(true).collect();System.out.println("factoryname\t\taddressname");childGrand.forEach(v -> System.out.println(v._1 + "\t\t" + v._2));sparkSession.stop();}
}public interface SparkConfInfo {default SparkSession getSparkConf(String appName){SparkConf sparkConf = new SparkConf();if(System.getProperty("os.name").toLowerCase().contains("win")) {sparkConf.setMaster("local[4]");System.out.println("使用本地模拟是spark");}else{sparkConf.setMaster("spark://hadoop01:7077,hadoop02:7077,hadoop03:7077");sparkConf.set("spark.driver.host","192.168.150.1");//本地ip,必须与spark集群能够相互访问,如:同一个局域网sparkConf.setJars(new String[] {".\\out\\artifacts\\spark_test\\spark-test.jar"});//项目构建生成的路径}SparkSession session = SparkSession.builder().appName(appName).config(sparkConf).config(sparkConf).getOrCreate();return session;}
}

factory.txt文件内容

factoryname        addressed
Beijing Red Star        1
Shenzhen Thunder        3
Guangzhou Honda        2
Beijing Rising        1
Guangzhou Development Bank        2
Tencent        3
Back of Beijing        1

address.txt文件内容

addressID        addressname
1        Beijing
2        Guangzhou
3        Shenzhen
4        Xian

输出

factoryname      addressname
Back of Beijing     Beijing
Beijing Red Star        Beijing
Beijing Rising      Beijing
Guangzhou Development Bank      Guangzhou
Guangzhou Honda     Guangzhou
Shenzhen Thunder        Shenzhen
Tencent     Shenzhen

四、join方法

<W> JavaPairRDD<K, Tuple2<V, W>> join(JavaPairRDD<K, W> other)

关联表返回相同可以的键值对

Spark入门(十八)之多表关联相关推荐

  1. python字符串操作入门十八讲——合集一

    字符串操作十八讲合集 导读

  2. 电气器件系列十八:电能表

    电能表是用来测量电能的仪表,又称电度表,火表,千瓦小时表,指测量各种电学量的仪表. 使用电能表时要注意,在低电压(不超过500伏)和小电流(几十安)的情况下,电能表可直接接入电路进行测量.在高电压或大 ...

  3. 2021年大数据Spark(十八):Spark Core的RDD Checkpoint

    目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓 ...

  4. Spark入门(八)之WordCount

    一.WordCount 计算文本里面的每个单词出现的个数,输出结果. 二.maven设置 <?xml version="1.0" encoding="UTF-8&q ...

  5. Struts2学习笔记(十八) 防止表单重复提交

    概述 有些时候,我们在想某个网页提交了信息之后,由于某些原因,我们会重复点击提交,或者刷新页面,或者是在提交页面呈现之后点击后退按钮,从而导致这些表单数据被重复提交.在大多数情况下我们是不希望这种情况 ...

  6. CarSim仿真快速入门(十八)-转向系统(1)

    What is Steer什么是转向? 转向是指车辆的坐标系中的车轮的角度方位的一个方面(其它的是外倾角或倾斜和旋转). 具体地说,转向是从车辆纵轴(在CarSim中为X轴)到由车轮的平面与车辆水平面 ...

  7. Spark入门(十七)之单表关联

    一.单表关联 给出child-parent(孩子--父母)表,要求输出grandchild-grandparent(孙子--祖父母)表 二.maven设置 <?xml version=" ...

  8. Hadoop入门(十六)Mapreduce的单表关联程序

    "单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘 1 实例描述 给出child-parent(孩子--父母)表,要求输出grandchild-gran ...

  9. Go入门系列(十八) 反射、包和测试工具

    本系列文章目录 展开/收起 Go入门系列(一) 初识Go语言 Go入门系列(二) 变量.指针.数据类型简介和作用域 Go入门系列(三) 基础类型--整型.浮点型.布尔类型和字符串 Go入门系列(四) ...

最新文章

  1. python 测试用例中设置执行时间_Python基于unittest实现测试用例执行
  2. 细说多线程(六) —— 异步 SqlCommand
  3. 神策数据全新改版数据概览,致力打造多角色、多场景的“工作台”
  4. SwiftUI3.0封装Lottie动画库
  5. VMware 虚拟机(linux)增加根目录磁盘空间
  6. java: 程序包com.alibaba.fastjson不存在_Java开发中的异常
  7. JS ||(或运算)详解
  8. 当前网页正在试图打开你的受信用站点列表中的站点.你想允许这样做吗?
  9. 产品经理——工作规范指南
  10. 装机、资料库结构与文件备份方案
  11. Rational Rose建立类图
  12. linux测速脚本,七兮网络-Linux一键测速脚本Superspeed.sh,包含更多国内国际测速节点的脚本...
  13. java浪漫之心代码_浪漫桃心的Android表白程序
  14. python3 模块调用其他类的方法_python类的函数调用 python如何引用其他模块中类的方法中的变量?...
  15. PCL安装和环境配置
  16. ROS2—小海龟仿真器基础使用
  17. 英语基础知识: 并列结构
  18. 学习KNN算法重点目标
  19. 网上看到的一个好文章,自勉
  20. java数据类型有哪几种_Java数据类型有哪些?Java数据类型包括几种?

热门文章

  1. yolo算法的优缺点分析_yolo算法介绍
  2. leetcode746. 使用最小花费爬楼梯
  3. DFS和BFS总结和代码演示(详解)
  4. 每天一小时python官方文档学习(五)————数据结构之元组、集合与字典
  5. [JavaWeb-XML]XML基本语法与快速入门
  6. C++pair对组的创建
  7. 自动生成sqlserver增删改成_如何批量生成证书证件-可变条码-可变图片-可变数据-快速教程...
  8. android仿支付宝弹窗,【转】MUI自定义底部弹窗自带遮罩层仿支付宝支付弹窗
  9. php 后门代码_分析一段PHP的后门代码,很恶心
  10. vilatile 深入理解java虚拟机_深入理解Java虚拟机(jvm性能调优+内存模型+虚拟机原理)...