line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)
line和spline
最近引起我注意的一个有趣且很有希望的开源项目是Spline ,它是由Absa维护的Apache Spark数据沿袭跟踪和可视化工具。 该项目由两部分组成:一个在驱动程序上工作的Scala库,该库通过分析Spark执行计划来捕获数据沿袭,以及一个Web应用程序,该应用程序提供了一个可视化它们的UI。
Spline支持MongoDB和HDFS作为JSON格式的数据沿袭的存储系统。 在这篇文章中,我指的是MongoDB。
您可以通过Spark外壳开始使用Spline。 只需将必需的依赖项添加到shell类路径中,如下所示(参考该项目的最新0.3.5版本):
spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"
在Ubuntu和其他Linux发行版上使用上述命令运行Spark shell,是否应该出现有关下载Joda Time库(Spline组件之一的传递依赖性)的问题,请删除.ivy1和.m2隐藏子目录执行了spark-shell命令的目录,然后重新运行它。
假设您已启动并运行Mongo服务器,并且已经为Spline创建了一个空数据库,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工厂类,然后指定连接字符串和数据库名称:
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")
现在,您可以启用样条线数据沿袭跟踪:
import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()
然后开始做一些涉及数据的事情:
val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")
import spark.implicits._val employeeNames = employeesJson.select(employeesJson("name")) employeeNames.write.parquet("/home/guglielmo/spline/example/employee_names")
是否应该发生以下异常:
com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" }
那么您必须将MongoDB Java驱动程序依赖项更新到任何3.6+版本(可以通过在运行Windows Server 2003时简单地将其添加到软件包列表中来完成)
spark-shell命令)。
启动Spline Web应用程序:
java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?
您可以在Web UI中查看捕获的数据沿袭(默认监听端口为8080):
这只是一个开始。 在本系列的第2部分中,我们将深入探讨Spline。
翻译自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html
line和spline
line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)相关推荐
- 探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)
最近引起我注意的一个有趣且充满希望的开源项目是Spline ,它是由Absa维护的Apache Spark的数据沿袭跟踪和可视化工具. 该项目由两部分组成:一个在驱动程序上工作的Scala库,该驱动程 ...
- 探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)
在第1部分中,我们学习了如何使用以下方法测试数据沿袭信息收集 Spark外壳中的花键 . 在任何Scala或Java Spark应用程序中都可以这样做. 需要在您选择的构建工具(Maven,Gradl ...
- 多云时代下数据管理技术_建立一个混合的多云数据湖并使用Apache Spark执行数据处理...
多云时代下数据管理技术 Azure / GCP / AWS / Terraform / Spark (Azure/GCP/AWS/Terraform/Spark) Five years back wh ...
- CS100.1x Introduction to Big Data with Apache Spark
CS100.1x简介 这门课主要讲数据科学,也就是data science以及怎么用Apache Spark去分析大数据. Course Software Setup 这门课主要介绍如何编写和调试Py ...
- Apache Spark 3.0 预览版正式发布,多项重大功能发布
今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0预览版正式发布,这个版本主要是为了对即将发布 ...
- apache spark_使用Apache Spark SQL探索标普500和石油价格
apache spark 这篇文章将使用Apache Spark SQL和DataFrames查询,比较和探索过去5年中的S&P 500,Exxon和Anadarko Petroleum Co ...
- 使用Apache Spark SQL探索标普500和石油价格
这篇文章将使用Apache Spark SQL和DataFrames查询,比较和探索过去5年中的S&P 500,Exxon和Anadarko Petroleum Corporation的股价. ...
- Apache Spark 3.0 DStreams-Streaming编程指南
目录 总览 一个简单的例子 基本概念 连结中 初始化StreamingContext 离散流(DStreams) 输入DStreams和接收器 基本资料 进阶资源 自订来源 接收器可靠性 DStrea ...
- Apache Spark 3.0 SQL DataFrame和DataSet指南
目录 简介 SQL 数据集和数据框 入门 起点:SparkSession Scala语言 Java语言 Python语言 R语言 创建DataFrame Scala语言 Java语言 Python语言 ...
最新文章
- 2021 最新版 Spring Boot 速记教程
- 关于我对c#的一些看法
- JAVA——自定义排序(实现Comparable接口)
- 一个Form中2个按钮,PHP后台如何判断提交的是哪一个按钮
- C#读写三菱Fx PLC 使用Fx 串口协议 读写Fx3U设备
- multiplot 安装与配置
- CAD门窗lisp_门窗CAD大样图
- SUMO/Turorials/Hello SUMO 学习总结
- SDUT 1160 某年某月的天数
- 用mqtt客户端发数据到 thingsboard Error: Connection refused: Not authorized
- Compose Modifier.swipeable() 写个侧拉组件
- plsql developer连接数据库超时,Ping 服务器ip提示“TTL传输中过期”
- 【python ++ opencv + pytorch 】车牌提取、分割、识别
- Qt pro 文件详解
- mini2440 led驱动程序测试实验
- 北京汽车加速海外业务发展
- KM盒子插入音频视频操作教程
- WPS表格:使用技巧
- 玩转大数据风控—利用评分卡模型实现信用评级
- linux上创建一文件夹命令,linux创建文件夹命令是什么