line和spline

最近引起我注意的一个有趣且很有希望的开源项目是Spline ,它是由Absa维护的Apache Spark数据沿袭跟踪和可视化工具。 该项目由两部分组成:一个在驱动程序上工作的Scala库,该库通过分析Spark执行计划来捕获数据沿袭,以及一个Web应用程序,该应用程序提供了一个可视化它们的UI。

Spline支持MongoDB和HDFS作为JSON格式的数据沿袭的存储系统。 在这篇文章中,我指的是MongoDB。

您可以通过Spark外壳开始使用Spline。 只需将必需的依赖项添加到shell类路径中,如下所示(参考该项目的最新0.3.5版本):

spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"

在Ubuntu和其他Linux发行版上使用上述命令运行Spark shell,是否应该出现有关下载Joda Time库(Spline组件之一的传递依赖性)的问题,请删除.ivy1.m2隐藏子目录执行了spark-shell命令的目录,然后重新运行它。

假设您已启动并运行Mongo服务器,并且已经为Spline创建了一个空数据库,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工厂类,然后指定连接字符串和数据库名称:

System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")

现在,您可以启用样条线数据沿袭跟踪:

import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()

然后开始做一些涉及数据的事情:

val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")

import spark.implicits._val employeeNames = employeesJson.select(employeesJson("name")) employeeNames.write.parquet("/home/guglielmo/spline/example/employee_names")

是否应该发生以下异常:

com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" }

那么您必须将MongoDB Java驱动程序依赖项更新到任何3.6+版本(可以通过在运行Windows Server 2003时简单地将其添加到软件包列表中来完成)
spark-shell命令)。

启动Spline Web应用程序:

java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?

您可以在Web UI中查看捕获的数据沿袭(默认监听端口为8080):



这只是一个开始。 在本系列的第2部分中,我们将深入探讨Spline。

翻译自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html

line和spline

line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)相关推荐

  1. 探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)

    最近引起我注意的一个有趣且充满希望的开源项目是Spline ,它是由Absa维护的Apache Spark的数据沿袭跟踪和可视化工具. 该项目由两部分组成:一个在驱动程序上工作的Scala库,该驱动程 ...

  2. 探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)

    在第1部分中,我们学习了如何使用以下方法测试数据沿袭信息收集 Spark外壳中的花键 . 在任何Scala或Java Spark应用程序中都可以这样做. 需要在您选择的构建工具(Maven,Gradl ...

  3. 多云时代下数据管理技术_建立一个混合的多云数据湖并使用Apache Spark执行数据处理...

    多云时代下数据管理技术 Azure / GCP / AWS / Terraform / Spark (Azure/GCP/AWS/Terraform/Spark) Five years back wh ...

  4. CS100.1x Introduction to Big Data with Apache Spark

    CS100.1x简介 这门课主要讲数据科学,也就是data science以及怎么用Apache Spark去分析大数据. Course Software Setup 这门课主要介绍如何编写和调试Py ...

  5. Apache Spark 3.0 预览版正式发布,多项重大功能发布

    今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0预览版正式发布,这个版本主要是为了对即将发布 ...

  6. apache spark_使用Apache Spark SQL探索标普500和石油价格

    apache spark 这篇文章将使用Apache Spark SQL和DataFrames查询,比较和探索过去5年中的S&P 500,Exxon和Anadarko Petroleum Co ...

  7. 使用Apache Spark SQL探索标普500和石油价格

    这篇文章将使用Apache Spark SQL和DataFrames查询,比较和探索过去5年中的S&P 500,Exxon和Anadarko Petroleum Corporation的股价. ...

  8. Apache Spark 3.0 DStreams-Streaming编程指南

    目录 总览 一个简单的例子 基本概念 连结中 初始化StreamingContext 离散流(DStreams) 输入DStreams和接收器 基本资料 进阶资源 自订来源 接收器可靠性 DStrea ...

  9. Apache Spark 3.0 SQL DataFrame和DataSet指南

    目录 简介 SQL 数据集和数据框 入门 起点:SparkSession Scala语言 Java语言 Python语言 R语言 创建DataFrame Scala语言 Java语言 Python语言 ...

最新文章

  1. 2021 最新版 Spring Boot 速记教程
  2. 关于我对c#的一些看法
  3. JAVA——自定义排序(实现Comparable接口)
  4. 一个Form中2个按钮,PHP后台如何判断提交的是哪一个按钮
  5. C#读写三菱Fx PLC 使用Fx 串口协议 读写Fx3U设备
  6. multiplot 安装与配置
  7. CAD门窗lisp_门窗CAD大样图
  8. SUMO/Turorials/Hello SUMO 学习总结
  9. SDUT 1160 某年某月的天数
  10. 用mqtt客户端发数据到 thingsboard Error: Connection refused: Not authorized
  11. Compose Modifier.swipeable() 写个侧拉组件
  12. plsql developer连接数据库超时,Ping 服务器ip提示“TTL传输中过期”
  13. 【python ++ opencv + pytorch 】车牌提取、分割、识别
  14. Qt pro 文件详解
  15. mini2440 led驱动程序测试实验
  16. 北京汽车加速海外业务发展
  17. KM盒子插入音频视频操作教程
  18. WPS表格:使用技巧
  19. 玩转大数据风控—利用评分卡模型实现信用评级
  20. linux上创建一文件夹命令,linux创建文件夹命令是什么

热门文章

  1. 文理分科 (最小割问题)
  2. CodeForces:643(VK cup)
  3. CF788789(div1div2)
  4. YBTOJ:方程的解(组合数学)(插板法)
  5. 染色(树链剖分 洛谷-P2486)
  6. UOJ#454-[UER #8]打雪仗【通信题】
  7. 51nod1836-战忽局的手段【期望dp,矩阵乘法】
  8. Comet OJ-栈的数据结构题【线段树】
  9. P3951,jzoj5473-小凯的疑惑【数论】(NOIP2017提高组)
  10. 莫比乌斯反演 做题记录