ignite集成mysql_Ignite集成Spark之IgniteDataFrames

本系列共两篇文章，主要探讨如何将Ignite和Spark进行集成。

下面简要地回顾一下在第一篇文章中所谈到的内容。

Ignite是一个分布式的内存数据库、缓存和处理平台，为事务型、分析型和流式负载而设计，在保证扩展性的前提下提供了内存级的性能。

Spark是一个流式数据和计算引擎，通常从HDFS或者其他存储中获取数据，一直以来，他都倾向于OLAP型业务，并且聚焦于MapReduce类型负载。

因此，这两种技术是可以互补的。

将Ignite与Spark整合

整合这两种技术会为Spark用户带来若干明显的好处：

通过避免大量的数据移动，获得真正可扩展的内存级性能；

提高RDD、DataFrame和SQL的性能；

在Spark作业之间更方便地共享状态和数据。

下图中显示了如何整合这两种技术，并且标注了显著的优势：

在第一篇文章中，主要聚焦于IgniteRDD，而本文会聚焦于IgniteDataFrames。

IgniteDataframes

Spark的DataFrame API为描述数据引入了模式的概念，Spark通过表格的形式进行模式的管理和数据的组织。

DataFrame是一个组织为命名列形式的分布式数据集，从概念上讲，DataFrame等同于关系数据库中的表，并允许Spark使用Catalyst查询优化器来生成高效的查询执行计划。而RDD只是跨集群节点分区化的元素集合。

Ignite扩展了DataFrames，简化了开发，改进了将Ignite作为Spark的内存存储时的数据访问时间，好处包括：

通过Ignite读写DataFrames时，可以在Spark作业之间共享数据和状态；

通过优化Spark的查询执行计划加快SparkSQL查询，这些主要是通过IgniteSQL引擎的高级索引以及避免了Ignite和Spark之间的网络数据移动实现的。

IgniteDataframes示例

下面通过一些代码以及搭建几个小程序的方式，了解Ignite DataFrames如何使用，如果想实际运行这些代码，可以从GitHub上下载。

一共会写两个Java的小应用，然后在IDE中运行，还会在这些Java应用中执行一些SQL。

一个Java应用会从JSON文件中读取一些数据，然后创建一个存储于Ignite的DataFrame，这个JSON文件Ignite的发行版中已经提供，另一个Java应用会从Ignite的DataFrame中读取数据然后使用SQL进行查询。

下面是写应用的代码：

public class DFWriter {

private static final String CONFIG = "config/example-ignite.xml";

public static void main(String args[]) {

Ignite ignite = Ignition.start(CONFIG);

SparkSession spark = SparkSession

.builder()

.appName("DFWriter")

.master("local")

.config("spark.executor.instances", "2")

.getOrCreate();

Logger.getRootLogger().setLevel(Level.OFF);

Logger.getLogger("org.apache.ignite").setLevel(Level.OFF);

Dataset peopleDF = spark.read().json(

resolveIgnitePath("resources/people.json").getAbsolutePath());

System.out.println("JSON file contents:");

peopleDF.show();

System.out.println("Writing DataFrame to Ignite.");

peopleDF.write()

.format(IgniteDataFrameSettings.FORMAT_IGNITE())

.option(IgniteDataFrameSettings.OPTION_CONFIG_FILE(), CONFIG)

.option(IgniteDataFrameSettings.OPTION_TABLE(), "people")

.option(IgniteDataFrameSettings.OPTION_CREATE_TABLE_PRIMARY_KEY_FIELDS(), "id")

.option(IgniteDataFrameSettings.OPTION_CREATE_TABLE_PARAMETERS(), "template=replicated")

.save();

System.out.println("Done!");

Ignition.stop(false);

}

在DFWriter中，首先创建了SparkSession，它包含了应用名，之后会使用spark.read().json()读取JSON文件并且输出文件内容，下一步是将数据写入Ignite存储。下面是DFReader的代码：

public class DFReader {

private static final String CONFIG = "config/example-ignite.xml";

public static void main(String args[]) {

Ignite ignite = Ignition.start(CONFIG);

SparkSession spark = SparkSession

.builder()

.appName("DFReader")

.master("local")

.config("spark.executor.instances", "2")

.getOrCreate();

Logger.getRootLogger().setLevel(Level.OFF);

Logger.getLogger("org.apache.ignite").setLevel(Level.OFF);

System.out.println("Reading data from Ignite table.");

Dataset peopleDF = spark.read()

.format(IgniteDataFrameSettings.FORMAT_IGNITE())

.option(IgniteDataFrameSettings.OPTION_CONFIG_FILE(), CONFIG)

.option(IgniteDataFrameSettings.OPTION_TABLE(), "people")

.load();

peopleDF.createOrReplaceTempView("people");

Dataset sqlDF = spark.sql("SELECT * FROM people WHERE id > 0 AND id < 6");

sqlDF.show();

System.out.println("Done!");

Ignition.stop(false);

}

在DFReader中，初始化和配置与DFWriter相同，这个应用会执行一些过滤，需求是查找所有的id > 0 以及 < 6的人，然后输出结果。

在IDE中，通过下面的代码可以启动一个Ignite节点：

public class ExampleNodeStartup {

public static void main(String[] args) throws IgniteException {

Ignition.start("config/example-ignite.xml");

}

到此，就可以对代码进行测试了。

运行应用

首先在IDE中启动一个Ignite节点，然后运行DFWriter应用，输出如下：

JSON file contents:

+-------------------+---+------------------+

| department| id| name|

+-------------------+---+------------------+

|Executive Committee| 1| Ivan Ivanov|

|Executive Committee| 2| Petr Petrov|

| Production| 3| John Doe|

| Production| 4| Ann Smith|

| Accounting| 5| Sergey Smirnov|

| Accounting| 6|Alexandra Sergeeva|

| IT| 7| Adam West|

| Head Office| 8| Beverley Chase|

| Head Office| 9| Igor Rozhkov|

| IT| 10|Anastasia Borisova|

+-------------------+---+------------------+

Writing DataFrame to Ignite.

Done!

如果将上面的结果与JSON文件的内容进行对比，会显示两者是一致的，这也是期望的结果。

下一步会运行DFReader，输出如下：

Reading data from Ignite table.

+-------------------+--------------+---+

| DEPARTMENT| NAME| ID|

+-------------------+--------------+---+

|Executive Committee| Ivan Ivanov| 1|

|Executive Committee| Petr Petrov| 2|

| Production| John Doe| 3|

| Production| Ann Smith| 4|

| Accounting|Sergey Smirnov| 5|

+-------------------+--------------+---+

Done!

这也是期望的输出。

总结

通过本文，会发现使用Ignite DataFrames是如何简单，这样就可以通过Ignite DataFrame进行数据的读写了。

未来，这些代码示例也会作为Ignite发行版的一部分进行发布。

关于Ignite和Spark的集成，内容就是这些了。

ignite集成mysql_Ignite集成Spark之IgniteDataFrames相关推荐

Kafka与Spark集成系列二Spark的安装及简单应用
原 [Kafka与Spark集成系列二] Spark的安装及简单应用https://blog.csdn.net/u013256816/article/details/82082019版权声明:本文为博 ...
[Kafka与Spark集成系列一] Spark入门
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
apache spark_如何将自定义数据源集成到Apache Spark中
apache spark 如今,流数据是一个热门话题,而Apache Spark是出色的流框架. 在此博客文章中,我将向您展示如何将自定义数据源集成到Spark中. Spark Streaming使我 ...
如何将自定义数据源集成到Apache Spark中
如今,流数据是一个热门话题,而Apache Spark是出色的流框架. 在此博客文章中,我将向您展示如何将自定义数据源集成到Spark中. Spark Streaming使我们能够从各种来源进行流传输 ...
carbondate mysql_CarbonData集成Hive、Spark
硬件准备: 系统:CentOS 7.6(1810) CPU:4核内存:16G 软件准备: 注意: 在carbondata-1.6.1中,有组件版本限制,具体为: hadoop支持到2.7.2 hiv ...
集成改进的Spark书籍推荐系统的图书交易平台
集成基于Spark书籍推荐系统的图书交易平台一.概述系统架构系统功能技术栈一.概述在大数据的环境下,将推荐算法应用到图书交易平台上,目的在于通过个性化指导性推荐书籍和降低获取图书成本来 ...
[Kafka与Spark集成系列四] Spark运行结构
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
[Kafka与Spark集成系列三] Spark编程模型
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
[Kafka与Spark集成系列二] Spark的安装及简单应用
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
java持续集成soapui_集成testNG到JavaAPI测试-执行多条用例
***************************************************************** 在这门课里你将学到Web Services(SOAP WebServ ...

ignite集成mysql_Ignite集成Spark之IgniteDataFrames

ignite集成mysql_Ignite集成Spark之IgniteDataFrames相关推荐

最新文章

热门文章