客快物流大数据项目(四十四):Spark操作Kudu创建表
2024-06-12 11:33:16
Spark操作Kudu创建表
- Spark与KUDU集成支持:
- DDL操作(创建/删除)
- 本地Kudu RDD
- Native Kudu数据源,用于DataFrame集成
- 从kudu读取数据
- 从Kudu执行插入/更新/ upsert /删除
- 谓词下推
- Kudu和Spark SQL之间的模式映射
- 到目前为止,我们已经听说过几个上下文,例如SparkContext,SQLContext,HiveContext, SparkSession,现在,我们将使用Kudu引入一个KuduContext。这是可以在Spark应用程序中广播的主要可序列化对象。此类代表在Spark执行程序中与Kudu Java客户端进行交互。
- KuduContext提供执行DDL操作所需的方法,与本机Kudu RDD的接口,对数据执行更新/插入/删除,将数据类型从Kudu转换为Spark等。
创建表
- 定义kudu的表需要分成5个步骤:
- 提供表名
- 提供schema
- 提供主键
- 定义重要选项;例如:定义分区的schema
- 调用create Table api
- 代码开发
package cn.itimport java.util
import cn.it.SparkKuduDemo.TABLE_NAME
import org.apache.kudu.client.CreateTableOptions
import org.apache.kudu.spark.kudu.KuduContext
i
客快物流大数据项目(四十四):Spark操作Kudu创建表相关推荐
- 客快物流大数据项目(五十四):初始化Spark流式计算程序
目录 初始化Spark流式计算程序 一.SparkSql参数调优设置 1.设置会话时区
- 客快物流大数据项目(二十四):OGG安装部署
目录 OGG安装部署 一.配置Oracle11gR2数据库 1.Oracle11gR2打开归档模式 2.Oracle开启辅助日志和补充日志
- 客快物流大数据项目(六十二):主题及指标开发
目录 主题及指标开发 一.主题开发业务流程 二.离线模块初始化 1.创建包结构 2.创建时间处理工具 3.定义主题宽表及指标结果表的表名 4.物流字典码表数据 ...
- 客快物流大数据项目(二十八):大数据服务器环境准备
目录 大数据服务器环境准备 一.服务器规划 二.Linux虚拟机环境搭建
- 客快物流大数据项目(二十):物流管理系统服务器的数据路径配置和软件下载存放位置
目录 物流管理系统服务器 一.虚拟机数据路径配置 二.软件下载和存放位置
- 客快物流大数据项目(五十):项目框架初始化
目录 项目框架初始化 一.搭建工程 二.导入依赖 1.父工程依赖
- 客快物流大数据项目(二十五):初始化业务数据
目录 初始化业务数据 一.安装OGG源端 1.在Oracle中创建OGG相关的用户和表空间 2.OGG源端初始化
- 客快物流大数据项目(三十):软件下载后存放位置
软件下载后存放位置 一.虚拟机数据路径配置 创建文件夹路径 mkdir -p /export/softwares /export/services /export/datas /export/soft ...
- 客快物流大数据项目(五十六): 编写SparkSession对象工具类
编写SparkSession对象工具类 后续业务开发过程中,每个子业务(kudu.es.clickhouse等等)都会创建SparkSession对象,以及初始化开发环境,因此将环境初始化操作封装成工 ...
- 客快物流大数据项目(五十二):根据数据库表及字段创建公共模块
根据数据库表及字段创建公共模块 根据数据库的表及表结构创建Bean对象 一.在公共模块创建包结构 在公共模块的java目录下,创建如下程序包:
最新文章
- Python自然语言处理工具
- three.js贴图
- Android视图绘制流程完全解析,带你一步步深入了解View(二)
- asp.net 验证码
- C# 与 LUA 的经验对比
- ORA-01114: 将块写入文件 35 时出现 IO 错误
- 深度学习环境搭建之Anaconda安装keras
- UVAPOJ离散概率与数学期望入门练习[4]
- html图片编辑器插件,js图片编辑器插件Filerobot
- java mime上传_JavaWeb中实现文件上传的方式有哪些?
- sparkSql使用hive数据源
- StringUtils 的常用方法
- 随笔小杂记(一)——更改整个文件夹内的命名
- 土壤有机质空间分布数据
- java虚拟机有什么作用_java虚拟机有什么用
- eclipse jdk官网下载不了
- 包工协议书样本_模板工程承包协议书
- 30分钟快速了解云计算
- 区块链运作机制_区块链如何运作? 铂 4
- 数据分析师有哪些等级