基于waterdrop,从hive抽取数据至Oracle
相关链接:基于waterdrop,从oracle直接拉取数据进仓Clickhouse_Johnwick888的博客-CSDN博客
继之前基于waterdrop,从orcale直接抽取数据到Clickhouse之后,又遇到从hive抽取数据到Oracle的需求,相关jdbc驱动配置见上面连接,Oracle相关jdbc驱动下载链接如下:JDBC and UCP Downloads page
记得下跟自己Oracle版本一致的jdbc驱动。
waterdrop的配置文件如下,batch.conf :
spark {spark.app.name = "seatunnel"spark.sql.catalogImplementation = "hive"spark.executor.instances = 2spark.executor.cores = 2spark.executor.memory = "4g"
}input {hive {pre_sql =" select * from XXXX_mdtrt_info"result_table_name = "spark_temp"}
}
filter {# sql {# sql = "select * from accesslog where request_time > 1000"# }
}output {# choose stdout output plugin to output data to console
jdbc {driver = "oracle.jdbc.driver.OracleDriver"url = "jdbc:oracle:thin:@//XX.XX.XX.XX:XX/orclpdb1"table = "XXXX_MDTRT_INFO"user = "*******"password = "******"
}
}
然后执行代码:
/waterdrop-1.5.4/bin/start-waterdrop.sh --master spark://hadoop-master:7077 --deploy-mode client --config batch.conf
抽取速度很快,550W的数据量,大概2分钟完成。
至此我也发现,为什么数据湖和ODS层尽量用hadoop生态的分布式文件系统来存储了,因为从hive或者HDFS抽数据到数仓或者其他平台速度非常快,而从其他平台抽数据到hive内,则非常慢,原因就是数据源不是分布式的,读取速度受到局限。
所以,建议各位数据相关岗位的伙伴,在设计数据架构的时候,一定注意,平台之间相互导数据是一件极其容易忽略,但特别费事的工作,需要科学谋划。
另外,Waterdrop,现在改名叫Seatunnel,已经正式成为Apache的顶级项目,Sqoop、DataX等一大批ETL工具都将退出历史舞台,建议提前适应Waterdrop,为将来打算。
你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!
附上waterdrop(seatunnel)的学习网站:
Document
基于waterdrop,从hive抽取数据至Oracle相关推荐
- JDBC实现从Hive抽取数据导入Oracle
环境:浙江移动华为云平台 云平台大数据采用了 Kerberos 认证. 开发历程: 1.在宁波大数据实验环境测试通过了JDBC实现从Hive抽取数据导入Oracle功能. 2.通过查看其它项目的数据库 ...
- Shlle脚本传参调用seatunnel(原waterdrop)将hive中数据导入ClickHouse
前言 公司分析数据已经存入hive,但需要输入参数计算得到很长一段时间的趋势变化数据(不固定查询),经调研ClickHouse时序优化后比较满足需求,并且ClickHouse在数据量大时最好采用DNS ...
- 从Hive导出数据到Oracle数据库--Sqoop
首先解释一下各行代码: sqoop export # 指定要导入到Oracle的那张表(通常与hive中的表同名) --table TABLE_NAME # host_ip:导入oracle库所在的i ...
- 基于waterdrop,从oracle直接拉取数据进仓Clickhouse
一.Clickhouse.hive.oracle性能简单对比测试 公司数据分析需求,从市级切换到以省级为单位分析医保数据,原来的oracle数仓完全扛不住了,IT也没解决办法,所以自己动手建了Clic ...
- oracle随机取名,oracle 表查询随机抽取数据
最近在做系统时用到了随机抽取记录的问题: 上网上查找了很多相关资料,发现了不同的方法及其差异.都是基于ORACLE的方法哦 首先第一个是随机抽取6个 select * from (select * ...
- 使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决
一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-o ...
- 【clickhouse】使用waterdrop将Hive中的数据导入ClickHouse
1.概述 转载:使用waterdrop将Hive中的数据导入ClickHouse 这里仅仅自己学习用. 前言 最近有一个需求需要把hive的数据同步到clickhouse,而且数据量还比较大,所以使用 ...
- mbk文件导入到oracle,Oracle基于物化视图的远程数据复制
物化视图简介: 远程表复制功能:可以借助数据库链接(dblink),在远程数据库中建立一个本地表的副本,用该方式实现表的定时同步.物化视图存储基于远程表的数据,也可以称为快照. 加速查询功能:物化视图 ...
- A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...
最新文章
- ASP.NET Core 认证与授权[6]:授权策略是怎么执行的?
- spring aop组件_安全性中的Spring AOP –通过方面控制UI组件的创建
- Linux-Ubuntu 启用root账户
- 掌握新手学车技巧对于新手来说是非常重要的
- UE4如何解析命令行参数
- 导入php插件_微信公众号吸粉的方法(将网站100%的流量导入到公众号中)
- ab变频器22b用户手册_AB变频器 PowerFlex400用户手册.pdf
- 解压缩文件常用命令——linux
- 市面上最流行的九大现场总线
- 一本书读懂财报 | 现金流量表剖析
- huggingFace 中文模型实战——中文文本分类
- 水井坊VS舍得酒业,谁是A股川酒“老三“?
- python reset_index()_python 问题 reset_index(drop=True
- 2016Android公司面试题
- POJ 3055 Digital Friends 笔记
- 我想用一个外部循环来实现反复调用scrapy来爬取不同的网页内容,但是现在就出现这种情况:
- discord Bot 实现机器人发送私信验证码
- CSDN旗下,河软CSDN乐知学院免费推荐诚信、踏实的Java软件工程、Android工程师,.NET工程师,PHP工程师、IOS工程师
- python合成图片_python图片合成的示例
- Linux调整磁盘格式为GPT,格式化2TB以上的磁盘
热门文章
- idea测试的时候程序包org.springframework.context不存在,已解决。。
- 2019新一波收购风暴来袭,科技巨头成功解锁“买买买”模式
- 第四十九课第十二章Managing Indexes
- ie下,首页打开页面非常慢
- 【外贸】给大家推荐几个做外贸好的平台!
- 反光板导航SLAM(四)如何通过两个反光柱估计位姿
- Oracle数据泵备份慢,expdp备份缓慢问题分析
- c语言三个杠的等号是什么,数学 3个横杠的等号表示什么意思?
- dpt rp1维修 sony_索尼 DPT-RP1 怎么样?索尼 DPT-RP1 的详细测评
- python聊天小程序支持私聊和多人_利用Python打造一个多人在线匿名聊天的小程序!(前后端完整开发)...