基于waterdrop，从hive抽取数据至Oracle

相关链接：基于waterdrop，从oracle直接拉取数据进仓Clickhouse_Johnwick888的博客-CSDN博客

继之前基于waterdrop，从orcale直接抽取数据到Clickhouse之后，又遇到从hive抽取数据到Oracle的需求，相关jdbc驱动配置见上面连接，Oracle相关jdbc驱动下载链接如下：JDBC and UCP Downloads page

记得下跟自己Oracle版本一致的jdbc驱动。

waterdrop的配置文件如下，batch.conf ：

spark {spark.app.name = "seatunnel"spark.sql.catalogImplementation = "hive"spark.executor.instances = 2spark.executor.cores = 2spark.executor.memory = "4g"
}input {hive {pre_sql =" select  *  from XXXX_mdtrt_info"result_table_name = "spark_temp"}
}
filter {# sql {#   sql = "select * from accesslog where request_time > 1000"# }
}output {# choose stdout output plugin to output data to console
jdbc {driver = "oracle.jdbc.driver.OracleDriver"url = "jdbc:oracle:thin:@//XX.XX.XX.XX:XX/orclpdb1"table = "XXXX_MDTRT_INFO"user = "*******"password = "******"
}
}

然后执行代码：

/waterdrop-1.5.4/bin/start-waterdrop.sh --master spark://hadoop-master:7077 --deploy-mode client --config  batch.conf

抽取速度很快，550W的数据量，大概2分钟完成。

至此我也发现，为什么数据湖和ODS层尽量用hadoop生态的分布式文件系统来存储了，因为从hive或者HDFS抽数据到数仓或者其他平台速度非常快，而从其他平台抽数据到hive内，则非常慢，原因就是数据源不是分布式的，读取速度受到局限。

所以，建议各位数据相关岗位的伙伴，在设计数据架构的时候，一定注意，平台之间相互导数据是一件极其容易忽略，但特别费事的工作，需要科学谋划。

另外，Waterdrop，现在改名叫Seatunnel，已经正式成为Apache的顶级项目，Sqoop、DataX等一大批ETL工具都将退出历史舞台，建议提前适应Waterdrop，为将来打算。

你问我DataX是谁？对不起，我活在Apache SeaTunnel的时代！

附上waterdrop（seatunnel）的学习网站：

Document

基于waterdrop，从hive抽取数据至Oracle相关推荐

JDBC实现从Hive抽取数据导入Oracle
环境:浙江移动华为云平台云平台大数据采用了 Kerberos 认证. 开发历程: 1.在宁波大数据实验环境测试通过了JDBC实现从Hive抽取数据导入Oracle功能. 2.通过查看其它项目的数据库 ...
Shlle脚本传参调用seatunnel(原waterdrop)将hive中数据导入ClickHouse
前言公司分析数据已经存入hive,但需要输入参数计算得到很长一段时间的趋势变化数据(不固定查询),经调研ClickHouse时序优化后比较满足需求,并且ClickHouse在数据量大时最好采用DNS ...
从Hive导出数据到Oracle数据库--Sqoop
首先解释一下各行代码: sqoop export # 指定要导入到Oracle的那张表(通常与hive中的表同名) --table TABLE_NAME # host_ip:导入oracle库所在的i ...
基于waterdrop，从oracle直接拉取数据进仓Clickhouse
一.Clickhouse.hive.oracle性能简单对比测试公司数据分析需求,从市级切换到以省级为单位分析医保数据,原来的oracle数仓完全扛不住了,IT也没解决办法,所以自己动手建了Clic ...
oracle随机取名,oracle 表查询随机抽取数据
最近在做系统时用到了随机抽取记录的问题: 上网上查找了很多相关资料,发现了不同的方法及其差异.都是基于ORACLE的方法哦首先第一个是随机抽取6个 select * from (select * ...
使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决
一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-o ...
【clickhouse】使用waterdrop将Hive中的数据导入ClickHouse
1.概述转载:使用waterdrop将Hive中的数据导入ClickHouse 这里仅仅自己学习用. 前言最近有一个需求需要把hive的数据同步到clickhouse,而且数据量还比较大,所以使用 ...
mbk文件导入到oracle,Oracle基于物化视图的远程数据复制
物化视图简介: 远程表复制功能:可以借助数据库链接(dblink),在远程数据库中建立一个本地表的副本,用该方式实现表的定时同步.物化视图存储基于远程表的数据,也可以称为快照. 加速查询功能:物化视图 ...
A.2【数据标注】：基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等
NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...

基于waterdrop，从hive抽取数据至Oracle

基于waterdrop，从hive抽取数据至Oracle相关推荐

最新文章

热门文章