相关链接:基于waterdrop,从oracle直接拉取数据进仓Clickhouse_Johnwick888的博客-CSDN博客

继之前基于waterdrop,从orcale直接抽取数据到Clickhouse之后,又遇到从hive抽取数据到Oracle的需求,相关jdbc驱动配置见上面连接,Oracle相关jdbc驱动下载链接如下:JDBC and UCP Downloads page

记得下跟自己Oracle版本一致的jdbc驱动。

waterdrop的配置文件如下,batch.conf :

spark {spark.app.name = "seatunnel"spark.sql.catalogImplementation = "hive"spark.executor.instances = 2spark.executor.cores = 2spark.executor.memory = "4g"
}input {hive {pre_sql =" select  *  from XXXX_mdtrt_info"result_table_name = "spark_temp"}
}
filter {# sql {#   sql = "select * from accesslog where request_time > 1000"# }
}output {# choose stdout output plugin to output data to console
jdbc {driver = "oracle.jdbc.driver.OracleDriver"url = "jdbc:oracle:thin:@//XX.XX.XX.XX:XX/orclpdb1"table = "XXXX_MDTRT_INFO"user = "*******"password = "******"
}
}

然后执行代码:

/waterdrop-1.5.4/bin/start-waterdrop.sh --master spark://hadoop-master:7077 --deploy-mode client --config  batch.conf 

抽取速度很快,550W的数据量,大概2分钟完成。

至此我也发现,为什么数据湖和ODS层尽量用hadoop生态的分布式文件系统来存储了,因为从hive或者HDFS抽数据到数仓或者其他平台速度非常快,而从其他平台抽数据到hive内,则非常慢,原因就是数据源不是分布式的,读取速度受到局限。

所以,建议各位数据相关岗位的伙伴,在设计数据架构的时候,一定注意,平台之间相互导数据是一件极其容易忽略,但特别费事的工作,需要科学谋划。

另外,Waterdrop,现在改名叫Seatunnel,已经正式成为Apache的顶级项目,Sqoop、DataX等一大批ETL工具都将退出历史舞台,建议提前适应Waterdrop,为将来打算。

你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!

附上waterdrop(seatunnel)的学习网站:

Document

基于waterdrop,从hive抽取数据至Oracle相关推荐

  1. JDBC实现从Hive抽取数据导入Oracle

    环境:浙江移动华为云平台 云平台大数据采用了 Kerberos 认证. 开发历程: 1.在宁波大数据实验环境测试通过了JDBC实现从Hive抽取数据导入Oracle功能. 2.通过查看其它项目的数据库 ...

  2. Shlle脚本传参调用seatunnel(原waterdrop)将hive中数据导入ClickHouse

    前言 公司分析数据已经存入hive,但需要输入参数计算得到很长一段时间的趋势变化数据(不固定查询),经调研ClickHouse时序优化后比较满足需求,并且ClickHouse在数据量大时最好采用DNS ...

  3. 从Hive导出数据到Oracle数据库--Sqoop

    首先解释一下各行代码: sqoop export # 指定要导入到Oracle的那张表(通常与hive中的表同名) --table TABLE_NAME # host_ip:导入oracle库所在的i ...

  4. 基于waterdrop,从oracle直接拉取数据进仓Clickhouse

    一.Clickhouse.hive.oracle性能简单对比测试 公司数据分析需求,从市级切换到以省级为单位分析医保数据,原来的oracle数仓完全扛不住了,IT也没解决办法,所以自己动手建了Clic ...

  5. oracle随机取名,oracle 表查询随机抽取数据

    最近在做系统时用到了随机抽取记录的问题: 上网上查找了很多相关资料,发现了不同的方法及其差异.都是基于ORACLE的方法哦 首先第一个是随机抽取6个 select * from  (select * ...

  6. 使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决

    一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-o ...

  7. 【clickhouse】使用waterdrop将Hive中的数据导入ClickHouse

    1.概述 转载:使用waterdrop将Hive中的数据导入ClickHouse 这里仅仅自己学习用. 前言 最近有一个需求需要把hive的数据同步到clickhouse,而且数据量还比较大,所以使用 ...

  8. mbk文件导入到oracle,Oracle基于物化视图的远程数据复制

    物化视图简介: 远程表复制功能:可以借助数据库链接(dblink),在远程数据库中建立一个本地表的副本,用该方式实现表的定时同步.物化视图存储基于远程表的数据,也可以称为快照. 加速查询功能:物化视图 ...

  9. A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...

最新文章

  1. ASP.NET Core 认证与授权[6]:授权策略是怎么执行的?
  2. spring aop组件_安全性中的Spring AOP –通过方面控制UI组件的创建
  3. Linux-Ubuntu 启用root账户
  4. 掌握新手学车技巧对于新手来说是非常重要的
  5. UE4如何解析命令行参数
  6. 导入php插件_微信公众号吸粉的方法(将网站100%的流量导入到公众号中)
  7. ab变频器22b用户手册_AB变频器 PowerFlex400用户手册.pdf
  8. 解压缩文件常用命令——linux
  9. 市面上最流行的九大现场总线
  10. 一本书读懂财报 | 现金流量表剖析
  11. huggingFace 中文模型实战——中文文本分类
  12. 水井坊VS舍得酒业,谁是A股川酒“老三“?
  13. python reset_index()_python 问题 reset_index(drop=True
  14. 2016Android公司面试题
  15. POJ 3055 Digital Friends 笔记
  16. 我想用一个外部循环来实现反复调用scrapy来爬取不同的网页内容,但是现在就出现这种情况:
  17. discord Bot 实现机器人发送私信验证码
  18. CSDN旗下,河软CSDN乐知学院免费推荐诚信、踏实的Java软件工程、Android工程师,.NET工程师,PHP工程师、IOS工程师
  19. python合成图片_python图片合成的示例
  20. Linux调整磁盘格式为GPT,格式化2TB以上的磁盘

热门文章

  1. idea测试的时候程序包org.springframework.context不存在,已解决。。
  2. 2019新一波收购风暴来袭,科技巨头成功解锁“买买买”模式
  3. 第四十九课第十二章Managing Indexes
  4. ie下,首页打开页面非常慢
  5. 【外贸】给大家推荐几个做外贸好的平台!
  6. 反光板导航SLAM(四)如何通过两个反光柱估计位姿
  7. Oracle数据泵备份慢,expdp备份缓慢问题分析
  8. c语言三个杠的等号是什么,数学 3个横杠的等号表示什么意思?
  9. dpt rp1维修 sony_索尼 DPT-RP1 怎么样?索尼 DPT-RP1 的详细测评
  10. python聊天小程序支持私聊和多人_利用Python打造一个多人在线匿名聊天的小程序!(前后端完整开发)...