文章目录

  • 一、概述
    • 1. 是什么?
    • 2. 开源地址
  • 二、简介
    • 2.1. 设计架构
    • 2.2. 框架结构
  • 三、检查环境
    • 3.1. 检验是否安装JDK(1.8以上,推荐1.8)
    • 3.2. 检验是否安装python环境,要求2.6=<版本
    • 3.3. maven环境
  • 四、JDK环境安装
    • 4.1. rpm方式安装
    • 4.2. gz方式安装
  • 五、python环境安装
    • 5.1. python 最新版下载
    • 5.2. python 下载指定版本
    • 5.3. python 安装
一、概述
1. 是什么?

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

2. 开源地址

https://github.com/alibaba/DataX

######3. DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

二、简介
2.1. 设计架构

数据交换通过DataX进行中转,任何数据源只要和DataX连接上即可以和已实现的任意数据源同步

2.2. 框架结构

核心组件:
    Reader:数据采集模块,负责从源采集数据
    Writer:数据写入模块,负责写入目标库
    Framework:数据传输通道,负责处理数据缓冲等
    以上只需要重写Reader与Writer插件,即可实现新数据源支持
  支持主流数据源,详见https://github.com/alibaba/DataX/blob/master/introduction.md
  从一个JOB来理解datax的核心模块组件:
    datax完成单个数据同步的作业,称为Job,job会负责数据清理、任务切分等工作;
    任务启动后,Job会根据不同源的切分策略,切分成多个Task并发执行,Task就是执行作业的最小单元
    切分完成后,根据Scheduler模块,将Task组合成TaskGroup,每个group负责一定的并发和分配Task

三、检查环境
3.1. 检验是否安装JDK(1.8以上,推荐1.8)
java -version

3.2. 检验是否安装python环境,要求2.6=<版本
python

3.3. maven环境

Apache Maven 3.x (Compile DataX)

源码编译环境

Linux环境安装并配置Maven

四、JDK环境安装

安装方式任选其一

4.1. rpm方式安装
安装jdk
rpm -ivh jdk-8u271-linux-x64.rpm#设置环境变量
export JAVA_HOME=/usr/java/jdk1.8.0_271-amd64
export PATH=$JAVA_HOME/bin:$PATH
source .bash_profilejava -version
4.2. gz方式安装

CentOS 7 安装jdk

五、python环境安装

Python(推荐Python2.6.X=<版本)

5.1. python 最新版下载

官网:https://www.python.org/downloads/

声明:请根据系统环境下载

5.2. python 下载指定版本

根据需求下载即可

Python-2.7.18.tgz下载地址:
https://www.python.org/downloads/release/python-2718/

5.3. python 安装
#上传服务器指定目录
根据需求而定#解压
cd /app
tar -zxvf Python-2.7.18.tgz#指定安装目录
./configure --prefix=/usr/local/python-2.7.18#编译
make#安装
make install#加入环境变量
vi .bash_profile
export PATH=/usr/local/python-2.7.18/bin:$PATH#刷新环境变量
source .bash_profile#验证
python

操作记录:

[root@localhost ~]# python
Python 2.7.5 (default, Aug  7 2019, 00:51:29)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>

ETL异构数据源Datax_部署前置环境_01相关推荐

  1. ETL异构数据源Datax_工具部署_02

    接上一篇:(企业内部) ETL异构数据源Datax_部署前置环境_01 https://gblfy.blog.csdn.net/article/details/118081253 文章目录 一.直接下 ...

  2. ETL异构数据源Datax_图形化数据同步_11

    数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录 一.Oracle同步Mysql(全量) 1. 添加项目 2. 添加数据源 3. 添加任务 4. 构建json 5. 任务执行 6. ...

  3. ETL异构数据源Datax_日期增量同步_13

    文章目录 一.全量同步 1. 增量同步SQL 2. 构建reader 3. 构建writer 4. 字段对应关系映射 5. 构建json 6. 选择同步模板 7. 查询最早时间 8. 修改任务信息 9 ...

  4. ETL异构数据源Datax_自增ID增量同步_12

    文章目录 增量同步方法 1.先同步存量数据 2.再同步增量数据(根据自增ID.日期条件) 前提条件: 1.只针对数据增长,如果老数据被update/delete则无法使用增量同步方式. 基于主键自增I ...

  5. ETL异构数据源Datax_使用querySql_08

    使用说明 当用户配置了这一项之后,DataX系统就会忽略table,column 这些配置型,直接使用这个配置项的内容对数据进行筛选,例 如需要进行多表join后同步数据,使用select a,b f ...

  6. ETL异构数据源Datax_限速设置_06

    文章目录 一.提升job内Channel并发有几种配置方式 二.配置简述 三.案例 3.1. 第一种 3.2. 第二种 3.3. 第三种 3.4. 第四种 3.5. 案例实战 3.6. 总结 前言: ...

  7. ETL异构数据源Datax_使用数据分片提升同步速度_05

    文章目录 1. 构建json,添加数据分片 2. Mysql数据清除 3. 数据分片前后对比 1. 构建json,添加数据分片 {"job": {"setting&quo ...

  8. ETL异构数据源Datax_数据准备_03

    文章目录 一.Oracle数据库准备 1. 初始化表结构 2. 生成测试数据 二.使用docker创建mysql 2.1. 构建mysql容器 2.1. 创建datax数据库 2.3. 初始化表结构 ...

  9. ETL异构数据源Datax_datax-web安装部署_10

    文章目录 1. 解压 2. 一键安装 3. 修改执行器py地址 4. 一键启动 5. 查看启动日志 6. 访问地址+登录 7. 操作记录 1. 解压 tar -zxvf datax-web-2.1.2 ...

最新文章

  1. python将MP3转wave转成numpy
  2. Pandas中DataFrame的属性及方法大全
  3. 未来ui设计的发展趋势_2025年的未来UI趋势?
  4. 流量复制_详解Linux系统流量复制--gor、tcpcopy、nginx模块流量复制等
  5. “四不像”病毒冒充多款知名软件 窃取电脑隐私
  6. Spark之RDD实战篇
  7. 小白设计模式:责任链模式
  8. Nisus Writer Pro for Mac拆分视图和注释技巧
  9. YUV格式与RGB格式
  10. Latex论文下载学习教程
  11. mysql怎么把两个表格的数据合并成一行_mysql中将多行数据合并成一行数据
  12. html中url格式,web地址的URL一般格式为
  13. 10种常用的分析模型 数据分析必看
  14. 从零到百亿互网融构展
  15. 《数独游戏的设计与实现》
  16. 沉睡者IT:零基础学习短视频与+玩转抖音快手
  17. VMware集群应用部署之--MikroTik-RouterOS部署及数据迁移
  18. UWB定位技术的特点与优势
  19. 通达信破解接口难不难?
  20. 聊天室的功能实现(主要部分)

热门文章

  1. 清华大学:全面如期开课,履行社会责任!
  2. AI算法连载11:统计之集成学习
  3. 基金委通报科研诚信违规违纪案件查处情况
  4. mysql ( )连接_MySQL中concat函数(连接字符串)
  5. centeros7安装mysql5.6_CentOS7安装MySQL5.6
  6. WordPress架构简单剖析
  7. sparksql加载mysql表中的数据
  8. 【转载保存】Selenium Webdriver元素定位的八种常用方式
  9. 【转载保存】获取页面编码
  10. 运行cudasift