数据迁移工具Sqoop和DataX功能比较
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息
网址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html
最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。
Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。其特点在于:
1)专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH4应该没问题。
2)支持并行导入,宣称速度很快(由于时间紧,未来得及进行真实环境的测试),可以指定按某个字段进行拆分并行化导入过程。
3)支持按字段进行导入与导出。
4)自带的辅助工具比较丰富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。
DataX是淘宝开源的数据导入导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换。其特点在于:
1)官方版本支持的Hadoop版本较低(0.19),暂不支持高版本(如CDH4)。
2)支持从一个HDFS集群到另一个HDFS集群之间的数据导入导出。
3)支持数据不落地的并行导入导出。
注:以上并非是对这两个工具很全面的对比分析,仅供参考,欢迎拍砖。
转载于:https://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html
数据迁移工具Sqoop和DataX功能比较相关推荐
- 字段类型 sqoop_数据迁移工具Sqoop
熬过去,出众. 熬不过,出局. 这是最真实的人生,人都是熬过来的. Sqoop 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,它是Hadoop环境下连接关系数据库与Hadoop存储系统 ...
- 数据湖:数据库数据迁移工具Sqoop
系列专题:数据湖系列文章 Sqoop(SQL-to-Hadoop)是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也 ...
- 3.2.3 Sqoop 数据迁移工具, 导入数据import, MySQL到HDFS/Hive, 导出数据export,增量数据导入, Sqoop job,常用命令及参数
目录 数据迁移工具 -- Sqoop 第一部分 Sqoop概述 第二部分 安装配置 第三部分 应用案例 第 1 节 导入数据import MySQL 到 HDFS MySQL 到 Hive 第 2 节 ...
- ETL学习总结(2)——ETL数据集成工具之kettle、sqoop、datax、streamSets 比较
前言 对于数据集成类应用,通常会采用ETL工具辅助完成.ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).交互转换(transfo ...
- Sqoop数据迁移工具的使用
文章作者:foochane 原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS ...
- sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)...
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
- 8款数据迁移工具选型,主流且实用
前言:ETL(是Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理.转换.迁移的场景.今天特地给大家汇总了一些目前市面上 ...
- 数据迁移工具,用这8种就够了
前言 最近由于工作需要需要进行数据迁移,那么ETL数据迁移工具该用哪些呢? ETL(是Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业应用来说,我们经常会遇 ...
- 8 种主流数据迁移工具技术选型,yyds!
点击上方"芋道源码",选择"设为星标" 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | ...
最新文章
- The transaction log for database 'tempdb' is full due to 'ACTIVE_TRANSACTION'
- P1198 [JSOI2008]最大数
- 密度泛函DFT与神经网络
- ik mysql热加载分词_Elasticsearch 之(25)重写IK分词器源码来基于mysql热更新词库...
- iOS NSURLCache
- 电脑:分享八个实用的电脑技巧,小白必备!
- jpush java api_JPush極光推送Java服務器端API
- Codeforces Round #424 (Div. 2, rated, based on VK Cup Finals)
- objective-C 的内存管理之-引用计数
- 找到所需的产品或服务
- matlab prn文件,PRN文件扩展名 - 什么是.prn以及如何打开? - ReviverSoft
- Visual Studio中#includestdafx.h的作用
- 华为B610-4E光猫设置的问题
- nxp EIQ无法使用脚本导入数据集:ssl.SSLCertVerificationError
- 雷达的工作原理示意图_雷达基本理论与基本原理
- 用AI打电话骗走22万,Python编写的软件,克隆你的语音只需5秒!
- Directx 10 is not supported方法一
- 【笑小枫的SpringBoot系列】【四】SpringBoot返回统一结果包装
- 激光测距仪工作模式及维保——TFN BKD系列双目激光测距仪
- arm+linux+usb驱动开发,Linux+ARM下的USB驱动开发
热门文章
- hadoop大数据——mapreduce程序提交运行模式及debug方法
- SpringData Jpa、Hibernate、Jpa 三者之间的关系
- java 分页查询_java开发之分页查询
- 【通俗解释】余弦相似度
- SecureCRT如何显示颜色和高亮显示
- 最优化——线性规划总结1(线性规划标准型,规范型,顶点)
- messenger android 4.,AndroidIPC机制(4)-Messenger
- 2.4.1 算术逻辑单元ALU与加法器(串行加法器、并行加法器、全加器)
- java 注解 属性 类型_跟光磊学Java开发-Java注解
- linux-2.6.29内核配置、编译与安装