作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息

网址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html

最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。

Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。其特点在于:

1)专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH4应该没问题。

2)支持并行导入,宣称速度很快(由于时间紧,未来得及进行真实环境的测试),可以指定按某个字段进行拆分并行化导入过程。

3)支持按字段进行导入与导出。

4)自带的辅助工具比较丰富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。

DataX是淘宝开源的数据导入导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换。其特点在于:

1)官方版本支持的Hadoop版本较低(0.19),暂不支持高版本(如CDH4)。

2)支持从一个HDFS集群到另一个HDFS集群之间的数据导入导出。

3)支持数据不落地的并行导入导出。

注:以上并非是对这两个工具很全面的对比分析,仅供参考,欢迎拍砖。

转载于:https://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html

数据迁移工具Sqoop和DataX功能比较相关推荐

  1. 字段类型 sqoop_数据迁移工具Sqoop

    熬过去,出众. 熬不过,出局. 这是最真实的人生,人都是熬过来的. Sqoop 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,它是Hadoop环境下连接关系数据库与Hadoop存储系统 ...

  2. 数据湖:数据库数据迁移工具Sqoop

    系列专题:数据湖系列文章 Sqoop(SQL-to-Hadoop)是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也 ...

  3. 3.2.3 Sqoop 数据迁移工具, 导入数据import, MySQL到HDFS/Hive, 导出数据export,增量数据导入, Sqoop job,常用命令及参数

    目录 数据迁移工具 -- Sqoop 第一部分 Sqoop概述 第二部分 安装配置 第三部分 应用案例 第 1 节 导入数据import MySQL 到 HDFS MySQL 到 Hive 第 2 节 ...

  4. ETL学习总结(2)——ETL数据集成工具之kettle、sqoop、datax、streamSets 比较

    前言 对于数据集成类应用,通常会采用ETL工具辅助完成.ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).交互转换(transfo ...

  5. Sqoop数据迁移工具的使用

    文章作者:foochane 原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS ...

  6. sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)...

    最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...

  7. 8款数据迁移工具选型,主流且实用

    前言:ETL(是Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理.转换.迁移的场景.今天特地给大家汇总了一些目前市面上 ...

  8. 数据迁移工具,用这8种就够了

    前言 最近由于工作需要需要进行数据迁移,那么ETL数据迁移工具该用哪些呢? ETL(是Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业应用来说,我们经常会遇 ...

  9. 8 种主流数据迁移工具技术选型,yyds!

    点击上方"芋道源码",选择"设为星标" 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | ...

最新文章

  1. The transaction log for database 'tempdb' is full due to 'ACTIVE_TRANSACTION'
  2. P1198 [JSOI2008]最大数
  3. 密度泛函DFT与神经网络
  4. ik mysql热加载分词_Elasticsearch 之(25)重写IK分词器源码来基于mysql热更新词库...
  5. iOS NSURLCache
  6. 电脑:分享八个实用的电脑技巧,小白必备!
  7. jpush java api_JPush極光推送Java服務器端API
  8. Codeforces Round #424 (Div. 2, rated, based on VK Cup Finals)
  9. objective-C 的内存管理之-引用计数
  10. 找到所需的产品或服务
  11. matlab prn文件,PRN文件扩展名 - 什么是.prn以及如何打开? - ReviverSoft
  12. Visual Studio中#includestdafx.h的作用
  13. 华为B610-4E光猫设置的问题
  14. nxp EIQ无法使用脚本导入数据集:ssl.SSLCertVerificationError
  15. 雷达的工作原理示意图_雷达基本理论与基本原理
  16. 用AI打电话骗走22万,Python编写的软件,克隆你的语音只需5秒!
  17. Directx 10 is not supported方法一
  18. 【笑小枫的SpringBoot系列】【四】SpringBoot返回统一结果包装
  19. 激光测距仪工作模式及维保——TFN BKD系列双目激光测距仪
  20. arm+linux+usb驱动开发,Linux+ARM下的USB驱动开发

热门文章

  1. hadoop大数据——mapreduce程序提交运行模式及debug方法
  2. SpringData Jpa、Hibernate、Jpa 三者之间的关系
  3. java 分页查询_java开发之分页查询
  4. 【通俗解释】余弦相似度
  5. SecureCRT如何显示颜色和高亮显示
  6. 最优化——线性规划总结1(线性规划标准型,规范型,顶点)
  7. messenger android 4.,AndroidIPC机制(4)-Messenger
  8. 2.4.1 算术逻辑单元ALU与加法器(串行加法器、并行加法器、全加器)
  9. java 注解 属性 类型_跟光磊学Java开发-Java注解
  10. linux-2.6.29内核配置、编译与安装