数据同步工具—Sqoop

1 Sqoop概述

传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。

当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器出现时,他们需要一种工具来与关系数据库服务器进行交互,以导入和导出驻留在其中的数据。在这里,Sqoop在Hadoop生态系统中占据一席之地,以便在关系数据库服务器和Hadoop的HDFS之间提供可行的交互。

Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。它由Apache软件基金会提供。

需要注意的是Sqoop的1.x 和 2.x 的版本差异比较大,但是1.99算是2.x版本的,所以在使用的时候需要注意

Sqoop如何工作

下图描述了Sqoop的工作流程。

Sqoop导入

导入工具从RDBMS向HDFS导入单独的表。表中的每一行都被视为HDFS中的记录。所有记录都以文本文件的形式存储在文本文件中或作为Avro和Sequence文件中的二进制数据存储。

Sq

数据同步工具—Sqoop相关推荐

  1. 数据同步工具Sqoop

    大数据Hadoop之--数据同步工具Sqoop Sqoop基本原理及常用方法 1 概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Databa ...

  2. 数据同步工具—sqoop 2.x

    sqoop 2.x 在上一节讲sqoop 的时候,提到过Sqoop的1.x 和 2.x 的版本差异比较大,所以我们今天来看一下sqoop 2.x ,需要注意的是1.99算是2.x版本的. sqoop2 ...

  3. ETL的数据同步工具调研(持续更新中)

    扯白了,数据同步工具就是"导数据 "的 名称 社区响应 国内使用情况(以前程无忧为参考) SQOOP 更新缓慢,对于hbase2.x以上版本使用时需要老版本的jar包 9页 Dat ...

  4. Linux的rsync远程数据同步工具

    Rsync(remote synchronize) 是一个远程数据同步工具,可以使用"Rsync算法"同步本地和远程主机之间的文件. rsync的好处是只同步两个文件不同的部分,相 ...

  5. etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别

    什么是数据同步工具(ETL.ELT) 数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决 ...

  6. fox pro删除单条数据_Mac文件夹数据同步工具——Sync Folders Pro

    Mac版同步文件夹Pro(文件夹数据同步工具)分享给大家!Mac版同步文件夹Pro是一种功能强大的文件夹数据同步工具,可帮助您同步两一个文件夹的内容,包括任何子文件夹.使用文件夹同步软件,允许您在任一 ...

  7. DataX离线数据同步工具/平台

    DataX离线数据同步工具/平台 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.SQL Server.Oracle.PostgreSQL.HDFS.Hive.O ...

  8. 分享改进 高性能数据同步工具(一)

    题外:在博文索引中暂时列出了开源的计划一览,虫子开源的目的是希望能有更多的交流,部分软件可能小得连开源协议的认证价值都没有.不管程序有多小多简单,用心把一个完整的设计思路.实现过程以及测试结果展现给大 ...

  9. canal - 数据同步工具

    一.应用场景 在前面Echarts - 实现图表显示中,我们使用了服务调用(统计表中的信息通过调用用户模块服务来获取)获取统计信息,这样耦合度高,效率相对较低,目前有另一种方法,通过实时同步数据库表的 ...

  10. 高效数据同步工具DataX的使用

    一.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...

最新文章

  1. Vue 生命周期记录_学习笔记
  2. c语言程序中变量先引用声明,C语言如何跨文件调用函数定义中声明的变量
  3. 【组队学习】【34期】阿里云天池在线编程训练营
  4. (深入理解)model.eval() 、model.train()以及torch.no_grad() 的区别
  5. 我所理解的 Block
  6. Docker系列(一):容器监控工具Weave Scope安装
  7. 【算法系列之六】两整数之和
  8. watch gt3 鸿蒙,华为Watch3有什么功能-华为Watch3功能介绍
  9. 直播预告丨原厂专家解析MySQL的性能管理
  10. [专栏精选]UI布局
  11. 风好大,我好冷——个人分工理解
  12. 拓端tecdat|R语言利用基线协变量提高随机对照试验的效率
  13. 生产排程遇难题?APS系统来解决
  14. linux刷新屏幕命令是什么,linux重启刷新桌面方法教程
  15. Python re模块 —— 从零基础开始入门正则表达式
  16. web哪里有php文件,web文件管理器
  17. 计算机时钟的工作原理,单片机的周期与系统时钟的工作原理
  18. 他励直流电动机的调速
  19. C语言--if…if…和if…else if的区别
  20. Boosting 介绍和 Python 实现

热门文章

  1. 10-20210308华为海思Hi3516DV300在鸿蒙系统下测试网络(以太网+WIFI)
  2. ElasticJob‐Lite:事件追踪
  3. java 实现微信搜索附近人功能
  4. 基于模糊聚类的图像分割
  5. 机器学习之聚类——模糊聚类FCM
  6. 2018.2 IDEAIU版激活说明
  7. 系统集成项目管理工程师通过率高吗?
  8. 一人有限责任公司章程范本
  9. Ubuntu18新系统火狐浏览器无法播放音乐和视频
  10. 51单片机驱动LCD12864中文字库显示