一、Sqoop基础:连接关系型数据库与Hadoop的桥梁

1.1 Sqoop的基本概念  

  Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程,降低编写自定义数据加载脚本的需求。

  Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如Hbase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。因此,可以说Sqoop就是一个桥梁,连接了关系型数据库与Hadoop。

1.2 Sqoop的基本机制

  Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。Sqoop架构非常简单,其整合了hive、hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。Sqoop的基本工作流程如下图所示:

  Sqoop在import时,需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中。每个map中再处理数据库中获取的一行一行的值,写入到HDFS中(由此也可知,导入导出的事务是以Mapper任务为单位)。同时split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqoop会取最大和最小split-by字段值,然后根据传入的num-mappers来确定划分几个区域。 比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分别为1000和1,而num-mappers为2的话,则会分成两个区域(1,500)和(501-100),同时也会分成2个sql给2个map去进行导入操作,分别为select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每个map各自获取各自SQL中的数据进行导入工作。

二、Sqoop实践:MySQL->HDFS/HDFS->MySQL

2.1 Sqoop的安装配置

  (1)下载sqoop安装包:这里使用的是1.4.3版本,已经上传至网盘中(http://pan.baidu.com/s/1pJ7gfxh)

  (2)解压sqoop安装包:tar -zvxf sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz

  (3)设置环境变量:vim /etc/profile ,增加以下内容

export SQOOP_HOME=/usr/local/sqoop
export PATH=.:$HADOOP_HOME/bin:$SQOOP_HOME/bin:$HIVE_HOME/bin:$PIG_HOME/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATH

  最后是环境变量生效:source /etc/profile

  (4)将MySQL的jdbc驱动mysql-connector-Java-5.1.10.jar复制到sqoop项目的lib目录下:

cp mysql-connector-java-5.1.10.jar /usr/local/sqoop/lib

  (5)重命名配置文件:在${SQOOP_HOME}/conf中执行命令

mv sqoop-env-template.sh sqoop-env.sh

  (6)【可选】修改配置文件:vim sqoop-env.sh

#Set path to where bin/hadoop is available

export HADOOP_COMMON_HOME=/usr/local/hadoop/

#Set path to where hadoop-*-core.jar is available

export HADOOP_MAPRED_HOME=/usr/local/hadoop

#set the path to where bin/hbase is available export

HBASE_HOME=/usr/local/hbase

#Set the path to where bin/hive is available

export HIVE_HOME=/usr/local/hive

#Set the path for where zookeper config dir is

export ZOOCFGDIR=/usr/local/zookeeper

2.2 数据导入:MySQL->HDFS

  这里假设我们已经在hadoop-master服务器中安装了MySQL数据库服务,并使用默认端口3306。需要注意的是,sqoop的数据库驱动driver默认只支持mysql和Oracle,如果使用sqlserver的话,需要把sqlserver的驱动jar包放在sqoop的lib目录下,然后才能使用drive参数。

  (1)MySQL数据源:mysql中的hive数据库的TBLS表,这里使用学习笔记17《Hive框架学习》里边Hive的数据库表。

  (2)使用import命令将mysql中的数据导入HDFS:

  首先看看import命令的基本格式:

sqoop             ##sqoop命令

import             ##表示导入

--connect jdbc:mysql://ip:3306/sqoop    ##告诉jdbc,连接mysql的url

--username root                                     ##连接mysql的用户名

--password admin                                 ##连接mysql的密码

--table mysql1                                        ##从mysql导出的表名称

--fields-terminated-by '\t'                        ##指定输出文件中的行的字段分隔符

-m 1                                                       ##复制过程使用1个map作业

--hive-import                                          ##把mysql表数据复制到hive空间中。如果不使用该选项,意味着复制到hdfs中

  然后看看如何进行实战:这里将mysql中的TBLS表导入到hdfs中(默认导入目录是/user/<username>)

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t'

  最后看看是否成功导入了HDFS中:可以看到TBLS表存入了多个map任务所生成的文件中

  

  (3)刚刚看到了默认是由多个map来进行处理生成,可以设置指定数量的map任务。又由于sqoop默认不是追加方式写入,还可以设置其为追加方式写入已有文件末尾:

sqoop import --connect jdbc:mysql://hadoop0:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t'  --null-string '**'  -m 1 --append

  (4)还可以将MySQL中的数据导入Hive中(你设定的hive在hdfs中的存储位置,我这里是/hive/):

首先得删掉刚刚导入到hdfs中的文件数据:

hadoop fs -rmr /user/root/*

然后再通过以下命令导入到hive中:

sqoop import --connect jdbc:mysql://hadoop-master:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t' -m 1 --append  --hive-import

  最后看看是否导入到了hive目录(/hive/)中:

  (5)还可以对指定数据源进行增量导入:所谓增量打入,就是导入上一次导入后数据源新增的那部分数据,例如:上次导入的数据是id从1~100的数据,那么这次就只导入100以后新增的数据,而不必整体导入,节省了导入时间。下面的命令以TBL_ID字段作为判断标准采用增量导入,并记录上一次的最后一个记录是6,只导入6以后的数据即可。

sqoop import --connect jdbc:mysql://hadoop0:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t'  --null-string '**'  -m 1 --append  --hive-import  --check-column 'TBL_ID' --incremental append --last-value 6

2.3 数据导出:HDFS->MySQL

  (1)既然要导出到MySQL,那么首先得要有一张接收从HDFS导出数据的表。这里为了示范,只创建一个最简单的数据表TEST_IDS,只有一个int类型的ID字段。

  (2)使用export命令进行将数据从HDFS导出到MySQL中,可以看看export命令的基本格式:

sqoop

export                                        ##表示数据从hive复制到mysql中

--connect jdbc:mysql://ip:3306/sqoop   ##告诉jdbc,连接mysql的url

--username root          ##连接mysql的用户名

--password admin        ##连接mysql的密码

--table mysql2                                        ##mysql中的表,即将被导入的表名称

--export-dir '/user/root/warehouse/mysql1'  ##hive中被导出的文件目录

--fields-terminated-by '\t'    ##hive中被导出的文件字段的分隔符

注意:导出的数据表必须是事先存在的  

  (3)准备一个符合数据表规范的文件ids并上传到HDFS中,作为导出到MySQL的数据源:这个ids里边只有10个数字

1
2
3
4
5
6
7
8
9
10

  (4)export实战:将HDFS中的ids导出到mysql中的TEST_IDS数据表中

sqoop export --connect jdbc:mysql://hadoop-master:3306/hive  --username root --password admin --table TEST_IDS --fields-terminated-by '\t' --export-dir '/testdir/input/ids'

  最后查看是否导入到了mysql中的TEST_IDS数据表中:

2.4 创建job,运行job

  刚刚我们使用了import和export命令进行了常规的导入导出操作,但是每次都要我们使用那么长的命令不太容易记忆。于是,我们可以将其创建为一个job,每次需要使用时只需要记住job名,运行job即可。

  这里以导入为例,创建一个job名为myjob1的job:

sqoop job --create myjob1  -- import --connect jdbc:mysql://hadoop-master:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t'  -m 1 --append  

  可以通过命令查看是否存在job:sqoop job --list

  执行刚刚创建的job:

sqoop job --exec myjob1

  但是,我们发现上面的设置后还需要我们输入密码,这样便无法做到真正的自动执行job。

  于是,我们做一点小小的配置(hive-site.xml)修改:将下面的xml配置的注释移除即可

  <!--  --><property><name>sqoop.metastore.client.record.password</name><value>true</value><description>If true, allow saved passwords in the metastore.</description></property>

  移除之后,还需要将刚刚那个job删除掉,重新创建job后才可以无密码自动执行。

sqoop job --delete myjob1

sqoop job --create myjob1 -- import --connect jdbc:mysql://hadoop-master:3306/hive  --username root --password admin --table TBLS --fields-terminated-by '\t'  -m 1 --append

sqoop job --exec myjob1

参考资料

(1)吴超,《Sqoop的安装与使用》:http://www.superwu.cn/2013/08/12/444/

(2)谈翔,《Apache Sqoop:云端大数据分析的关键一环》:http://www.searchcloudcomputing.com.cn/showcontent_86735.htm

(3)标点符,《Hadoop数据传输工具:Sqoop》:http://www.biaodianfu.com/sqoop.html

Hadoop之Sqoop框架学习(笔记19)相关推荐

  1. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

  2. SpringMVC框架--学习笔记(下)

    接上篇:SpirngMVC框架--学习笔记(上):https://blog.csdn.net/a745233700/article/details/81038382 17.全局异常处理: 系统中异常包 ...

  3. JavaSE中Map框架学习笔记

    前言:最近几天都在生病,退烧之后身体虚弱.头疼.在床上躺了几天,什么事情都干不了.接下来这段时间,要好好加快进度才好. 前面用了三篇文章的篇幅学习了Collection框架的相关内容,而Map框架相对 ...

  4. kratos mysql_kratos微服务框架学习笔记一(kratos-demo)

    本文将为您描述kratos微服务框架学习笔记一(kratos-demo),教程操作步骤: 目录 kratos微服务框架学习笔记一(kratos-demo) kratos本体 demo kratos微服 ...

  5. Java日志框架学习笔记

    Java日志框架学习笔记 文章目录 0 主流Java日志框架 1 log4j 1.1 理论知识 1.1.1 Loggers日志记录器 1.1.2 Appenders输出端 1.1.3 Layout日志 ...

  6. 从零写一个具有IOC-AOP-MVC功能的框架---学习笔记---11. MVC功能之http请求处理器的编写---简易框架最后一公里!

    从零写一个具有IOC-AOP-MVC功能的框架-学习笔记 专栏往期文章链接: IOC功能相关章节: 从零写一个具有IOC-AOP-MVC功能的框架-学习笔记-01.项目初始化 从零写一个具有IOC-A ...

  7. 27Vert.X框架学习笔记

    vert.x框架学习笔记 文章目录 1 Vert.x简明介绍 1.1 Vert.x能干什么 1.2 Vert.x快速体验 1.3 Vert.x的简单介绍 1.4 Vert.x的一些优势 1.4.1 异 ...

  8. Ext.Net学习笔记19:Ext.Net FormPanel 简单用法

    Ext.Net学习笔记19:Ext.Net FormPanel 简单用法 FormPanel是一个常用的控件,Ext.Net中的FormPanel控件同样具有非常丰富的功能,在接下来的笔记中我们将一起 ...

  9. springmvc学习笔记(19)-RESTful支持

    springmvc学习笔记(19)-RESTful支持 标签: springmvc springmvc学习笔记19-RESTful支持 概念 REST的样例 controller REST方法的前端控 ...

最新文章

  1. redis消息队列写入mysql_redis怎么实现将消息队列持久化到数据库中?
  2. AI换脸鉴别率超99.6%,微软用技术应对虚假信息
  3. 【Vista中系统准备工具存在隐患,自动清除用户资料】
  4. springboot+swagger传递参数的几种格式
  5. linux查找postgre进程,postgresql数据库某一个进程占用大量CPU,问题排查详解
  6. 基于Docker搭建Redis集群(主从集群)
  7. Linux 源码安装 Python3 和 pip3
  8. 微信php翻译和天气预报整合,微信公众平台天气预报功能开发
  9. 【操作系统】操作系统的设计与实现
  10. android fragment 优势,Android Fragment详解
  11. 记一次升级node版本后,运行原vue项目报错问题解决方法
  12. 我的编程学习日志(9)--交换A,B值得方法(相加,异或,swap函数)
  13. F - 最短路 HDU - 2544(最短路的模板)
  14. 时间同步服务器搭建实验
  15. 画uml图的在线软件
  16. Unity 屏幕分辨率的设置
  17. 高效实现斐波那契数列(Fibonacci数列)
  18. matlab导弹追踪,导弹追踪代码
  19. 新手入门,求大神帮助!!!
  20. 07深圳浩项隔音窗,隔音知识与方法

热门文章

  1. RN:react-native link 与 autolink
  2. ios libyuv 视频流裁剪
  3. Java文件操作源码大全
  4. 谈谈新的前端框架 Svelte 和现代前端框架的特点
  5. LCC-HVDC直流输电仿真模型Matlab 采用十二脉波晶闸管换流阀
  6. 技术前瞻(1)---屏下指纹与3D感测全产业链
  7. 【LOJ】#2041. 「SHOI2015」聚变反应炉
  8. CF 538 D. Flood Fill 递归 区间DP
  9. HD-SDI转HDMI转换器工作原理及功能介绍
  10. c语言程序设计学了什么知识,初学C语言编程基础知识