一、什么是sqoop

  Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

二、sqoop的特点

  Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

三、Sqoop import 命令

  将Mysql的jdbc驱动放在/opt/cloudera/parcels/CDH/lib/sqoop/lib目录下。

  如下图:

  

  参考学习网址:

  http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html

  命令详解:

  1、基本语法

1 $ sqoop import (generic-args) (import-args)$ sqoop-import (generic-args) (import-args)

  2、基本命令

  查看网址:

  http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html

  中的sqoop import的 Import control arguments

   

  3、案例

  方式一:

  将表rpt_sale_daily中数据导入到HDFS上。

  目标目录为:sqoop/rpt_sale_daily。

sqoop import --connect jdbc:mysql://master:3306/test \
--username root --password 123456 --table rpt_sale_daily \
--columns "dateid,huodong,pv,uv" \
--where "dateid='2015-08-28'" \
--target-dir sqoop/rpt_sale_daily \
-m 1

  如果提示 sqoop/rpt_sale_daily 目录已经存在,执行:

hadoop fs -rmr sqoop/rpt_sale_daily

执行结果:如下图

20条数据成功导入,开始检测吧亲。

执行代码:

hadoop fs -cat sqoop/rpt_sale_daily/part-m-00000

数据如下图:

关系数据库表rpt_sale_daily里面的数据如下:

对比,数据相同,成功导入。

方式二:

通过opt文件的方式传送:

新建test.opt文件:

 1 import
 2 --connect
 3 jdbc:mysql://192.168.0.115:3306/test
 4 --username
 5 root
 6 --password
 7 123456
 8 --table
 9 rpt_sale_daily
10 --columns
11 "id,huodong,pvv,uvv"
12 --where
13 "id='2015-08-28'"
14 --target-dir
15 sqoop/rpt_sale_daily
16 -m 1

执行指令:

sqoop options-file test.opt

执行过程和结果和方式一一样。

转载于:https://www.cnblogs.com/invban/p/5385122.html

Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》相关推荐

  1. sqoop 导数据从 mysql 到 hdfs,load 进 hive

    sqoop 从 mysql 导数据到 hive 命令: sqoop import --connect 'jdbc:mysql://127.0.0.1:8066/int_vst_wx' --userna ...

  2. sqoop动态分区导入mysql,使用sqoop import从mysql往hive含分区表中导入数据的一些注意事项...

    先看下面这条语句,它实现的功能是将特定日期的数据从mysql表中直接导入hive $ sqoop import \ --connect jdbc:mysql://192.168.xx.xx:3306/ ...

  3. sqoop import 数据同步到hive的用法

    1.sqoop 的通用参数 2.import 的参数 3.第一个同步案例:简单同步 sqoop import --connect jdbc:oracle:thin:@ip:1521/服务名 --use ...

  4. Hive学习笔记【全】

    Hive学习笔记[全] 文章目录 Hive学习笔记[全] 一.Hive简介 1.Hive是什么 2.Hive的架构 3.Hive的数据组织 二.Hive安装 1.环境需求 2.安装Hive 3.启动H ...

  5. 【转】Hive学习路线图

    原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

  6. 执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步

    文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...

  7. Mysql和Hive之间通过Sqoop进行数据同步

    文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...

  8. 大数据学习之sqoop

    点击下载sqoop:http://mirror.bit.edu.cn/apache/sqoop/ 解压缩:tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar 重命名: ...

  9. Sqoop将MySQL数据导入到HDFS和Hive中

    一.将数据从mysql导入 HDFS sqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root -- ...

最新文章

  1. 【深度学习】一文详解RNN及股票预测实战(Python)!
  2. 在ABAP里模拟实现Java Spring的依赖注入
  3. mysql-nt.exe w3wp.exe cpu 100%_w3wp.exe(IIS ) CPU 占用 100% 的常见原因及解决办法
  4. linux重装lnmp,基于CentOS 6.5的LNMP安装过程
  5. 使用pytesseract识别简单验证码
  6. 《小猪佩奇过大年》首映 导演解答“啥是佩奇”
  7. ADO.NET Command对象简介
  8. 传递实体类对象_Java I/O 流之对象流中的序列化和反序列化
  9. python详细安装教程-python安装教程 Pycharm安装详细教程
  10. jquery系列教程6-ajax的应用全解
  11. 超详细Python进行信用评分卡建模【kaggle的give me some credit数据集】【风控建模】
  12. vmware虚拟机安装jdk
  13. 用CSS制作细线表格
  14. 给一个网址传递参数,并接收返回的参数
  15. 如何升级Vue的版本 vue2.9.6升级到vue3.0
  16. html表格优秀作品,40多个漂亮的网页表单设计实例
  17. 嵌入式--深入理解单片机(一)单片机程序是如何运行起来的以及单片机的ROM和RAM
  18. day02 快速上手
  19. 蓝屏代码:DRIVR_UNLOADED_WITHOUT_CANCELLING_PENDING_OPERATIONS
  20. 小功率恒流源芯片推荐

热门文章

  1. 书------数据库(SQL Server)
  2. 前端如何实现图片懒加载(lazyload) 提高用户体验
  3. m_Orchestrate learning system---十八、mo项目的启示是什么
  4. Bzoj2957: 楼房重建
  5. AI助锂电池技术 科学家有望彻底解决电池爆炸
  6. pyCharm编辑器激活使用
  7. 解决docker pull镜像速度慢的问题
  8. PHP 通过fsockopen函数获取远程网页源码
  9. HashMap遍历的两种方式,推荐使用entrySet()
  10. android主流开源自动化框架(monkeyrunner,robotium,uiautomator