Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》
一、什么是sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
二、sqoop的特点
Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。
三、Sqoop import 命令
将Mysql的jdbc驱动放在/opt/cloudera/parcels/CDH/lib/sqoop/lib目录下。
如下图:
参考学习网址:
http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html
命令详解:
1、基本语法
1 $ sqoop import (generic-args) (import-args)$ sqoop-import (generic-args) (import-args)
2、基本命令
查看网址:
http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html
中的sqoop import的 Import control arguments
3、案例
方式一:
将表rpt_sale_daily中数据导入到HDFS上。
目标目录为:sqoop/rpt_sale_daily。
sqoop import --connect jdbc:mysql://master:3306/test \ --username root --password 123456 --table rpt_sale_daily \ --columns "dateid,huodong,pv,uv" \ --where "dateid='2015-08-28'" \ --target-dir sqoop/rpt_sale_daily \ -m 1
如果提示 sqoop/rpt_sale_daily 目录已经存在,执行:
hadoop fs -rmr sqoop/rpt_sale_daily
执行结果:如下图
20条数据成功导入,开始检测吧亲。
执行代码:
hadoop fs -cat sqoop/rpt_sale_daily/part-m-00000
数据如下图:
关系数据库表rpt_sale_daily里面的数据如下:
对比,数据相同,成功导入。
方式二:
通过opt文件的方式传送:
新建test.opt文件:
1 import 2 --connect 3 jdbc:mysql://192.168.0.115:3306/test 4 --username 5 root 6 --password 7 123456 8 --table 9 rpt_sale_daily 10 --columns 11 "id,huodong,pvv,uvv" 12 --where 13 "id='2015-08-28'" 14 --target-dir 15 sqoop/rpt_sale_daily 16 -m 1
执行指令:
sqoop options-file test.opt
执行过程和结果和方式一一样。
转载于:https://www.cnblogs.com/invban/p/5385122.html
Hive学习之七《 Sqoop import 从关系数据库抽取到HDFS》相关推荐
- sqoop 导数据从 mysql 到 hdfs,load 进 hive
sqoop 从 mysql 导数据到 hive 命令: sqoop import --connect 'jdbc:mysql://127.0.0.1:8066/int_vst_wx' --userna ...
- sqoop动态分区导入mysql,使用sqoop import从mysql往hive含分区表中导入数据的一些注意事项...
先看下面这条语句,它实现的功能是将特定日期的数据从mysql表中直接导入hive $ sqoop import \ --connect jdbc:mysql://192.168.xx.xx:3306/ ...
- sqoop import 数据同步到hive的用法
1.sqoop 的通用参数 2.import 的参数 3.第一个同步案例:简单同步 sqoop import --connect jdbc:oracle:thin:@ip:1521/服务名 --use ...
- Hive学习笔记【全】
Hive学习笔记[全] 文章目录 Hive学习笔记[全] 一.Hive简介 1.Hive是什么 2.Hive的架构 3.Hive的数据组织 二.Hive安装 1.环境需求 2.安装Hive 3.启动H ...
- 【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...
- 执行sqoop 用shell_Mysql和Hive之间通过Sqoop进行数据同步
文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...
- Mysql和Hive之间通过Sqoop进行数据同步
文章回顾 理论 大数据框架原理简介 大数据发展历程及技术选型 实践 搭建大数据运行环境之一 搭建大数据运行环境之二 本地MAC环境配置 CPU数和内存大小 查看CPU数 sysctl machdep. ...
- 大数据学习之sqoop
点击下载sqoop:http://mirror.bit.edu.cn/apache/sqoop/ 解压缩:tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar 重命名: ...
- Sqoop将MySQL数据导入到HDFS和Hive中
一.将数据从mysql导入 HDFS sqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root -- ...
最新文章
- 【深度学习】一文详解RNN及股票预测实战(Python)!
- 在ABAP里模拟实现Java Spring的依赖注入
- mysql-nt.exe w3wp.exe cpu 100%_w3wp.exe(IIS ) CPU 占用 100% 的常见原因及解决办法
- linux重装lnmp,基于CentOS 6.5的LNMP安装过程
- 使用pytesseract识别简单验证码
- 《小猪佩奇过大年》首映 导演解答“啥是佩奇”
- ADO.NET Command对象简介
- 传递实体类对象_Java I/O 流之对象流中的序列化和反序列化
- python详细安装教程-python安装教程 Pycharm安装详细教程
- jquery系列教程6-ajax的应用全解
- 超详细Python进行信用评分卡建模【kaggle的give me some credit数据集】【风控建模】
- vmware虚拟机安装jdk
- 用CSS制作细线表格
- 给一个网址传递参数,并接收返回的参数
- 如何升级Vue的版本 vue2.9.6升级到vue3.0
- html表格优秀作品,40多个漂亮的网页表单设计实例
- 嵌入式--深入理解单片机(一)单片机程序是如何运行起来的以及单片机的ROM和RAM
- day02 快速上手
- 蓝屏代码:DRIVR_UNLOADED_WITHOUT_CANCELLING_PENDING_OPERATIONS
- 小功率恒流源芯片推荐
热门文章
- 书------数据库(SQL Server)
- 前端如何实现图片懒加载(lazyload) 提高用户体验
- m_Orchestrate learning system---十八、mo项目的启示是什么
- Bzoj2957: 楼房重建
- AI助锂电池技术 科学家有望彻底解决电池爆炸
- pyCharm编辑器激活使用
- 解决docker pull镜像速度慢的问题
- PHP 通过fsockopen函数获取远程网页源码
- HashMap遍历的两种方式,推荐使用entrySet()
- android主流开源自动化框架(monkeyrunner,robotium,uiautomator