Sqoop基本操作

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
以命令行的方式，进行表格的全量和增量的抽取，在不同的数据库的表和表之间进行数据的抽取和数据的迁移。
将导入或导出命令翻译成mapreduce程序来实现。

导入数据

检查是否搭建成功 list-tables 显示表名

sqoop list-tables --connect jdbc:mysql://数据库ip地址或者主机名:3306/数据库名字 --数据库用户名 --password 密码
#查看mysql的表
sqoop list-tables --connect jdbc:mysql://localhost:3306/hive --username root --password 123456
#查看oracle的表
sqoop list-tables --connect jdbc:oracle:thin:@192.168.2.88:1521/ORCL --username scott --password tiger

全量导入

dept表 oracle导入到hive

sqoop import \
--hive-import \
--connect jdbc:oracle:thin:@192.168.153.1:1521/orcl \
--username scott \
--password tiger \
--table DEPT \
--hive-database bigdata \
--fields-terminated-by ','

students表 mysql导入到hive

sqoop import \
--hive-import \
--connect jdbc:mysql://192.168.153.1:3306/db01 \
--username root \
--password 123456 \
--table students \
--hive-database bigdata \
--fields-terminated-by ',' \
-m 1  #-m 1的选项，是当被抽取的表格没有主键的时候添加的选项，如果有主键就不要这一句  数据抽取的时候，相同的表格，只能被抽取一次

导入teachers部分字段到hdfs

提示：导入到hdfs不会自动建表

sqoop import \
--connect jdbc:mysql://192.168.2.109:3306/db01 \
--username root \
--password 123456 \
--target-dir /user/teacher \
--fields-terminated-by "\t" \
--columns tno,tsex \
--table teachers \
-m 1

导入scores表中小于80分的数据到hdfs

 sqoop import \--connect jdbc:mysql://192.168.153.1:3306/db01 \--username root \--password 123456 \--target-dir /user/scores \--fields-terminated-by " " \--query 'select * from scores where degree <80 and $CONDITIONS' \ #提示：必须加 '$CONDITIONS' 如果query后面是双引号，必须加\转义字符，避免shell把CONDITIONS当成变量-m 1

追加导入

sqoop import \
--append \
--connect jdbc:oracle:thin:@192.168.153.1:1521/orcl \
--username scott \
--password tiger \
--table DEPT2 \
--target-dir /user/hive/warehouse/bigdata.db/dept \
--fields-terminated-by ',' \
-m 1

增量导入

第一次把数据导入后，以后就只能增量导入了，不然数据会有重复

导入t1表所有数据

sqoop import \
--connect jdbc:oracle:thin:@192.168.2.133:1521/orcl \
--username scott \
--password 123456 \
--table T1 \
--incremental append \   #增量导入的模式
--check-column id \ ##增量导入的字段
--last-value 12 \     #从这个数值后为增量数据
--target-dir /user/hive/warehouse/mydb2.db/T1 \
--fields-terminated-by ',' \
--m 1

导入t1表id从6开始后的数据

sqoop import \
--connect jdbc:mysql://192.168.153.1:3306/db01 \
--username root \
--table t1 \
--password 123456 \
--incremental append \
--check-column id \
--target-dir /user/hive/warehouse/bigdata.db/t1 \
--last-value 18 \
-m 1
#--check-column 检查的字段 有主键用主键判断，没有主键用时间判断
#--last-value 最后一次的值
#--incremental append  自增追加

使用脚本

dept表 oracle导入到hive

#!/bin/bash
echo "删除导入记录"
hadoop fs -rm -r /user/root/DEPT
hive -e "drop table if exists bigdata.dept"
sleep 5s
echo "全量导入"
sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.153.1:1521/orcl --username scott --password tiger --table DEPT --hive-database bigdata --fields-terminated-by ','
sleep 5s
hive -e "select * from bigdata.dept"

脚本（增量导入）

#!/bin/bash
max_id=`hive -e 'select ceil(max(id)) from mydb2.c1;'`
max_id=${max_id:3}
#输出最大值
echo '输出最大值：'$max_id
sqoop import \
--connect jdbc:oracle:thin:@192.168.2.133:1521/orcl \
--username scott \
--password 123456 \
--table C1 \
--incremental append \
--check-column id \
--last-value $max_id \
--target-dir /user/hive/warehouse/mydb2.db/c1 \
--fields-terminated-by ',' \
--m 1

导出数据

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。(导出需要在关系数据库中自己建表)

sqoop export \
--connect jdbc:oracle:thin:@192.168.153.1:1521/orcl \
--username scott \
--password tiger \
--table T1 \
--export-dir /user/hive/warehouse/t01 \
--input-fields-terminated-by ","

Sqoop导入导出基本操作相关推荐

Sqoop导入导出的时候总是出现等待5分钟的问题解决办法
25.25.27 Sqoop导入导出的时候总是出现等待5分钟的问题解决办法: HDP3.1 中的 YARN 的 timeline server 默认使用内置的 HBase,不知道为什么,总是过几天就挂 ...
oracle导出数据视频教程,Oracle数据导入导出基本操作示例
Oracle数据导入导出基本操作示例数据导出 a.将数据库orcl完全导出,用户名user 密码password 导出到D:\dc.dmp中 exp user/password@orcl fil ...
如何完美解决Sqoop导入导出MySQL数据错位问题
我发现小伙伴们在使用Sqoop把数据从MySQL导入到Hive的过程中经常会遇到数据错位的问题,虽然最后都是通过添加参数的方法来解决这个问题,但是我认为这并不是一个完美的解决方案,所以花了一点时间研究 ...
【Sqoop】sqoop导入导出
本文简单介绍Sqoop如下操作: Import: rdbms导入HDFS; rdbms导入Hive: rdbms导入Hbase: Export: Hive导出到rdbms: Hba ...
sqoop导入数据遇到的参数问题 ,导出–staging-table
sqoop import参数 –query "select XXXXX and $CONDITIONS " 按条件导入 -m1 指定map 在导入的时候采用指定–columns的方 ...
Sqoop安装部署和数据的导入导出案例详解
目录一.概述二.Sqoop的工作机制三.Sqoop1与Sqoop2架构对比四.Sqoop安装部署五.Sqoop的数据导入 1. 列举出所有的数据库 2. 准备表数据 3. 导入数据库表数据到 ...
sqoop导入数据（保持一致性）--staging-table
sqoop导入数据(保持一致性)–staging-table sqoop import参数 –query "select XXXXX and $CONDITIONS " 按条件导入 ...
利用sqoop将hive数据导入导出数据到mysql
http://niuzhenxin.iteye.com/blog/1726414 运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司 ...
mysql数据与Hadoop之间导入导出之Sqoop实例
前面介绍了sqoop1.4.6的如何将mysql数据导入Hadoop之Sqoop安装,下面就介绍两者间的数据互通的简单使用命令. 显示mysql数据库的信息,一般sqoop安装测试用 sqoop l ...

Sqoop导入导出基本操作

Sqoop基本操作

导入数据

检查是否搭建成功 list-tables 显示表名

全量导入

dept表 oracle导入到hive

students表 mysql导入到hive

导入teachers部分字段到hdfs

导入scores表中小于80分的数据到hdfs

追加导入

增量导入

导入t1表所有数据

导入t1表id从6开始后的数据

使用脚本

dept表 oracle导入到hive

脚本（增量导入）

导出数据

Sqoop导入导出基本操作相关推荐

最新文章

热门文章