点击上方蓝色字体,选择“设为星标

回复”资源“获取更多资源

本文作者:Sheep Sun本文链接:https://www.cnblogs.com/yangxusun9/p/12558683.html

大数据技术与架构点击右侧关注,大数据开发领域最强公众号!

暴走大数据点击右侧关注,暴走大数据!一、Sqoop简介Sqoop将用户编写的Sqoop命令翻译为MR程序,MR程序读取关系型数据库中的数据,写入到HDFS或读取HDFS上的数据,写入到关系型数据库!在MR程序中如果要读取关系型数据库中的数据,必须指定输入格式为DBInputformat!在MR程序中如果要向关系型数据库写入数据,必须指定输出格式为DBOutputformat!Sqoop命令运行的MR程序,只有Map阶段,没有Reduce阶段!只需要做数据传输,不需要对数据进行合并和排序!二、sqoop导入数据(将关系型数据库的数据导入到 HDFS)数据如下2.1 直接导入HDFS

2.1.1 全表导入(部分导入)

bin/sqoop import \##连接的关系型数据库的url,用户名,密码--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \##连接的表--table t_emp \##导出数据在hdfs上存放路径--target-dir /sqoopTest \##如果路径已存在则先删除--delete-target-dir \##导入到Hdfs上后,每个字段使用什么参数进行分割--fields-terminated-by "\t" \##要启动几个MapTask,默认4个--num-mappers 2 \##数据集根据哪个字段进行切分,切分后每个MapTask负责一部分--split-by id \##要实现部分导入,加入下面的参数,表示导入哪些列##columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格--columns id,name,age

2.1.2 使用sqoop关键字筛选查询导入数据

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--table t_emp \##指定过滤的where语句,where语句最好使用引号包裹--where 'id>6' \--target-dir /sqoopTest \--delete-target-dir \--fields-terminated-by "\t" \--num-mappers 1 \--split-by id 

2.1.3 使用查询语句导入

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \##查询语句最好使用单引号##如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \--delete-target-dir \--fields-terminated-by "\t" \--num-mappers 1 \--split-by id 

注意:1、如果使用了--query,就不能指定--table,和--columns和--where  --query 和 --table一定不能同时存在!  --where和--query同时存在时,--where失效  --columns和--query同时存在时,还有效!2、--query 必须跟--target-dir2.2 导入到Hive

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \##如果不限定分隔符,那么hive存储的数据将不带分隔符,之后再想操作很麻烦,所以建议加上--fields-terminated-by "\t" \--delete-target-dir \##导入到hive--hive-import \##是否覆盖写,不加这个参数就是追加写--hive-overwrite \##指定要导入的hive的表名--hive-table t_emp \--num-mappers 1 \--split-by id

原理还是分俩步:先把数据从关系数据库里导到hdfs中,然后再从hdfs中导到hive中,此时hdfs中的文件会被删除注意:如果hive中没表会自动创建表,但是类型是自动生成的,所以还是建议手动创建 也可以分俩步走:先导入hdfs

#!/bin/bashimport_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 123 \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and  \$CONDITIONS" \--num-mappers 1 \--fields-terminated-by '\t' \# 使用压缩,和指定压缩格式为lzop--compress \--compression-codec lzop \#将String类型和非String类型的空值替换为\N,方便Hive读取--null-string '\\N' \--null-non-string '\\N'}

然后利用  load data  命令导入hive注意:这里使用到了空值处理 ——Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。2.3 导入到 Hbase

bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/test \--username root \--password 123 \--query 'select * from t_emp where id>3 and $CONDITIONS' \--target-dir /sqoopTest \--delete-target-dir \##表不存在是否创建--hbase-create-table \##hbase中的表名--hbase-table "t_emp" \##将导入数据的哪一列作为rowkey--hbase-row-key "id" \##导入的列族--column-family "info" \--num-mappers 2 \--split-by id

1、当选用自动创建表时,如果版本不兼容会报错:20/03/24 13:51:24 INFO mapreduce.HBaseImportJob: Creating missing HBase table t_emp
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnDescriptor;)V 此时只能自己手动创建或者可以重新编译sqoop源码2、如果要多列族导入,只能多次运行命令,一次导入一个列族三、导出将Hdfs上的数据导出到关系型数据库中3.1 SQL中表为空表时

bin/sqoop export \--connect 'jdbc:mysql://hadoop102:3306/test?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123 \##导出的表名,需要自己提前创建好--table t_emp2 \--num-mappers 1 \##hdfs上导出的数据的路径--export-dir /user/hive/warehouse/t_emp \##hdfs上数据的分隔符--input-fields-terminated-by "\t"

3.2 表不为空表时如果插入的数据的主键和表中已有数据的主键冲突,那么会报错Duplicate entry '5' for key 'PRIMARY'如果在SQL下,可以使用

INSERT INTO t_emp2 VALUE(5,'jack',30,3,1111) ON DUPLICATE KEY UPDATE NAME=VALUES(NAME),deptid=VALUES(deptid),empno=VALUES(empno);

意为指定当插入时,主键重复时时,对于重复的记录,只做更新,不做插入!而用sqoop时,则可以启用以下俩种模式

3.2.1updateonly模式

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id

利用 --update-key 字段  ,表示主键重复时会进行更新,但是主键不重复的时候,数据不会插入进来

3.2.2allowinsert模式

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id \--update-mode  allowinsert

表示主键重复时会进行更新,主键不重复的时候,数据也会插入进来3.3 如何查看导出命令的具体实现

3.3.1配置/etc/my.cnf

bin/sqoop export \--connect 'jdbc:mysql://hadoop103:3306/mydb?useUnicode=true&characterEncoding=utf-8' \--username root \--password 123456 \--table t_emp2 \--num-mappers 1 \--export-dir /hive/t_emp \--input-fields-terminated-by "\t" \--update-key id \--update-mode  allowinsert

3.3.2重启mysql服务

3.3.3进入/var/lib/mysql,调用方法

sudo mysqlbinlog mysql-bin.000001

欢迎点赞+收藏+转发朋友圈素质三连

文章不错?点个【在看】吧! ?

imp命令导入指定表_Sqoop 使用shell命令的各种参数的配置及使用方法相关推荐

  1. imp命令导入指定表_Oracle—— 导入/导出 数据:exp,imp 命令

    exp,imp 命令是需要在windows  的 cmd  命令中执行的命令,主要用于数据的导入和导出工作,方便高效. 远程地址--  @ip:port/orcl   注:该远程地址不写,就意味着执行 ...

  2. imp命令导入指定表_【imp】使用imp工具迁移数据时迂回地排除特定表的导入

    如果迁移数据时使用的是Oracle的imp工具,如何排除特定表的导入,满足个性化需求呢?imp工具没有impdp工具那样灵活,这里给出一个迂回的办法:先创建同名的数据库对象,然后忽略导入过程中的错误即 ...

  3. kingbase(人大金仓)导出导入指定表

    导出用sys_dump,导入用ksql.都采用命令行方式,未登录数据库,在外围进行. 项目正处于上线试运行阶段,正式环境下程序有些问题,与数据库有关.我想将正式环境下的一些数据库表导出来,导进开发库. ...

  4. impdp导入指定表 oracle_Oracle简单常用的数据泵导出导入(expdp/impdp)命令举例

    一.新建逻辑目录 最好以system等管理员创建逻辑目录,Oracle不会自动创建实际的物理目录"D:\oracleData"(务必手动创建此目录),仅仅是进行定义逻辑路径dump ...

  5. impdp导入指定表 oracle_oracle 11g 将表导入到其他用户的impdp命令

    /*分为四步 */ /*第1步:创建临时表空间  */ create temporary tablespace yuhang_temp tempfile 'D:\oracledata\yuhang_t ...

  6. mysql 命令导入excel,【mysql命令导入excel表】excel表格怎样导入数据库

    怎么把excel里的数据导入数据库中的表中 打开企业管理器开要导入数数据库,在表上按右键,所务-->导入数据,弹出DTS导入/导出向导,按 下一步 , 2.选择数据源 Microsoft Exc ...

  7. impdp导入指定表 oracle_使用impdp数据泵导入并重命名表名

    使用impdp数据泵导入并重命名表名 2018-08-28 使用数据泵导入并重命名表名 1.select * from dba_directories; 2.expdp system/oracle d ...

  8. python执行shell命令行_python执行命令行:python中执行shell命令行read结果

    +++++++++++++++++++++++++++++ python执行shell命令 1 os.system  (只有这个方法是边执行边输出,其他方法是最后一次性输出) 可以返回运行shell命 ...

  9. python脚本运行命令_从Python脚本运行shell命令

    我正在尝试从 python脚本中运行一个shell命令,它需要做几件事 1. shell命令是'hspice tran.deck>! tran.lis' 2.在继续之前,脚本应该等待shell命 ...

最新文章

  1. 手机密钥连接linux主机
  2. python【力扣LeetCode算法题库】18-四数之和
  3. SqlServer中BCP导出数据的方法
  4. SAP License:SAP问题二则
  5. Centos7以上的版本 mysql 无法启动,无法停止问题
  6. [论文阅读] End-to-End Incremental Learning
  7. [动态规划|字符串] leetcode 5 最长回文子串
  8. 从入门到入土:Nessus出击:使用nessus扫描某台靶机
  9. swoole php 微信推送,基于thinkphp5、swoole和easywechat微信模板消息推送
  10. 数据库系统工程师真题及详解(2015~2021)
  11. 阿里巴巴 JAVA 开发手册
  12. paddlex,2.1.0识别预测代码(包含视频的)
  13. Java的字面量和符号引用
  14. java 读取pdf签名域_Java 获取PDF中的数字签名信息
  15. 联想笔记本电脑开机黑屏可能是什么原因
  16. 计算机网络-实验一:windows网络测试工具
  17. 关于LaTeX中的正文的字体大小
  18. Chrome 69 域名不显示 www 的解决办法
  19. L6470步进电机驱动芯片
  20. C语言暑期实习 第十天

热门文章

  1. OllyDBG 入门之四--破解常用断点设
  2. JavaScript进阶(一)--执行上下文
  3. Qt QTcpSocket使用总结
  4. sersync+rsync实现实时同步
  5. 用unison来同步你的远程文件夹 - Fwolf's Blog
  6. 最长单调子序列及计数(poj1952)
  7. 在Eclipse中查看JDK类库的源代码
  8. 【转贴】想应聘的瞧仔细了:HW分析大全
  9. 关于java static 关键字
  10. leetcode1105. 填充书架(动态规划)