今天在将公司的oracle的数据抽取到hive当中,根据时间字段做增量插入,然后合并采用按照id唯一主键的方式进行合并操作。

下面的代码是增量导入的操作shell脚本

#!/bin/bash
datenow=$(date -d 'last day' -I)
databases=("FRONTBANK")sqoop import \
--connect jdbc:oracle:thin:自己的数据库ip:1521:zdxdb \
--username frontbank \
--password sdff23s \
--table FRONTBANK.INCREAT_TABLE \
--fields-terminated-by "\t" \
--incremental lastmodified \   #这个配置项是对导入的数据做插入和更新操作
--check-column MODIFY_TIME \   #这个配置项是按照数据表中的某个字段定位要读取的数据的位置
--last-value ${datenow} \     #这个配置项是加载最后一个导入数据到现在这段时间新增的数据,然后进行导入操作
--merge-key ID \             #这个配置项是对导入进来的数据进行合并的操作,这里是采用唯一主键的方式对数据进行合并操作
--hive-drop-import-delims \
-m 1 \
--target-dir /user/gxg/increment

在导入数据的过程中遇到的问题如下:第一次在shell脚本当中执行的时候,出现了下面的问题

ERROR tool.ImportTool: Import failed: java.io.IOException: Could not load jar /tmp/sqoop-root/compile/42f2af520ed13e2dc948a98222d69466/FRONTBANK.INCREAT_TABLE.jar into JVM. (Could not find class FRONTBANK.INCREAT_TABLE.)
at org.apache.sqoop.util.ClassLoaderStack.addJarFile(ClassLoaderStack.java:92)
at com.cloudera.sqoop.util.ClassLoaderStack.addJarFile(ClassLoaderStack.java:36)
at org.apache.sqoop.tool.ImportTool.loadJars(ImportTool.java:120)
at org.apache.sqoop.tool.ImportTool.lastModifiedMerge(ImportTool.java:456)
at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:522)
at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:621)
at org.apache.sqoop.Sqoop.run(Sqoop.java:147)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:243)
at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.lang.ClassNotFoundException: FRONTBANK.INCREAT_TABLE
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at java.net.FactoryURLClassLoader.loadClass(URLClassLoader.java:789)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:270)
at org.apache.sqoop.util.ClassLoaderStack.addJarFile(ClassLoaderStack.java:88)

这里显示在merger的时候找不到类,而且没这个jar包,但是在启动日志中明明有加载这个包和这个类的操作。然后找资料说采用codegen的方式。但是各种报错。

然后在想是不是数据包不共享造成的,于是我将脚本部署在oozie的工作流调度当中。居然可以可以运行,这个问题的原因应该是上传的包在本地,然而其他的机器加载不到这个包所以类不存在了。

说到这里多提一句,在我们提交sqooop脚本的时候,会在本地产生一个jar包

当我们在集群上执行sqoop脚本的的时候,相当于数据目录共享。所以不存在数据加载不到的问题。

第二个问题:

2019-01-08 17:03:35,929 INFO [IPC Server handler 2 on 37215] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1546053074766_0184_m_000001_0: Error: java.io.IOException: Cannot join values on null key. Did you specify a key column that exists?at org.apache.sqoop.mapreduce.MergeMapperBase.processRecord(MergeMapperBase.java:79)at org.apache.sqoop.mapreduce.MergeTextMapper.map(MergeTextMapper.java:58)at org.apache.sqoop.mapreduce.MergeTextMapper.map(MergeTextMapper.java:34)at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:793)at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Subject.java:415)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1917)at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

出现这个问题的主要原因有两点(1)你设置合并的字段不是主键的形式,一定要设置成为主键(2)第二点注意大小写的问题。我的问题就是我的主键的字段是大写的ID,我写成了这样 --merge-key id \
下面总结一下对于sqoop增量导入的总结:在整个的sqooop导入操作中需要注意两个东西,第一个就是我们的需要准备一个更新的字段(时间日期字段),第二个就是合并的字段负责更新数据的更新操作。其他的应该就没有问题了

这里补充一点,我们只能定义数据目录,不能直接将数据导入到hive当中否则会报下面的错:
--incremental lastmodified option for hive imports is not supported. Please remove the parameter --incremental lastmodified.

这里需要补充另外一点,在我们增量导入的时候是分两步走的(1)将新增的数据导入进来 (这里可以指定导入的map数,也就是指定的并行读)(2)合并新导入的数据和之前的数据,这个过程有一点需要注意,我们在第一次全量导入数据的时候,指定的map数也就是最终形成的文件数。在合并的时候,他启动的map的数量是文件数目的n+1个

转载于:https://www.cnblogs.com/gxgd/p/10243017.html

关于sqoop增量导入oracle的数据到HDFS的出现的错误总结相关推荐

  1. oracle统计每天数据增量,每天的业务数据增量导入oracle库方法讨论

    咨询各位高人. 目前状况是 我单位每天都要产生 一个单品资料的基础表, 是所有单品,大约5万条数据 ,但是每天这个表都有多少改变,比如:有些单品更新,有一些删除掉 了.这个表每天都是通过unix上系统 ...

  2. sqoop job入门 与sqoop增量导入

    sqoop job命令选项 sqoop job可以封装一些简单的代码,方便调用 可以创建,删除,执行,列出job,以及查看job. Job management arguments:--create ...

  3. Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)

    sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...

  4. sqoop增量导入hive_使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)...

    最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...

  5. Sqoop增量抽取Oracle数据,最近8个小时的数据未被抽取

    在使用sqoop增量抽取数据时,在不指定m的情况下,导出日志中可以看到添加了截止时间,但这个时间并不是系统时间,经过多次比较发现,这个时间比当前系统时间早8个小时.因此怀疑是时区问题. 检查Oracl ...

  6. sqoop增量导入hive_Sqoop 增量导MySQL数据 至Hive

    通过Sqoop 增量导数据到Hive, 命令如下: ./sqoop-job --meta-connect jdbc:hsqldb:hsql://127.0.0.1:16000/sqoop --crea ...

  7. sqoop 增量导入,不重复

    在实际的生产环境下,我们常常是要继续数据增量的导入 核心参数 –check-column 用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳 ...

  8. sqoop增量导入hdfs和导出

    增量导入 在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导 ...

  9. Ambari2.7.4+HDP3.1.4下sqoop增量导入只支持append模式,mysql直接进入hive的lastmodified的不支持。下面是增量的命令。

    1. 创建mysql表,并创建初始化数据 grant all privileges on *.* to 'root'@'%' identified by 'xxxxxxxxx' with grant ...

最新文章

  1. Python进阶-----property用法(实现了get,set,delete三种方法)
  2. [HAOI2008]移动玩具
  3. 申威 linux内核,一种申威防火墙快速移植高版本linux内核的方法与流程
  4. 湖北孝感学校计算机好吗,湖北省孝感市2018年上半年计算机等级考试注意事项...
  5. UPX3.03+UpolyX.5 Shell v1.0 汉化绿色版
  6. linux 内核logo 居中,linux logo制作及居中显示
  7. 产品 电信nb接口调用_NB-IoT 平台对接常见问题(中国电信)
  8. python中append函数什么意思_在python中append()函数的作用是什么
  9. Java 生成随机中文、英文姓名(上)
  10. 符合W3C的网站的开发模型和必要性的探讨(一)
  11. 最好的防御就是进攻 任正非
  12. UBUNTU 12.04 3D 特效设置(三)
  13. 1 什么是末端柔顺控制?
  14. 表格背景(Background)图像CSS用法详解
  15. matlab设定坐标轴范围和坐标轴显示
  16. 最好的android智能手表,安卓智能手表推荐?十款好用的安卓智能手表排行榜
  17. Android Studio Flavors详解
  18. Kafka topic分区增加副本
  19. 对象和函数对象有什么区别?
  20. HTML5 + canvas 飙车游戏(附源码)

热门文章

  1. _bzoj1007 [HNOI2008]水平可见直线【单调栈】
  2. Promise 让异步更优
  3. 20140418--第1讲.开山篇
  4. 关于某些系统统计查询等业务进行大数据量的测试
  5. CV Papers|计算机视觉论文推荐周报20200504期
  6. 第一届LCI workshop @ ICCV 2019, 欢迎投稿
  7. CVPR 2019 | 旷视提出超分辨率新方法Meta-SR:单一模型实现任意缩放因子
  8. mysql6位数货币大写,生成数字+英文字母大小写彩虹字符集(6位),共有62^6种可能_MySQL...
  9. Github1.3万星,迅猛发展的JAX对比TensorFlow、PyTorch
  10. yolov5 deepsort 行人车辆 双向计数 跟踪检测