目的:

使用Sqoop将Oracle中的数据导入到HBase中,并自动生成组合行键!

环境:

Hadoop2.2.0

Hbase0.96

sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz

Oracle11g

jdk1.7

Ubuntu14 Server

这里关于环境吐槽一句:

最新版本的Sqoop1.99.3功能太弱,只支持导入数据到HDFS,没有别的任何选项,太土了!(如有不同意见欢迎讨论给出解决方案)

命令:

sqoop import --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table  CMS_NEWS_0625   --hbase-create-table --hbase-table 147patents --column-family patentinfo --split-by CREATE_TIME --hbase-row-key

"CREATE_TIME,PUBLISH_TIME,TITLE"

注意几点:

1.Oracle的表名必须大写(--table CMS_NEWS_0625);

2.用户名必须大写字母( --username ZHAOBIAO);

3.组合行键参数中的字段名都必须大写(--hbase-row-key "create_time,publish_time,operate_time,title");

4.作为组合行键的几个字段都不能有null值,否则会报错,请执行该语句前先确认。

异常解决

过程中遇到报错:

Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME

at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125)

at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92)

at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634)

at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)

at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31)

at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)

at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:415)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)

at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

原因1:

--hbase-row-key "create_time,publish_time,operate_time,title"

字段名小写了,需要将其修改为大写

--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"

原因2:

该字段在原表中的确存在Null值。

原文:http://blog.csdn.net/u010967382/article/details/36397353

oracle11hadoop混搭,【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自动生成组合行键...相关推荐

  1. 【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详细解释

    环境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***欢迎转载.请注明来 ...

  2. 【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse插件

    目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件 环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.z ...

  3. 【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具

    目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件 环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.z ...

  4. 【甘道夫】MapReduce实现矩阵乘法--实现代码

    之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路 为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java v ...

  5. 用Python与Watson,将《魔戒》甘道夫的性格可视化!

    全文共4301字,预计学习时长9分钟 图源Unsplash,由Marko Blažević提供 著名心理学家詹姆斯· 彭内贝克曾说:"仔细观察人们通过语言表达思想的方式,会感受到他们的性格特 ...

  6. CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署

    CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署 by:授客 QQ:1033553122 目录 一.         实践环境... ...

  7. 【甘道夫】Hadoop2.2.0 NN HA具体配置+Client透明性试验【完整版】

    引言: 前面转载过一篇团队兄弟[伊利丹]写的NN HA实验记录,我也基于他的环境实验了NN HA对于Client的透明性. 本篇文章记录的是亲自配置NN HA的具体全过程,以及全面測试HA对clien ...

  8. 【甘道夫】CDH5.2的Maven依赖

    之前一直结合Maven开发Hadoop2.2.0的程序.环境换成CDH5.2后报错,发现是Maven依赖库的问题. 之前一直使用 http://mvnrepository.com/ 查找maven依赖 ...

  9. eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务

    转自:http://my.oschina.net/mkh/blog/340112 1 eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分:hdfs环境部署和mapr ...

最新文章

  1. Java中的锁[原理、锁优化、CAS、AQS]
  2. Convert AS400 Spool to PFD Tools – PDFing
  3. ubuntu c mysql_Ubuntu下MySql和C连接的一些问题
  4. Java多线程中run和start的区别
  5. 秒杀多线程第五篇 经典线程同步 关键段CS
  6. 工作110:地址里面返回参数
  7. https的ssl证书申请及服务器的nginx的配置教程
  8. 3种方法实现http虚拟主机
  9. 学习plc编程需要什么基础
  10. 程序员中的明星,超模or女团都是程序媛
  11. 翻译程序和解释程序的区别
  12. 网站URL如何SEO优化
  13. 青龙面板2.8版本+Ninja 保姆级 服务器安装jd代挂教程——(二)
  14. 写在十九岁生日的23:31。
  15. conda安装GPU版pytorch,结果却是cpu版本[找到问题根源,从容解决]
  16. Kubernetes 进阶训练营 Pod基础
  17. OpenCV二值图像处理——阈值,连通区域分析(C++)
  18. 利用rails与blueprint进行迅敏开发(第一部分)
  19. java入门第一周总结
  20. 使用log4j2,控制台可以正常输出日志,但是log4j2日志文件为空?

热门文章

  1. SEED-缓冲区溢出攻击
  2. linux系列:shell将字符串分割成数组
  3. 三菱触摸屏GS2107和FX3U通过485通讯
  4. 秦殇 二进制txt 异或(h2.exe相关)
  5. sscanf 解析字符串
  6. 统计学中存在两类错误:I型错误II型错误 为什么人们主要关心I型错误
  7. Windows Server 2003系统重装步骤
  8. 腾讯将 3 月 29 日凌晨微信 QQ 故障定性为一级事故
  9. drop_last设置为True
  10. 又挽救了一个濒危物种