一,说明

kettle不仅可以处理传统的数据库数据或文件,也对大数据集群有很好的支持,本文提供一个kettle读取hbase列式数据库的例子,本例中,大数据集群使用的是CDH5.14,kettle使用的是8.3版本。注意:不同的kettle版本对CDH版本的支持是不同的,具体要看kettle官方文档说明https://help.pentaho.com/Documentation/8.3/Setup/Components_Reference, 可以看到kettle8.3是支持CDH5.14的。

我们下载下来的kettle8.3自带支持的是cdh6.1,所以我们还需要在官网去下载cdh5.14的shims,https://sourceforge.net/projects/pentaho/files/Pentaho%208.3/shims/  找到对应的cdh版本的的shims,这里我们下载pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip,下载成功后选择一个位置安装,在对应的安装目录下找到cdh514文件夹,将整个文件夹复制到ata-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\ 目录下。 ok,此时kettle已经具备了添加cdh5.14集群的能力。

二,添加集群

通过cloudera manager 下载配置文件,如下图,找到对应的服务并点击操作-->下载客户端配置,并将配置文件放置到kettle安装目录的  data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514  文件夹下覆盖之前空的配置文件,

需要替换的主要配置文件如下图所示

修改kettle 安装目录data-integration\plugins\pentaho-big-data-plugin 下的plugin.properties文件,将active.hadoop.configuration修改为自己对应集群的版本,如下图,修改完后kettle需要重启。

添加集群,新建一个转换,在主对象树的hadoop cluster上右键添加一个新的集群,填写相关的信息,注意:需要提前将集群的host name 和ip的映射添加到本机的host文件中,信息填写完成后点击测试,可以看到测试结果都是通过的,下面就可以访问CDH集群了。

三,读取hbase数据

新建一个转换,拖动hbase input 插件到工作区 ,双击hbase input插件,先在configure query标签页,选择刚才新建的集群,

在create/Edit mappings标签页,点get table names,此时插件会区hbase读取表的名称,在hbase talbe name下拉框中选择需要读取的表,在Mapping name中输入一个mapping名称,在下面的表格中填入hbase映射字段信息,Alias列为需要映射到的字段名称,Column family为列族的名称,Column name为列名称,Type根据数据类型选择即可,注意如果是行键,则需要选择Key为Y,列族和列名不用填。填好之后Save mapping, 插件会将这个mapping保存到hbase中,下次使用的时候直接取读这个mapping就不用再新建mapping了。

保存mapping后切回到configure query标签页,点Get mapped table names选择表名称,点Get mappings for the specified table 选择mapping名称,之后点击Get key/Fields info就可以在表格中看到字段信息了,至此hbase input插件配置完毕。

点击预览,就可以看到数据了,如下图,后面就可以愉快的使用hbase的数据了。

kettle读取hbase数据相关推荐

  1. kettle读取hbase

    原文:https://blog.csdn.net/sujiangming/article/details/114376744?utm_medium=distribute.pc_aggpage_sear ...

  2. FlinkSQL读取Hbase数据

    概述 最近项目中用到flink进行实时计算,流程为从kafka读取数据,如果是维度数据,则插入到hbase中,如果是需要实时计算的数据, 则进行实时计算,并将计算结果保存到MySQL中.在实时计算过程 ...

  3. Kettle 读取MySQL数据

    1,你得有个用来连接MySQL的jar包 2,把它放在kettle的lib目录下 3,找到表输入 4,新建一个 5,填参数,然后测试 6,成功了 7,点击获取SQL查询语句,就可以查看表了 8,输入查 ...

  4. spark读取hbase数据

    import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInpu ...

  5. mongodb数据导入hbase,spark读取hbase数据分析

    为什么80%的码农都做不了架构师?>>>    使用mavn管理相关依赖包pom.xml <project xmlns="http://maven.apache.or ...

  6. 7.读写HBase数据(华为云学习笔记,Spark编程基础,大数据)

    读写HBase数据 ① 在hbase-shell中使用命令创建HBase数据库: ② 使用Spark读写HBase数据库中的数据. 实验原理 -> HBase HBase是一个高可靠.高性能.面 ...

  7. scala学习-scala读取Hbase表中数据并且做join连接查询

    1.业务需求:sparkSQL on hbase ,sparkSQL直接读取Hbase中的两个表,进行连接查询. 2.图示 绿色的线 上图中绿色的线是做过测试的,直接在hive中建表,然后load数据 ...

  8. hbase数据读取优化_read读取优化_HBase最佳实践_HBase开发指南_云数据库 HBase - 阿里云...

    其实HBase还是比较灵活的,关键看你是否使用得当,以下主要列举一些读的优化.HBase在生产中往往会遇到Full GC.进程OOM.RIT问题.读取延迟较大等一些问题,使用更好的硬件往往可以解决一部 ...

  9. 一招教你用Kettle整合大数据和Hive,HBase的环境!

    上一篇博客<还不会使用大数据ETL工具Kettle,你就真的out了!>博主已经为大家介绍了Kettle简单的使用操作,也确实谈到了后面会出较复杂操作的教程,其中当数与大数据组件之前的一些 ...

最新文章

  1. (13)[Xamarin.Android] 不同分辨率下的图片使用概论
  2. 我的总结SVN的使用
  3. 攻防世界misc新手_[攻防世界]mobile新手练习区easy-apk
  4. 【计算机科学基础】整数和小数的进制转换
  5. 线性代数【12】矢量(向量) - 概念和专有名词
  6. html2canvas在不同设备生成图片大小不一致问题
  7. B站DR-CANup主电路系统建模_基尔霍夫定律的解题过程分析
  8. matlab将某点标红,Draw-a-rectangle-matlab 本程序在图像上指定位置话红色的矩形框作为标记 - 下载 - 搜珍网...
  9. 6.字符串截取数据求平均分
  10. 推荐10个趣味实战项目,从零入门人工智能和数据分析,看这篇就够了
  11. bex5 php,BeX5企业微信集成
  12. python微信小程序抢购教程_微信小程序系统教程[高级阶段]——python版电商系统...
  13. pandas安装报错
  14. android10.0连接wifi后提示“已连接,但无法访问互联网”
  15. MySQL面试核心25问(附答案),心有猛虎,细嗅蔷薇
  16. 计算机中的相对符号怎么按,丶符号怎么打-Mac里特殊符号的输入技巧
  17. 嘿,飞哥(F.R.E.C.O)!不一般的云联盟
  18. 战地2服务器主程序修改,战地2BOT数值怎么更改BOT数值如何更改_BOT数值更改教程_游戏城...
  19. 数据库与MPP数仓(十九):高效SQL
  20. 释放低代码原力,用友YonBuilder助力太湖云打造多云管理平台

热门文章

  1. 小米总监说软件测试分为这及类
  2. 文件/文件夹强制删除工具:IObit Unlocker绿色版
  3. android指南针卡死,android指南针
  4. C语言文件操作函数总结——超详细
  5. Allegro如何添加泪滴操作指导
  6. 前端实现文件上传(点击+拖拽)
  7. 为什么navicat总是闪退问题解决
  8. 自动锁定计算机快捷键,教你电脑锁屏怎么设置,让电脑自动锁屏
  9. 从零到一黑苹果教程(10.15Catalina)
  10. android 圆形拖动条,Android圆形进度条自定义