kettle读取hbase数据
一,说明
kettle不仅可以处理传统的数据库数据或文件,也对大数据集群有很好的支持,本文提供一个kettle读取hbase列式数据库的例子,本例中,大数据集群使用的是CDH5.14,kettle使用的是8.3版本。注意:不同的kettle版本对CDH版本的支持是不同的,具体要看kettle官方文档说明https://help.pentaho.com/Documentation/8.3/Setup/Components_Reference, 可以看到kettle8.3是支持CDH5.14的。
我们下载下来的kettle8.3自带支持的是cdh6.1,所以我们还需要在官网去下载cdh5.14的shims,https://sourceforge.net/projects/pentaho/files/Pentaho%208.3/shims/ 找到对应的cdh版本的的shims,这里我们下载pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip,下载成功后选择一个位置安装,在对应的安装目录下找到cdh514文件夹,将整个文件夹复制到ata-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\ 目录下。 ok,此时kettle已经具备了添加cdh5.14集群的能力。
二,添加集群
通过cloudera manager 下载配置文件,如下图,找到对应的服务并点击操作-->下载客户端配置,并将配置文件放置到kettle安装目录的 data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514 文件夹下覆盖之前空的配置文件,
需要替换的主要配置文件如下图所示
修改kettle 安装目录data-integration\plugins\pentaho-big-data-plugin 下的plugin.properties文件,将active.hadoop.configuration修改为自己对应集群的版本,如下图,修改完后kettle需要重启。
添加集群,新建一个转换,在主对象树的hadoop cluster上右键添加一个新的集群,填写相关的信息,注意:需要提前将集群的host name 和ip的映射添加到本机的host文件中,信息填写完成后点击测试,可以看到测试结果都是通过的,下面就可以访问CDH集群了。
三,读取hbase数据
新建一个转换,拖动hbase input 插件到工作区 ,双击hbase input插件,先在configure query标签页,选择刚才新建的集群,
在create/Edit mappings标签页,点get table names,此时插件会区hbase读取表的名称,在hbase talbe name下拉框中选择需要读取的表,在Mapping name中输入一个mapping名称,在下面的表格中填入hbase映射字段信息,Alias列为需要映射到的字段名称,Column family为列族的名称,Column name为列名称,Type根据数据类型选择即可,注意如果是行键,则需要选择Key为Y,列族和列名不用填。填好之后Save mapping, 插件会将这个mapping保存到hbase中,下次使用的时候直接取读这个mapping就不用再新建mapping了。
保存mapping后切回到configure query标签页,点Get mapped table names选择表名称,点Get mappings for the specified table 选择mapping名称,之后点击Get key/Fields info就可以在表格中看到字段信息了,至此hbase input插件配置完毕。
点击预览,就可以看到数据了,如下图,后面就可以愉快的使用hbase的数据了。
kettle读取hbase数据相关推荐
- kettle读取hbase
原文:https://blog.csdn.net/sujiangming/article/details/114376744?utm_medium=distribute.pc_aggpage_sear ...
- FlinkSQL读取Hbase数据
概述 最近项目中用到flink进行实时计算,流程为从kafka读取数据,如果是维度数据,则插入到hbase中,如果是需要实时计算的数据, 则进行实时计算,并将计算结果保存到MySQL中.在实时计算过程 ...
- Kettle 读取MySQL数据
1,你得有个用来连接MySQL的jar包 2,把它放在kettle的lib目录下 3,找到表输入 4,新建一个 5,填参数,然后测试 6,成功了 7,点击获取SQL查询语句,就可以查看表了 8,输入查 ...
- spark读取hbase数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInpu ...
- mongodb数据导入hbase,spark读取hbase数据分析
为什么80%的码农都做不了架构师?>>> 使用mavn管理相关依赖包pom.xml <project xmlns="http://maven.apache.or ...
- 7.读写HBase数据(华为云学习笔记,Spark编程基础,大数据)
读写HBase数据 ① 在hbase-shell中使用命令创建HBase数据库: ② 使用Spark读写HBase数据库中的数据. 实验原理 -> HBase HBase是一个高可靠.高性能.面 ...
- scala学习-scala读取Hbase表中数据并且做join连接查询
1.业务需求:sparkSQL on hbase ,sparkSQL直接读取Hbase中的两个表,进行连接查询. 2.图示 绿色的线 上图中绿色的线是做过测试的,直接在hive中建表,然后load数据 ...
- hbase数据读取优化_read读取优化_HBase最佳实践_HBase开发指南_云数据库 HBase - 阿里云...
其实HBase还是比较灵活的,关键看你是否使用得当,以下主要列举一些读的优化.HBase在生产中往往会遇到Full GC.进程OOM.RIT问题.读取延迟较大等一些问题,使用更好的硬件往往可以解决一部 ...
- 一招教你用Kettle整合大数据和Hive,HBase的环境!
上一篇博客<还不会使用大数据ETL工具Kettle,你就真的out了!>博主已经为大家介绍了Kettle简单的使用操作,也确实谈到了后面会出较复杂操作的教程,其中当数与大数据组件之前的一些 ...
最新文章
- (13)[Xamarin.Android] 不同分辨率下的图片使用概论
- 我的总结SVN的使用
- 攻防世界misc新手_[攻防世界]mobile新手练习区easy-apk
- 【计算机科学基础】整数和小数的进制转换
- 线性代数【12】矢量(向量) - 概念和专有名词
- html2canvas在不同设备生成图片大小不一致问题
- B站DR-CANup主电路系统建模_基尔霍夫定律的解题过程分析
- matlab将某点标红,Draw-a-rectangle-matlab 本程序在图像上指定位置话红色的矩形框作为标记 - 下载 - 搜珍网...
- 6.字符串截取数据求平均分
- 推荐10个趣味实战项目,从零入门人工智能和数据分析,看这篇就够了
- bex5 php,BeX5企业微信集成
- python微信小程序抢购教程_微信小程序系统教程[高级阶段]——python版电商系统...
- pandas安装报错
- android10.0连接wifi后提示“已连接,但无法访问互联网”
- MySQL面试核心25问(附答案),心有猛虎,细嗅蔷薇
- 计算机中的相对符号怎么按,丶符号怎么打-Mac里特殊符号的输入技巧
- 嘿,飞哥(F.R.E.C.O)!不一般的云联盟
- 战地2服务器主程序修改,战地2BOT数值怎么更改BOT数值如何更改_BOT数值更改教程_游戏城...
- 数据库与MPP数仓(十九):高效SQL
- 释放低代码原力,用友YonBuilder助力太湖云打造多云管理平台