java hbase创建_hadoop组件介绍及python 连接Hbase
Ambari
Apache Ambari是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。是Apache顶级开源项目之一,由Hortonworks公司开源。
Ø 官方网站地址:
http://ambari.apache.org/
Host节点
在导航栏里点击Hosts进入节点列表页面,列表叶中显示各节点的概要信息。
如果需要新增节点时,点击【Actions】-【Add New Hosts】按钮进入增加节点页面,进行相关配置
点击节点名称可以进入到节点信息的页面中,其中左侧为当前节点安装的
服务组件及组件的部分操作,右侧为当前节点最近的资源消耗。
hadoop主要组件介绍:
HDFS
Ø HDFS是Hadoop的分布式文件系统,HDFS组件分为NameNode和DataNode,NameNode负责元数据文件信息的管理,DataNode负责存储数据文件。HDFS使用可以通过命令行的方式操作,也可以通过HDFS提供的API在程序中调用.
API调用时需要指定HDFS的对外服务的url
命令行的方式,登录到集群中任意节点,在命令行中使用 :
hadoop fs -【要操作的命令】+【操作内容】
Hbase
Ø HBase是一个分布式的、列式存储的开源数据库,HBase需要部署HBase Master和RegionServers。
hbase的操作方法分为hbase shell和对外API两种方式等。
hbase shell的方式为登录到集群节点中,使用名【hbase shell】进入hbase 的命令行界面,通过使用【get ‘表名’,‘rowkey’】、【scan ‘表名’,开始rowkey,结束rowkey】、【count】等命令进行操作。
对外API的方式进行访问hbase多通过java的hbase client进行访问,其他语言可通过访问hbase 的thrift代理服务进行访问,python也可以通过使用hbase client的java jar包进行操作。
下面是python使用第三方包happybase访问hbase的简单demo
import happybase
ZooKeeper:
Ø ZooKeeper是一个分布式的,分布式应用程序协调服务,多用于保证数据的一致性。hadoop生态中很多组件都依赖于ZooKeeper。
1.1.4. Kafka:
Ø Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。目前集群中主要使用kafka做为实时数据的缓冲层,除此以外,文件数据的收集也通过kafka作为异步调度的媒介。
kafka可以通过命令行操作也可通过api进行操作。Kafka的命令行操作如下: 在kafka的安装节点上,进入到【kafka安装目录】/bin文件夹下 创建topic命令:./kafka-topics.sh --create --zookeeper deepwind4:2131,deepwind3:2181,deepwind2:2181 --replication-factor 3 --partitions 3 --topic testTopic 参数【--zookeeper deepwind4:2181,deepwind3:2181,deepwind2:2181】指定了当前 topic注册到哪些zookeeper节点进行管理。 参数【--replication-factor 3 --partitions 3】设置了当前topic数据存于3个broker的 3个 分区中 参数【--topic testTopic】为创建的topic的名称 创建消费者命令:./kafka-console-consumer.sh --zookeeper deepwind4:2181,deepwind3:2181,deepwidn2:2181 --topic testMyRealTimeDataTopic
Flume
Ø 集群中kafka服务不对外网开放,文件上传异步调度信息由flume来完成,接收外网已上传的数据文件信息再转发到kafka对应的topic队列中。
Azkaban
Ø Azkaban是一款基于Java编写的任务调度系统,在集群中负责调度spark的离线计算任务。
Ø 参考资料:https://azkaban.github.io/
Hive
点位数据会定期从hbase中导出到hive中来存储,导出的文件使用压缩比很高的parquet类型文件进行存储,建模或数据分析等相关工作使用的数据从Hive中获取.
Hive在将parquet元数据文件映射成hive表时,需要使用parquet文件的schema,所以在导出成parquet文件时会分别生成元数据文件和schema文件,比如:存储的路径如下。
数据文件:/deepwind/history/parquet/【省编号】/【市编号】/【数据时间】
Schema文件:
/deepwind/history/parquetSchema/【省编号】/【市编号】/【数据时间】/schema
Pyspark
集群中的Jupyter notebook已经与pyspark集成,可以直接使用pyspark中的api进行编码,如下图中spark.sql的执行内容是通过pyspark api的spark sql访问集群中hive表数据,返回结果的数据类型为spark的DataFrame。
java hbase创建_hadoop组件介绍及python 连接Hbase相关推荐
- python链接hbase模块_HBase实战(1):使用Python连接Hbase数据库
来源于 https://blog.csdn.net/duan_zhihua/java/article/details/80622166 使用Python连接Hbase数据库 1,Hbase下载. 下载 ...
- Python使用HappyBase连接Hbase与基本操作
hbase基本概念可以参考:https://www.cnblogs.com/swordfall/p/8737328.html 文章目录 安装Hbase Python连接Hbase 1.创建.删除表结构 ...
- 简单介绍python连接telnet和ssh的两种方式
本文主要介绍了python连接telnet和ssh的两种方式,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 Telnet 连接方式 #!/usr/bin/env p ...
- python hbase 报错by_【hbase】使用thrift with python 访问HBase
HBase 版本: 0.98.6 thrift 版本: 0.9.0 使用 thrift client with python 连接 HBase 报错: 1 Traceback (most rece ...
- 【大数据】利用Python进行Hbase查询的简易指南
一.基本信息 可用服务器IP:172.16.129.203 需要调用的Python扩展包:happybase.collections,分别用于与Hbase连接和字典计数. 查询前的准备需要在Linux ...
- python字符串连接操作-Python连接字符串过程详解
这篇文章主要介绍了python连接字符串过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在python中,如果有多个字符串,想要连接在一起, ...
- Java连接HBASE数据库,创建一个表,删除一张表,修改表,输出插入,修改,数据删除,数据获取,显示表信息,过滤查询,分页查询,地理hash
准备工作 1.创建Java的Maven项目 创建好的目录结构如下: 另外注意junit的版本,最好不要太高,最开始笔者使用的junit4.12的,发现运行的时候会报错.最后把Junit的版本改成4.7 ...
- python提取hbase数据_详解python操作hbase数据的方法介绍
配置 thrift python使用的包 thrift 个人使用的python 编译器是pycharm community edition. 在工程中设置中,找到project interpreter ...
- hbase建索引java api_hbase创建索引
1.代码 package Test05; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import ...
最新文章
- 树形选择排序的基本概念
- Qt学习一门:直接使用QT具
- JS解决在提交form表单时某个值不存在 alter弹窗点确定不刷新界面
- MySQL连接问题【如何解决MySQL连接超时关闭】
- Oracle中对现有表增加列
- ROS系统 常用命令行工具的使用
- Lotus Notes应用经验谈
- CSS基础(part19)--CSS3属性选择器
- IntelliJ IDEA启动Tomcat控制台乱码问题解决
- Adaboost原理和实例
- Sybase 事务和嵌套事务
- C++ malloc头文件
- Windows锁机病毒
- gateway集成swagger
- 【毕设】通过RGB识别红外图像火点(matlab)
- AWS KVS(Kinesis Video Streams)之WebRTC移植编译(四)
- 信奥一本通-动态规划-例9.2-数字金字塔-方法四-逆推法代码实现
- 我的世界服务器显示弹幕,我的世界直播弹幕模组
- Gstreamer中caps的intersect
- 解决Java调用Azure SDK证书错误javax.net.ssl.SSLHandshakeException