Ambari

Apache Ambari是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。是Apache顶级开源项目之一,由Hortonworks公司开源。

Ø 官方网站地址:

http://ambari.apache.org/

Host节点
 在导航栏里点击Hosts进入节点列表页面,列表叶中显示各节点的概要信息。
 如果需要新增节点时,点击【Actions】-【Add New Hosts】按钮进入增加节点页面,进行相关配置
 点击节点名称可以进入到节点信息的页面中,其中左侧为当前节点安装的
服务组件及组件的部分操作,右侧为当前节点最近的资源消耗。

hadoop主要组件介绍:

HDFS

Ø HDFS是Hadoop的分布式文件系统,HDFS组件分为NameNode和DataNode,NameNode负责元数据文件信息的管理,DataNode负责存储数据文件。HDFS使用可以通过命令行的方式操作,也可以通过HDFS提供的API在程序中调用.
 API调用时需要指定HDFS的对外服务的url
 命令行的方式,登录到集群中任意节点,在命令行中使用 :
hadoop fs -【要操作的命令】+【操作内容】

Hbase

Ø HBase是一个分布式的、列式存储的开源数据库,HBase需要部署HBase Master和RegionServers。
 hbase的操作方法分为hbase shell和对外API两种方式等。
 hbase shell的方式为登录到集群节点中,使用名【hbase shell】进入hbase 的命令行界面,通过使用【get ‘表名’,‘rowkey’】、【scan ‘表名’,开始rowkey,结束rowkey】、【count】等命令进行操作。
 对外API的方式进行访问hbase多通过java的hbase client进行访问,其他语言可通过访问hbase 的thrift代理服务进行访问,python也可以通过使用hbase client的java jar包进行操作。
 下面是python使用第三方包happybase访问hbase的简单demo

import happybase

ZooKeeper:

Ø ZooKeeper是一个分布式的,分布式应用程序协调服务,多用于保证数据的一致性。hadoop生态中很多组件都依赖于ZooKeeper。

1.1.4. Kafka:

Ø Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。目前集群中主要使用kafka做为实时数据的缓冲层,除此以外,文件数据的收集也通过kafka作为异步调度的媒介。

kafka可以通过命令行操作也可通过api进行操作。Kafka的命令行操作如下:   在kafka的安装节点上,进入到【kafka安装目录】/bin文件夹下   创建topic命令:./kafka-topics.sh --create --zookeeper deepwind4:2131,deepwind3:2181,deepwind2:2181 --replication-factor 3 --partitions 3 --topic testTopic   参数【--zookeeper deepwind4:2181,deepwind3:2181,deepwind2:2181】指定了当前       topic注册到哪些zookeeper节点进行管理。   参数【--replication-factor 3 --partitions 3】设置了当前topic数据存于3个broker的        3个  分区中   参数【--topic testTopic】为创建的topic的名称   创建消费者命令:./kafka-console-consumer.sh --zookeeper deepwind4:2181,deepwind3:2181,deepwidn2:2181 --topic testMyRealTimeDataTopic

Flume

Ø 集群中kafka服务不对外网开放,文件上传异步调度信息由flume来完成,接收外网已上传的数据文件信息再转发到kafka对应的topic队列中。

Azkaban

Ø Azkaban是一款基于Java编写的任务调度系统,在集群中负责调度spark的离线计算任务。

Ø 参考资料:https://azkaban.github.io/

Hive

点位数据会定期从hbase中导出到hive中来存储,导出的文件使用压缩比很高的parquet类型文件进行存储,建模或数据分析等相关工作使用的数据从Hive中获取.

Hive在将parquet元数据文件映射成hive表时,需要使用parquet文件的schema,所以在导出成parquet文件时会分别生成元数据文件和schema文件,比如:存储的路径如下。

 数据文件:/deepwind/history/parquet/【省编号】/【市编号】/【数据时间】
 Schema文件:
/deepwind/history/parquetSchema/【省编号】/【市编号】/【数据时间】/schema

Pyspark

集群中的Jupyter notebook已经与pyspark集成,可以直接使用pyspark中的api进行编码,如下图中spark.sql的执行内容是通过pyspark api的spark sql访问集群中hive表数据,返回结果的数据类型为spark的DataFrame。

java hbase创建_hadoop组件介绍及python 连接Hbase相关推荐

  1. python链接hbase模块_HBase实战(1):使用Python连接Hbase数据库

    来源于 https://blog.csdn.net/duan_zhihua/java/article/details/80622166 使用Python连接Hbase数据库 1,Hbase下载. 下载 ...

  2. Python使用HappyBase连接Hbase与基本操作

    hbase基本概念可以参考:https://www.cnblogs.com/swordfall/p/8737328.html 文章目录 安装Hbase Python连接Hbase 1.创建.删除表结构 ...

  3. 简单介绍python连接telnet和ssh的两种方式

    本文主要介绍了python连接telnet和ssh的两种方式,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 Telnet 连接方式 #!/usr/bin/env p ...

  4. python hbase 报错by_【hbase】使用thrift with python 访问HBase

    HBase 版本: 0.98.6 thrift   版本: 0.9.0 使用 thrift client with python 连接 HBase 报错: 1 Traceback (most rece ...

  5. 【大数据】利用Python进行Hbase查询的简易指南

    一.基本信息 可用服务器IP:172.16.129.203 需要调用的Python扩展包:happybase.collections,分别用于与Hbase连接和字典计数. 查询前的准备需要在Linux ...

  6. python字符串连接操作-Python连接字符串过程详解

    这篇文章主要介绍了python连接字符串过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在python中,如果有多个字符串,想要连接在一起, ...

  7. Java连接HBASE数据库,创建一个表,删除一张表,修改表,输出插入,修改,数据删除,数据获取,显示表信息,过滤查询,分页查询,地理hash

    准备工作 1.创建Java的Maven项目 创建好的目录结构如下: 另外注意junit的版本,最好不要太高,最开始笔者使用的junit4.12的,发现运行的时候会报错.最后把Junit的版本改成4.7 ...

  8. python提取hbase数据_详解python操作hbase数据的方法介绍

    配置 thrift python使用的包 thrift 个人使用的python 编译器是pycharm community edition. 在工程中设置中,找到project interpreter ...

  9. hbase建索引java api_hbase创建索引

    1.代码 package Test05; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import ...

最新文章

  1. 树形选择排序的基本概念
  2. Qt学习一门:直接使用QT具
  3. JS解决在提交form表单时某个值不存在 alter弹窗点确定不刷新界面
  4. MySQL连接问题【如何解决MySQL连接超时关闭】
  5. Oracle中对现有表增加列
  6. ROS系统 常用命令行工具的使用
  7. Lotus Notes应用经验谈
  8. CSS基础(part19)--CSS3属性选择器
  9. IntelliJ IDEA启动Tomcat控制台乱码问题解决
  10. Adaboost原理和实例
  11. Sybase 事务和嵌套事务
  12. C++ malloc头文件
  13. Windows锁机病毒
  14. gateway集成swagger
  15. 【毕设】通过RGB识别红外图像火点(matlab)
  16. AWS KVS(Kinesis Video Streams)之WebRTC移植编译(四)
  17. 信奥一本通-动态规划-例9.2-数字金字塔-方法四-逆推法代码实现
  18. 我的世界服务器显示弹幕,我的世界直播弹幕模组
  19. Gstreamer中caps的intersect
  20. 解决Java调用Azure SDK证书错误javax.net.ssl.SSLHandshakeException

热门文章

  1. 卫星电视巨头DISH网络接受比特币现金支付
  2. react 执行 yarn build 页面无法显示
  3. oracle创建表+注释
  4. 这些优秀的国产分布式任务调度系统,你用过几个?
  5. centos 6.5下KVM环境搭建
  6. 1024. 科学计数法 (20)
  7. sparkSQL1.1入门之二:sparkSQL执行架构
  8. [转载]TFS测试管理
  9. javascript之变量,作用域和内存问题
  10. 超酷的Android 侧滑(双向滑动菜单)效果