大数据技术之HBase (一)

1.简介

1.1什么是HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。

HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。

1.2 HBase特点

1)海量存储

Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。

2)列式存储

这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。

3)极易扩展

Hbase的扩展性主要体现在两个方面,一个是基于上层处理能力(RegionServer)的扩展,一个是基于存储的扩展(HDFS)。
通过横向添加RegionSever的机器,进行水平扩展,提升Hbase上层的处理能力,提升Hbsae服务更多Region的能力。

备注:RegionServer的作用是管理region、承接业务的访问,这个后面会详细的介绍通过横向添加Datanode的机器,进行存储层扩容,提升Hbase的数据存储能力和提升后端存储的读写能力。

4)高并发

由于目前大部分使用Hbase的架构,都是采用的廉价PC,因此单个IO的延迟其实并不小,一般在几十到上百ms之间。这里说的高并发,主要是在并发的情况下,Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。

5)稀疏

稀疏主要是针对Hbase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。

1.3 HBase架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-63I2rdmC-1607041064352)(D:\面试突击\images\HBase架构图.png)]

从图中可以看出Hbase是由Client、Zookeeper、Master、HRegionServer、HDFS等几个组件组成,下面来介绍一下几个组件的相关功能:

1)Client

Client包含了访问Hbase的接口,另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META.元数据的信息。

2) Zookeeper

HBase通过Zookeeper来做master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。具体工作如下:

通过Zoopkeeper来保证集群中只有1个master在运行,如果master异常,会通过竞争机制产生新的master提供服务;

通过Zoopkeeper来监控RegionServer的状态,当RegionSevrer有异常的时候,通过回调的形式通知Master RegionServer上下线的信息;

通过Zoopkeeper存储元数据的统一入口地址。

3Hmaster

master节点的主要职责如下:
为RegionServer分配Region
维护整个集群的负载均衡
维护集群的元数据信息
发现失效的Region,并将失效的Region分配到正常的RegionServer上
当RegionSever失效的时候,协调对应Hlog的拆分

4HregionServer

HregionServer直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如下:
管理master为其分配的Region
处理来自客户端的读写请求
负责和底层HDFS的交互,存储数据到HDFS
负责Region变大以后的拆分
负责Storefile的合并工作

5HDFS

HDFS为Hbase提供最终的底层数据存储服务,同时为HBase提供高可用(Hlog存储在HDFS)的支持,具体功能概括如下:
提供元数据和表数据的底层分布式存储服务
数据多副本,保证的高可靠和高可用性

1.4 HBase中的角色

1) HMaster

功能

1.监控RegionServer

2.处理RegionServer故障转移

3.处理元数据的变更

4.处理region的分配或转移

5.在空闲时间进行数据的负载均衡

6.通过Zookeeper发布自己的位置给客户端

2) RegionServer

功能

1.负责存储HBase的实际数据

2.处理分配给它的Region

3.刷新缓存到HDFS

4.维护Hlog

5.执行压缩

6.负责处理Region分片

3) 其他组件

1.Write-Ahead logs

HBase的修改记录,当对HBase读写数据的时候,数据不是直接写进磁盘,它会在内存中保留一段时间(时间以及数据量阈值可以设定)。但把数据保存在内存中可能有更高的概率引起数据丢失,为了解决这个问题,数据会先写在一个叫做Write-Ahead logfile的文件中,然后再写入内存中。所以在系统出现故障的时候,数据可以通过这个日志文件重建。

2.Region

Hbase表的分片,HBase表会根据RowKey值被切分成不同的region存储在RegionServer中,在一个RegionServer中可以有多个不同的region。

3.Store

HFile存储在Store中,一个Store对应HBase表中的一个列族。

4.MemStore

顾名思义,就是内存存储,位于内存中,用来保存当前的数据操作,所以当数据保存在WAL中之后,RegsionServer会在内存中存储键值对。

5.HFile

这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。StoreFile是以Hfile的形式存储在HDFS的。

2.HBase安装

2.1 Zookeeper正常部署

2.2 Hadoop正常部署

2.3 HBase的配置文件

hbase-env.sh :

​ export JAVA_HOME=

​ export HBASE_MANAGES_ZK=false //关闭内部zk

hbase-site.xml :

​ hbase.rootdir : hdfs://hadoop102:9000/hbase //数据存储地址

​ hbase.cluster.distributed : true //开启集群模式

​ hbase.master.port :16000 //默认端口为60000

​ hbase.zookeeper.quorum //zookeeper集群

​ hbase.zookeeper.property.dataDir

regionservers :集群所有主机名称

软连接hadoop配置文件到hbase

2.4 启动:bin/start-hbase.sh

2.5 查看HBase页面 host:port

3.HBase Shell操作

3.1 基本操作

1.进入HBase客户端命令行: bin/hbase shell

2.查看帮助命令 :help

3.查看当前数据库中有哪些表 : list

3.2 表的操作

1.创建表 : create 表名 列族

2. 插入数据到表: put 表名 RowKey 列族:列 value

3. 扫描表查看数据: scan 表名

4. 查看表结构: describe 表名

5. 更新指定字段的数据: put 表名 RowKey 列族:列 value

6.查看“指定行”或“指定列族:列”的数据 : get 表名 RowKey 或 get 表名 RowKey 列族:列

7.统计表数据行数 : count 表名

8.删除数据

​ 删除某rowkey的全部数据:deleteall 表名 RowKey

​ 删除某rowkey的某一列数据:deleteall 表名 RowKey 列族:列

9.清空表数据: truncate 表名

​ 提示:清空表的操作顺序为先disable,然后再truncate。

10.删除表

​ 首先需要先让该表为disable状态:disable 表名

​ 然后才能drop这个表: drop 表名

提示:如果直接drop表,会报错:ERROR: Table student is enabled. Disable it first.

11.变更表信息

​ 将info列族中的数据存放3个版本:

​ hbase(main):022:0> alter ‘student’,{NAME=>‘info’,VERSIONS=>3} //指定列族

​ hbase(main):022:0> get ‘student’,‘1001’,{COLUMN=>‘info:name’,VERSIONS=>3} //指定列

4.HBase数据结构

4.1 RowKey

RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式:

1.通过单个RowKey访问

2.通过RowKey的range(正则)

3.全表扫描

RowKey行键(RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10-100bytes),在HBASE内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存储。设计RowKey时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)

4.2 Column Family

列族:HBASE表中的每个列,都归属于某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如 courses:history,courses:math都属于courses 这个列族。

4.3 Cell

由{rowkey, column Family:columu, version} 唯一确定的单元。cell中的数据是没有类型的,全部是字节码形式存贮。

关键字:无类型、字节码

4.4 Time Stamp

HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个cell都保存 着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由HBASE(在数据写入时自动)赋值,此时时间戳是精确到毫秒 的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版 本冲突,就必须自己生成具有唯一性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本,二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置。

大数据技术之HBase (一)相关推荐

  1. 【学习笔记】大数据技术之HBase

    大数据技术之HBase 思考? 1. RegionServer和Master的区别? 2. Hbase端口 3. HBase写流程中,为什么要和zk进行交互? 第 1 章 HBase 简介 1.1 H ...

  2. 大数据技术之 HBase安装配置

    大数据技术之 HBase安装 1.hbase依赖于hadoop以及zookeeper,所以 1.1 首先myhadoop.sh start 1.2 然后zk.sh start 接下来安装hbase 1 ...

  3. 大数据技术之 HBase简介

    大数据技术之 HBase 第 1 章 HBase 简介 1.1 HBase 定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库. 1.2 HBase 数据模型 逻辑上,HB ...

  4. 大数据技术之HBase(超级详细)

    大数据技术之HBase 第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持 ...

  5. 大数据技术之HBase(二)HBase原理简介

    一.HBase定义 1.1 HBase定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库,基于列的模式存储.利用Hadoop HDFS作为其文件存储 ...

  6. 大数据技术之HBase原理与实战归纳分享-下

    文章目录 整合Phoenix 定义 为何要使用 安装 SHELL操作 表的映射 简易JDBC示例 二级索引 二级索引配置文件 全局索引 包含索引 本地索引(local index) HBase与 Hi ...

  7. 大数据技术之HBase原理与实战归纳分享-中

    文章目录 底层原理 Master架构 RegionServer架构 Region/Store/StoreFile/Hfile之间的关系 写流程 写缓存刷写 读流程 文件合并 分区 JAVA API编程 ...

  8. 大数据技术之HBase原理与实战归纳分享-上

    文章目录 概述 定义 特点 数据模型 概述 逻辑结构 物理存储结构 数据模型 应用场景 基础架构 安装 前置条件 部署 启动服务 高可用 Shell操作 基础操作 命令空间 DDL DML 概述 定义 ...

  9. 大数据技术之HBase(一)HBase简介、HBase快速入门、HBase进阶

    文章目录 1 HBase 简介 1.1 HBase 定义 1.2 HBase 数据模型 1.2.1 HBase 逻辑结构 1.2.2 HBase 物理存储结构 1.2.3 数据模型 1.3 HBase ...

最新文章

  1. 征服Perl——输入输出相关知识——里程碑M6
  2. ERROR 1136 (21S01): MySQL 的报错: 错误 1136(21S01): 列的计数 与 value 的计数 不相符 在第四行。
  3. mysql 主从二进制日志_Mysql-8 配置主从复制(基于二进制日志)
  4. XML文档的基本操作
  5. mysql 1418 存储过程_MySQL自定义函数 1418报错
  6. Win11键盘在哪里设置?Win11键盘的设置方法
  7. bzoj 2431: [HAOI2009]逆序对数列
  8. eclipse新建maven项目和聚合项目
  9. iview admin 使用爬坑
  10. 《C程序设计语言》笔记 目录
  11. 秒杀系统设计要点总结
  12. 笔记本计算机无法上无线网络,告诉你解决笔记本电脑连不上无线网络
  13. java高级用法之:绑定CPU的线程Thread-Affinity
  14. 计算机硬盘按数据传输,同时让多个硬盘轻松同步数据传输
  15. 大小写字母的ASCII的对照转换
  16. Android 通过AlarmClock设置系统闹钟
  17. 【论文精读】Robust Alignment for Panoramic Stitching Via an Exact Rank Constraint
  18. 煤化工工控网络安全解决方案 第一部分
  19. 含protobuf程序运行时与libqgtk3.0.so冲突
  20. 【Ext.Net学习笔记】03:Ext.Net DirectEvents用法详解、DirectMethods用法详解

热门文章

  1. java(double/float)向上取整,向下取整,四舍五入
  2. 【算法学习笔记十】NP问题
  3. 解析机器人与人类情感共鸣的主观意识
  4. 超搞笑的设计模式诠释(绝对经典)
  5. Windows10在PowerShell中启动Redis
  6. Apollo 3 plus GPIO配置
  7. RHCE8学习指南第一章 安装RHEL8.4
  8. 表单短标题(2、3、4个字)的两端对齐- HTML + CSS
  9. sess.run()内存溢出
  10. 【论文阅读】BPR: Bayesian personalized ranking from implicit feedback