大数据技术之HBase (一)
大数据技术之HBase (一)
1.简介
1.1什么是HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。
HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。
1.2 HBase特点
1)海量存储
Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。
2)列式存储
这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。
3)极易扩展
Hbase的扩展性主要体现在两个方面,一个是基于上层处理能力(RegionServer)的扩展,一个是基于存储的扩展(HDFS)。
通过横向添加RegionSever的机器,进行水平扩展,提升Hbase上层的处理能力,提升Hbsae服务更多Region的能力。
备注:RegionServer的作用是管理region、承接业务的访问,这个后面会详细的介绍通过横向添加Datanode的机器,进行存储层扩容,提升Hbase的数据存储能力和提升后端存储的读写能力。
4)高并发
由于目前大部分使用Hbase的架构,都是采用的廉价PC,因此单个IO的延迟其实并不小,一般在几十到上百ms之间。这里说的高并发,主要是在并发的情况下,Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。
5)稀疏
稀疏主要是针对Hbase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。
1.3 HBase架构
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-63I2rdmC-1607041064352)(D:\面试突击\images\HBase架构图.png)]
从图中可以看出Hbase是由Client、Zookeeper、Master、HRegionServer、HDFS等几个组件组成,下面来介绍一下几个组件的相关功能:
1)Client
Client包含了访问Hbase的接口,另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META.元数据的信息。
2) Zookeeper
HBase通过Zookeeper来做master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。具体工作如下:
通过Zoopkeeper来保证集群中只有1个master在运行,如果master异常,会通过竞争机制产生新的master提供服务;
通过Zoopkeeper来监控RegionServer的状态,当RegionSevrer有异常的时候,通过回调的形式通知Master RegionServer上下线的信息;
通过Zoopkeeper存储元数据的统一入口地址。
3)Hmaster
master节点的主要职责如下:
为RegionServer分配Region
维护整个集群的负载均衡
维护集群的元数据信息
发现失效的Region,并将失效的Region分配到正常的RegionServer上
当RegionSever失效的时候,协调对应Hlog的拆分
4)HregionServer
HregionServer直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如下:
管理master为其分配的Region
处理来自客户端的读写请求
负责和底层HDFS的交互,存储数据到HDFS
负责Region变大以后的拆分
负责Storefile的合并工作
5)HDFS
HDFS为Hbase提供最终的底层数据存储服务,同时为HBase提供高可用(Hlog存储在HDFS)的支持,具体功能概括如下:
提供元数据和表数据的底层分布式存储服务
数据多副本,保证的高可靠和高可用性
1.4 HBase中的角色
1) HMaster
功能
1.监控RegionServer
2.处理RegionServer故障转移
3.处理元数据的变更
4.处理region的分配或转移
5.在空闲时间进行数据的负载均衡
6.通过Zookeeper发布自己的位置给客户端
2) RegionServer
功能
1.负责存储HBase的实际数据
2.处理分配给它的Region
3.刷新缓存到HDFS
4.维护Hlog
5.执行压缩
6.负责处理Region分片
3) 其他组件
1.Write-Ahead logs
HBase的修改记录,当对HBase读写数据的时候,数据不是直接写进磁盘,它会在内存中保留一段时间(时间以及数据量阈值可以设定)。但把数据保存在内存中可能有更高的概率引起数据丢失,为了解决这个问题,数据会先写在一个叫做Write-Ahead logfile的文件中,然后再写入内存中。所以在系统出现故障的时候,数据可以通过这个日志文件重建。
2.Region
Hbase表的分片,HBase表会根据RowKey值被切分成不同的region存储在RegionServer中,在一个RegionServer中可以有多个不同的region。
3.Store
HFile存储在Store中,一个Store对应HBase表中的一个列族。
4.MemStore
顾名思义,就是内存存储,位于内存中,用来保存当前的数据操作,所以当数据保存在WAL中之后,RegsionServer会在内存中存储键值对。
5.HFile
这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。StoreFile是以Hfile的形式存储在HDFS的。
2.HBase安装
2.1 Zookeeper正常部署
2.2 Hadoop正常部署
2.3 HBase的配置文件
hbase-env.sh :
export JAVA_HOME=
export HBASE_MANAGES_ZK=false //关闭内部zk
hbase-site.xml :
hbase.rootdir : hdfs://hadoop102:9000/hbase //数据存储地址
hbase.cluster.distributed : true //开启集群模式
hbase.master.port :16000 //默认端口为60000
hbase.zookeeper.quorum //zookeeper集群
hbase.zookeeper.property.dataDir
regionservers :集群所有主机名称
软连接hadoop配置文件到hbase
2.4 启动:bin/start-hbase.sh
2.5 查看HBase页面 host:port
3.HBase Shell操作
3.1 基本操作
1.进入HBase客户端命令行: bin/hbase shell
2.查看帮助命令 :help
3.查看当前数据库中有哪些表 : list
3.2 表的操作
1.创建表 : create 表名 列族
2. 插入数据到表: put 表名 RowKey 列族:列 value
3. 扫描表查看数据: scan 表名
4. 查看表结构: describe 表名
5. 更新指定字段的数据: put 表名 RowKey 列族:列 value
6.查看“指定行”或“指定列族:列”的数据 : get 表名 RowKey 或 get 表名 RowKey 列族:列
7.统计表数据行数 : count 表名
8.删除数据
删除某rowkey的全部数据:deleteall 表名 RowKey
删除某rowkey的某一列数据:deleteall 表名 RowKey 列族:列
9.清空表数据: truncate 表名
提示:清空表的操作顺序为先disable,然后再truncate。
10.删除表
首先需要先让该表为disable状态:disable 表名
然后才能drop这个表: drop 表名
提示:如果直接drop表,会报错:ERROR: Table student is enabled. Disable it first.
11.变更表信息
将info列族中的数据存放3个版本:
hbase(main):022:0> alter ‘student’,{NAME=>‘info’,VERSIONS=>3} //指定列族
hbase(main):022:0> get ‘student’,‘1001’,{COLUMN=>‘info:name’,VERSIONS=>3} //指定列
4.HBase数据结构
4.1 RowKey
RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式:
1.通过单个RowKey访问
2.通过RowKey的range(正则)
3.全表扫描
RowKey行键(RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10-100bytes),在HBASE内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存储。设计RowKey时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)
4.2 Column Family
列族:HBASE表中的每个列,都归属于某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如 courses:history,courses:math都属于courses 这个列族。
4.3 Cell
由{rowkey, column Family:columu, version} 唯一确定的单元。cell中的数据是没有类型的,全部是字节码形式存贮。
关键字:无类型、字节码
4.4 Time Stamp
HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个cell都保存 着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由HBASE(在数据写入时自动)赋值,此时时间戳是精确到毫秒 的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版 本冲突,就必须自己生成具有唯一性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本,二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置。
大数据技术之HBase (一)相关推荐
- 【学习笔记】大数据技术之HBase
大数据技术之HBase 思考? 1. RegionServer和Master的区别? 2. Hbase端口 3. HBase写流程中,为什么要和zk进行交互? 第 1 章 HBase 简介 1.1 H ...
- 大数据技术之 HBase安装配置
大数据技术之 HBase安装 1.hbase依赖于hadoop以及zookeeper,所以 1.1 首先myhadoop.sh start 1.2 然后zk.sh start 接下来安装hbase 1 ...
- 大数据技术之 HBase简介
大数据技术之 HBase 第 1 章 HBase 简介 1.1 HBase 定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库. 1.2 HBase 数据模型 逻辑上,HB ...
- 大数据技术之HBase(超级详细)
大数据技术之HBase 第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持 ...
- 大数据技术之HBase(二)HBase原理简介
一.HBase定义 1.1 HBase定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库,基于列的模式存储.利用Hadoop HDFS作为其文件存储 ...
- 大数据技术之HBase原理与实战归纳分享-下
文章目录 整合Phoenix 定义 为何要使用 安装 SHELL操作 表的映射 简易JDBC示例 二级索引 二级索引配置文件 全局索引 包含索引 本地索引(local index) HBase与 Hi ...
- 大数据技术之HBase原理与实战归纳分享-中
文章目录 底层原理 Master架构 RegionServer架构 Region/Store/StoreFile/Hfile之间的关系 写流程 写缓存刷写 读流程 文件合并 分区 JAVA API编程 ...
- 大数据技术之HBase原理与实战归纳分享-上
文章目录 概述 定义 特点 数据模型 概述 逻辑结构 物理存储结构 数据模型 应用场景 基础架构 安装 前置条件 部署 启动服务 高可用 Shell操作 基础操作 命令空间 DDL DML 概述 定义 ...
- 大数据技术之HBase(一)HBase简介、HBase快速入门、HBase进阶
文章目录 1 HBase 简介 1.1 HBase 定义 1.2 HBase 数据模型 1.2.1 HBase 逻辑结构 1.2.2 HBase 物理存储结构 1.2.3 数据模型 1.3 HBase ...
最新文章
- 征服Perl——输入输出相关知识——里程碑M6
- ERROR 1136 (21S01): MySQL 的报错: 错误 1136(21S01): 列的计数 与 value 的计数 不相符 在第四行。
- mysql 主从二进制日志_Mysql-8 配置主从复制(基于二进制日志)
- XML文档的基本操作
- mysql 1418 存储过程_MySQL自定义函数 1418报错
- Win11键盘在哪里设置?Win11键盘的设置方法
- bzoj 2431: [HAOI2009]逆序对数列
- eclipse新建maven项目和聚合项目
- iview admin 使用爬坑
- 《C程序设计语言》笔记 目录
- 秒杀系统设计要点总结
- 笔记本计算机无法上无线网络,告诉你解决笔记本电脑连不上无线网络
- java高级用法之:绑定CPU的线程Thread-Affinity
- 计算机硬盘按数据传输,同时让多个硬盘轻松同步数据传输
- 大小写字母的ASCII的对照转换
- Android 通过AlarmClock设置系统闹钟
- 【论文精读】Robust Alignment for Panoramic Stitching Via an Exact Rank Constraint
- 煤化工工控网络安全解决方案 第一部分
- 含protobuf程序运行时与libqgtk3.0.so冲突
- 【Ext.Net学习笔记】03:Ext.Net DirectEvents用法详解、DirectMethods用法详解
热门文章
- java(double/float)向上取整,向下取整,四舍五入
- 【算法学习笔记十】NP问题
- 解析机器人与人类情感共鸣的主观意识
- 超搞笑的设计模式诠释(绝对经典)
- Windows10在PowerShell中启动Redis
- Apollo 3 plus GPIO配置
- RHCE8学习指南第一章 安装RHEL8.4
- 表单短标题(2、3、4个字)的两端对齐- HTML + CSS
- sess.run()内存溢出
- 【论文阅读】BPR: Bayesian personalized ranking from implicit feedback