目录

  • 1 HBase 简介
    • 1.1 HBase 定义
    • 1.2 HBase 数据模型
      • 1.2.1 HBase 逻辑结构
      • 1.2.2 HBase 物理存储结构
      • 1.2.3 数据模型
      • 1.2.4 较容易的理解方式
      • 1.2.5 概念模型
    • 1.3 HBase 基本架构
    • 1.3 HBase 基本架构

1 HBase 简介

1.1 HBase 定义

Google的三大马车 Google fs + Map Reduce + Big Table
开源Java实现 HDFS Hadoop Hbase

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。这东西数据量大就体现出优势了,因为数据量小非常吃内存,他要不断拆分并且和数据也是十分消耗资源的,但是数据量非常大的时候比如几十亿条数据这时候可以做到秒级查询定位到某一条数据,同时也可以增删改查非常快,但是这是资源换时间的一种方式。

面试介绍:

  • 提供表状的面向列的数据存储
  • 针对表状数据的随机读写进行优化
  • 使用key-value操作数据
  • 提供灵活的数据模型
  • 使用表状存储,支持MapReduce,依赖HDFS
  • 优化了多次读,以及多次写

1.2 HBase 数据模型

逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。
但从 HBase 的底层物理存储结构(K-V)来看,键唯一,重复是更新覆盖操作,HBase 更像是一个 multi-dimensional map。

顺序读写:文件指针只能从头移动到尾。
随机读写:文件指针可以随意移动,根据需要。

1.2.1 HBase 逻辑结构

字典序的键名排序,到时候切开是分区进行索引方便查询,必须要有主键

1.2.2 HBase 物理存储结构

个人简单理解:rowkey:唯一标识,列族:所有字段的总称,列标识:单独的每个字段,然后找到对应的值,列存储,方便找到比如city是北京的所有人不必要全表扫描,速度是mysql的50-100倍左右

时间戳非常重要,因为随机写也是时间戳为关键,所以linux和windows要配套。下面的两个只是修改的不同版本。到时候需要cell才能确定唯一标识
先读行rowkey,然后找到列族,然后再找列Column Qualifier(列限定符),最后读取时间戳,这样才能确定一个值.

1.2.3 数据模型

1)Name Space
命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。

2)Region

类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往 HBase 写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。

3)Row HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey
的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。

rowkey行键 一行数据的标识有点像一条数据的id,在实际应用中也是id的存在

4)Column HBase 中的每个列都由 Column Family(列族)和 Column Qualifier(列限定符)进行限
定,例如 info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。

列蔟(Column Family)

5)Time Stamp
用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会
自动为其加上该字段,其值为写入 HBase 的时间。

6)Cell 由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell 中的数
据是没有类型的,全部是字节码形式存贮。

1.2.4 较容易的理解方式

在HBASE中,数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样,但将HBASE
表看成是多个维度的Map结构更容易理解。

{"zzzzz" : "woot",
"xyz" : "hello",
"aaaab" : "world",
"1" : "x",
"aaaaa" : "y"
}

1.2.5 概念模型

⚫ 上述表格有两行、三个列蔟(contens、ancho、people)
⚫ “com.cnn.www”这一行anchor列蔟两个列(anchor:cssnsi.com、anchor:my.look.ca)、
contents列蔟有个1个列(html)
⚫ “com.cnn.www”在HBase中有 t3、t5、t6、t8、t9 5个版本的数据
⚫ HBase中如果某一行的列被更新的,那么最新的数据会排在最前面,换句话说同一个rowkey
的数据是按照倒序排序的

1.3 HBase 基本架构

1.3 HBase 基本架构


架构角色:

1)Region Server
Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下:
对于数据的操作:get, put, delete;
对于 Region 的操作:splitRegion、compactRegion。
2)Master
Master 是所有 Region Server 的管理者,其实现类为 HMaster,主要作用如下:
对于表的操作:create, delete, alter
对于 RegionServer的操作:分配 regions到每个RegionServer,监控每个 RegionServer
的状态,负载均衡和故障转移。
3)Zookeeper
HBase 通过 Zookeeper 来做 Master 的高可用、RegionServer 的监控、元数据的入口以及
集群配置的维护等工作不用考虑谁是master,谁抢到zookeeper谁就是。
4)HDFS
HDFS 为 HBase 提供最终的底层数据存储服务,同时为 HBase 提供高可用的支持。

大数据HBase入门相关推荐

  1. 2021年大数据HBase(十):Apache Phoenix的基本入门操作

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Apache Phoenix的基本入门操作 一.Pho ...

  2. 2021年大数据HBase(十六):HBase的协处理器(Coprocessor)

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的协处理器(Coprocessor) 一.起源 二 ...

  3. 2021年大数据HBase(十五):HBase的Bulk Load批量加载操作

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的Bulk Load批量加载操作 一.Bulk L ...

  4. 2021年大数据HBase(十四):HBase的原理及其相关的工作机制

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的原理及其相关的工作机制 一.HBase的flus ...

  5. 2021年大数据HBase(十三):HBase读取和存储数据的流程

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase读取和存储数据的流程 一.HBase读取数据的流程 ...

  6. 2021年大数据HBase(十二):Apache Phoenix 二级索引

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Apache Phoenix 二级索引 一.索引分类 ...

  7. 2021年大数据HBase(十一):Apache Phoenix的视图操作

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Apache Phoenix的视图操作 一.应用场景 ...

  8. 2021年大数据HBase(九):Apache Phoenix的安装

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 前言 系列历史文章 安装Phoenix 一.下载 二.安装 1.上传安装包 ...

  9. 2021年大数据HBase(八):Apache Phoenix的基本介绍

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 前言 系列历史文章 Apache Phoenix的基本介绍 Apache ...

最新文章

  1. 如何连接mongodb数据库,并且从中查找数据
  2. Linux学习笔记(一):常用命令(2)
  3. C++判断exe是32位还是64位
  4. JavaWeb黑马旅游网-学习笔记01【准备工作】
  5. Java中final关键字的几种用法
  6. aws 删除ec2实例_如何在AWS中启动EC2实例
  7. 开发第一个spring boot应用
  8. java 轻量数据库_DBTree是一个springboot2 + vue-element-template实现的轻量数据库表结构查看及管理工具...
  9. 四则运算编程题第二版
  10. 系统签名缺少libconscrypt_openjdk_jni.so解决
  11. [译] MDC-103 Flutter: Material Theming 的颜色、形状、高度和类型(Flutter)
  12. 猜数字小游戏(加强版)它来了
  13. 7-2 整数的因子 (10 分)
  14. 解决charles代理手机请求后,手机无法上网问题
  15. css动画效果轮播图片
  16. 如何将OGV格式的视频转换成MP4格式
  17. 【水滴云|热点】个人信息安全有法可依,海量数据用IPFS存储
  18. java实现单链表的建立(头插法和尾插法)
  19. 项目 - 基于Docker Swarm的高可用Web集群
  20. python项目对接腾讯云发送短信

热门文章

  1. 机器人中的数值优化之凸函数
  2. 《STM32单片机开发应用教程(HAL库版)—基于国信长天嵌入式竞赛实训平台(CT117E-M4)》第四章4.9 TIM---输入捕获(脉冲频率测量)实验
  3. 指针类型和指向的数据类型
  4. 2019年 团体程序设计天梯赛——题解集
  5. HTML里的a链接download 属性浏览器js点击下载图片
  6. Unity3D学习笔记——RigidBody(刚体)
  7. GO语言实现P2P网络-客户端实现并且运行和测试
  8. 直播预告 | openGauss自治运维能力的技术演进分享
  9. 【新华三网络工程师】H3C如何配置三层组网技术
  10. 今天北京的天空是湛蓝的