HFile 结构

在了解读流程之前，需要先知道读取的数据是什么样子的。

HFile 是存储在 HDFS 上面每一个 store 文件夹下实际存储数据的文件。里面存储多种内容。包括数据本身（keyValue 键值对）、元数据记录、文件信息、数据索引、元数据索引和一个固定长度的尾部信息（记录文件的修改情况）。
键值对按照块大小（默认 64K）保存在文件中，数据索引按照块创建，块越多，索引越大。每一个 HFile 还会维护一个布隆过滤器（就像是一个很大的地图，文件中每有一种 key，就在对应的位置标记，读取时可以大致判断要 get 的 key 是否存在 HFile 中）。

KeyValue 内容如下:
rowlength -----------→ key 的长度
row -----------------→ key 的值
columnfamilylength --→ 列族长度
columnfamily --------→ 列族
columnqualifier -----→ 列名
timestamp -----------→ 时间戳（默认系统时间）
keytype -------------→ Put

由于 HFile 存储经过序列化，所以无法直接查看。可以通过 HBase 提供的命令来查看存储在 HDFS 上面的 HFile 元数据内容。

[root@hadoop102 hbase]$ bin/hbase hfile -m -f /hbase/data/命名空间/表名/regionID/列族/HFile 名

例：

hbase hfile -m -f /hbase/data/bigdata/student/811866d967083e21953306315078fbcb/info/0e6969de9f8d4f3a99262b3eaf3b75d0

Hbase中Region/Store/StoreFile/Hfile之间的关系

读流程

（1）首先访问 zookeeper，获取 hbase:meta 表位于哪个 Region Server；
（2）访问对应的 Region Server，获取 hbase:meta 表，将其缓存到连接中，作为连接属性 MetaCache，由于 Meta 表格具有一定的数据量，导致了创建连接比较慢；之后使用创建的连接获取 Table，这是一个轻量级的连接，只有在第一次创建的时候会检查表格是否存在访问 RegionServer，之后在获取 Table 时不会访问 RegionServer；

（3）创建 Table 对象发送 get 请求。
（4）优先访问 Block Cache，查找是否之前读取过，并且可以读取 HFile 的索引信息和布隆过滤器。
（5）不管读缓存中是否已经有数据了（可能已经过期了），都需要再次读取写缓存和store 中的文件。
（6）最终将所有读取到的数据合并版本，按照 get 的要求返回即可。

合并读取数据优化

每次读取数据都需要读取三个位置，最后进行版本的合并。效率会非常低，所有系统需要对此优化。
（1）HFile 带有索引文件，读取对应 RowKey 数据会比较快。
（2）Block Cache 会缓存之前读取的内容和元数据信息，如果 HFile 没有发生变化（记录在 HFile 尾信息中），则不需要再次读取。
（3）使用布隆过滤器能够快速过滤当前 HFile 不存在需要读取的 RowKey，从而避免读取文件。（布隆过滤器使用 HASH 算法，不是绝对准确的，出错会造成多扫描一个文件，对读取数据结果没有影响）

HBase2.x（十一）HBase 读流程相关推荐

HBase读写流程、flush、文件合并、region拆分
HBase存储原理(架构) HBase依赖于Zookeeper和Hadoop的,所以在启动HBase前需要启动Zookeeper和Hadoop. HMaster用于管理整个HBase集群,即管理每个H ...
如何像海豚一样在数据海洋里遨游？｜Hbase数据处理流程详解
写在前面:我是「且听风吟」,目前是某上市游戏公司的大数据开发工程师,热爱大数据开源技术,喜欢分享自己的所学所悟,现阶段正在从头梳理大数据体系的知识,以后将会把时间重点放在Spark和Flink上面. ...
Rocksdb 写流程,读流程,WAL文件,MANIFEST文件,ColumnFamily,Memtable,SST文件原理详解
文章目录前言 Rocksdb写流程图 WAL 原理分析概述文件格式查看WAL的工具创建WAL 清理WAL MANIFEST原理分析概述查看MANIFEST的工具创建及清除 MANI ...
HDFS读流程，写流程，放置策略
1.HDFS写流程 [hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -put LICENSE.txt / 19/02/20 21:30:22 WA ...
F2FS源码分析-2.3 [F2FS 读写部分] F2FS的一般文件读流程分析
F2FS源码分析系列文章主目录一.文件系统布局以及元数据结构二.文件数据的存储以及读写 F2FS文件数据组织方式一般文件写流程一般文件读流程目录文件读流程(未完成) 目录文件写流程(未完成 ...
Hadoop-HDFS（一）读流程
个人理解,各位大牛可以把自己的理解分享一下!小弟会认真看每一个大牛的留言 HDFS读流程 . 如图(图是别人的)所示:1.使用HDFS提供的客户端Client 向NameNode(个人理解为数据的管理 ...
TiDB读流程概述，一张图搞明白
tidb的三大模块的功能就不赘述了,先要有这些知识的基础,不然看着肯定会有疑惑: 对比tibd的SQL读流程其实和MySQL的主流程主提一样,因为tidb也是兼容MySQL协议的,如果你多MySQL的 ...
HBase读取流程（源码角度）
HBase数据读取流程 1.hbase数据读取流程简单描述一般来说,在描述hbase读取流程的时候,简单的描述如下: 1.客户端从zookeeper中获取meta表所在的regionserv ...
hadoop 读流程和写流程
hadoop HDFD读流程 hadoop HDFD写流程package com.lhj.hadoop;import java.io.BufferedReader; import java.io.IO ...

HBase2.x（十一）HBase 读流程

文章目录

HFile 结构

读流程

合并读取数据优化

HBase2.x（十一）HBase 读流程相关推荐

最新文章

热门文章