java大数据组件HBase

什么是HBase：
1. 是一个非关系型数据库（稀疏矩阵）
  1. 关系型数据库：有固定的列，每一列的数据类型明确
  2. 非结构化数据，半结构化数据。
2. 存储的目标数据
  1. 数据量大
  2. 结构简单
  3. 基于key的快速查找能力
  4. 可以面向列进行查询
3. 为什么要有hbase，为什么不用hdfs：
  1. 因为hdfs适用的场景是海量的数据批读写，不支持海量数据中的个别数据修改
  2. 而Hbase支持在海量数据中，修改某一个数据。
  3. Hbase的快，是相对于hdfs来说的。
数据仓库的特点
1. 面向主题：每一种数据分析的方向都有对应的主题，主题是一个抽象的概念，主题不是固定的。
2. 数据集成：任何一个主题的数据，最好是可以轻易的集成在一起。
3. 非易失：用于保存历史归档数据，同时也是增量数据。
4. 反应历史变化：通常不会删，会一直保存下去
hbase的数据结构
1. 逻辑结构
  1. 列族：多个列的组合
    1. 在数据底层当中，各个列族之间，数据是分开存储的。
  2. 列：一个列族下有若干的列
    1. 注意：hbase的列，没有数据类型，都是string
    2. 不需要在建表时声明
  3. 行：rowkey
    1. 所有的列族，所有的列，都可以引用同一个行号，但是不强制要求各个行之间对应
    2. 可以当做索引用
    3. 按字典顺序排序的
    4. 要在hbase当中查某一行，只能通过行号来查，因为hbase是基于列数据进行查询的。但是行号是可以过滤的，行号是可以随意设置的。可以把某个常用列的值作为key的一部分，方便过滤。
    5. Hbase是有分区的，同一行数据，只会出现在一个分区当中
    6. 一个分区中有若干的Store，一个Store中保存一个列族
物理结构
1. 物理存储结构，即在物理文件当中，hbase数据的存储格式。
2. hbase是基于列进行查询的，任何一个字段单元格都是一个独立的数据。
  1. Rowkey
  2. 列族名
  3. 列名
  4. 时间戳
  5. 操作类型
  6. 值
  7. 版本号
3. 在hbase当中没有真正意义上的update，所谓的修改和删除，是追加了一条数据，已最新的时间戳来显示。如果是删除数据，会将该数据的类型改为delete，删除的数据不会永久保留，如果没有正在进行的读写，那么就会启动删除。牺牲了一部分读的性能，换取写的性能。
hbase的shell操作
1. 建表：create ‘[命名空间:]表名’,’列族名1’,’列族名2’……
2. 添加/修改记录：put ‘[命名空间:]表明’,’行名’,’列族名:列名’,’值’
3. 获取一行记录：get ‘[命名空间:]表明’,’行名’
4. 获取记录数：count ‘[命名空间:]表明’ ---- 行数！！！
5. 删除记录：delete ‘[命名空间:]表明’,’行名’,’列族名:列名’
6. scan命令：
  1. 属性
    1. 查询指定列
    2. 指定行数
    3. 起始行
    4. 结束行
    5. 时间戳
    6. 版本
  2. 过滤器：
    1. 对值过滤
    2. binary等值
    3. substring包含
    4. 列前缀过滤
    5. 列明包含过滤
    6. Rowkey前缀过滤

java大数据组件HBase相关推荐

java大数据组件Flume
特点: flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本 ...
java大数据组件Zookeeper
zookeeper的作用: Zookeeper是针对大型分布式系统的高可靠的协调系统,如dubbo里面的注册中心.分布式锁等,主要应用于分布式系统中. 分布式应用的优点: 可靠性- 单个或几个系统的故 ...
java大数据组件Kafka
定义: 大吞吐量,内置分区,可以进行数据备份,同时具备数据容错性的消息系统. Kafka可以完成在线或者离线数据消费,所谓离线数据消费实际上就是kafka将消息数据保留在磁盘上. kafka会做数据备 ...
大数据组件之HBase
文章目录前言一.HBase 1.Region 2.RegionServer 3.Master 4.Zookeeper 二.HBases的Standalone安装 1.解压配置环境变量 1.下载 2 ...
大数据组件需要额外添加的依赖包汇总(持续更新中)
现在FLINK已经被阿里收购了,所以会有blink的jar包大数据组件依赖包来源具体的依赖包 Hadoop3.1.2 用户添加 javax.ws.rs-api-2.0-m11.jar jerse ...
hive 取消打印日志信息_Hive及其相关大数据组件
HDFS架构 Hadoop 分布式文件系统(HDFS)是 Hive 存储数据的地方,简单了解HDFS的基本机制和读写工作机制,对于排查HiveSQL 程序是否由于数据存储引发的性能问题有较大的帮助. ...
假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）
文章目录假如大数据组件中的动物都变成神奇宝贝,那会变成什么样? 第一个神奇宝贝 Hadoop 第二个神奇宝贝 Hive 第三个神奇宝贝 Hbase 第四个神奇宝贝的管理员 Zookeeper 第五个 ...
为什么Java大数据是最火爆的编程语言？
未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而Java最大的优势就是它在大数据领域的地位,目前很多的大数据架构都是通过Java来完成的. 在这个Android.iOS ...
一篇文章带你了解大数据生态圈---大数据组件图谱
小编一篇文章带你了解大数据生态圈-大数据组件图谱转载地址:http://blog.csdn.net/u010039929/article/details/70157376 文章目录小编一篇文章带你 ...

java大数据组件HBase

什么是HBase：

数据仓库的特点

hbase的数据结构

物理结构

hbase的shell操作

java大数据组件HBase相关推荐

最新文章

热门文章