1. 什么是HBase:

    1. 是一个非关系型数据库(稀疏矩阵)

      1. 关系型数据库:有固定的列,每一列的数据类型明确
      2. 非结构化数据,半结构化数据。
    2. 存储的目标数据
      1. 数据量大
      2. 结构简单
      3. 基于key的快速查找能力
      4. 可以面向列进行查询
    3. 为什么要有hbase,为什么不用hdfs:
      1. 因为hdfs适用的场景是海量的数据批读写,不支持海量数据中的个别数据修改
      2. 而Hbase支持在海量数据中,修改某一个数据。
      3. Hbase的快,是相对于hdfs来说的。
  2. 数据仓库的特点

    1. 面向主题:每一种数据分析的方向都有对应的主题,主题是一个抽象的概念,主题不是固定的。
    2. 数据集成:任何一个主题的数据,最好是可以轻易的集成在一起。
    3. 非易失:用于保存历史归档数据,同时也是增量数据。
    4. 反应历史变化:通常不会删,会一直保存下去
  3. hbase的数据结构

    1. 逻辑结构

      1. 列族:多个列的组合

        1. 在数据底层当中,各个列族之间,数据是分开存储的。
      2. 列:一个列族下有若干的列
        1. 注意:hbase的列,没有数据类型,都是string
        2. 不需要在建表时声明
      3. 行:rowkey
        1. 所有的列族,所有的列,都可以引用同一个行号,但是不强制要求各个行之间对应
        2. 可以当做索引用
        3. 按字典顺序排序的
        4. 要在hbase当中查某一行,只能通过行号来查,因为hbase是基于列数据进行查询的。但是行号是可以过滤的,行号是可以随意设置的。可以把某个常用列的值作为key的一部分,方便过滤。
        5. Hbase是有分区的,同一行数据,只会出现在一个分区当中
        6. 一个分区中有若干的Store,一个Store中保存一个列族
  4. 物理结构

    1. 物理存储结构,即在物理文件当中,hbase数据的存储格式。
    2. hbase是基于列进行查询的,任何一个字段单元格都是一个独立的数据。
      1. Rowkey
      2. 列族名
      3. 列名
      4. 时间戳
      5. 操作类型
      6. 版本号
    3. 在hbase当中没有真正意义上的update,所谓的修改和删除,是追加了一条数据,已最新的时间戳来显示。如果是删除数据,会将该数据的类型改为delete,删除的数据不会永久保留,如果没有正在进行的读写,那么就会启动删除。牺牲了一部分读的性能,换取写的性能。
  5. hbase的shell操作

    1. 建表:create ‘[命名空间:]表名’,’列族名1’,’列族名2’……
    2. 添加/修改记录:put ‘[命名空间:]表明’,’行名’,’列族名:列名’,’值’
    3. 获取一行记录:get ‘[命名空间:]表明’,’行名’
    4. 获取记录数:count ‘[命名空间:]表明’ ---- 行数!!!
    5. 删除记录:delete ‘[命名空间:]表明’,’行名’,’列族名:列名’
    6. scan命令:
      1. 属性

        1. 查询指定列
        2. 指定行数
        3. 起始行
        4. 结束行
        5. 时间戳
        6. 版本
      2. 过滤器:
        1. 对值过滤
        2. binary等值
        3. substring包含
        4. 列前缀过滤
        5. 列明包含过滤
        6. Rowkey前缀过滤

java大数据组件HBase相关推荐

  1. java大数据组件Flume

    特点: flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本 ...

  2. java大数据组件Zookeeper

    zookeeper的作用: Zookeeper是针对大型分布式系统的高可靠的协调系统,如dubbo里面的注册中心.分布式锁等,主要应用于分布式系统中. 分布式应用的优点: 可靠性- 单个或几个系统的故 ...

  3. java大数据组件Kafka

    定义: 大吞吐量,内置分区,可以进行数据备份,同时具备数据容错性的消息系统. Kafka可以完成在线或者离线数据消费,所谓离线数据消费实际上就是kafka将消息数据保留在磁盘上. kafka会做数据备 ...

  4. 大数据组件之HBase

    文章目录 前言 一.HBase 1.Region 2.RegionServer 3.Master 4.Zookeeper 二.HBases的Standalone安装 1.解压配置环境变量 1.下载 2 ...

  5. 大数据组件需要额外添加的依赖包汇总(持续更新中)

    现在FLINK已经被阿里收购了,所以会有blink的jar包 大数据组件 依赖包来源 具体的依赖包 Hadoop3.1.2 用户添加 javax.ws.rs-api-2.0-m11.jar jerse ...

  6. hive 取消打印日志信息_Hive及其相关大数据组件

    HDFS架构 Hadoop 分布式文件系统(HDFS)是 Hive 存储数据的地方,简单了解HDFS的基本机制和读写工作机制,对于排查HiveSQL 程序是否由于数据存储引发的性能问题有较大的帮助. ...

  7. 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)

    文章目录 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样? 第一个神奇宝贝 Hadoop 第二个神奇宝贝 Hive 第三个神奇宝贝 Hbase 第四个神奇宝贝的管理员 Zookeeper 第五个 ...

  8. 为什么Java大数据是最火爆的编程语言?

    未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而Java最大的优势就是它在大数据领域的地位,目前很多的大数据架构都是通过Java来完成的. 在这个Android.iOS ...

  9. 一篇文章带你了解大数据生态圈---大数据组件图谱

    小编一篇文章带你了解大数据生态圈-大数据组件图谱 转载地址:http://blog.csdn.net/u010039929/article/details/70157376 文章目录 小编一篇文章带你 ...

最新文章

  1. linux系统普通用户ssh不能登陆,关于CentOS普通用户无法登录SSH问题
  2. mysql 实例复制_MYSQL教程MySQL 复制详解及简单实例
  3. 信息学奥赛一本通 1983:【19CSPJ普及组】公交换乘
  4. memcached高速缓存学习笔记003---利用JAVA程序操作memcached crud操作
  5. 2019东南大学研究生课程计算机网络安全
  6. 1023 组个最小数 (20 分)—PAT (Basic Level) Practice (中文)
  7. 售前十年,两种人生,多重感悟!
  8. java 生成ai矢量图_(针对新手)AI将位图图标转换为矢量图方法
  9. 发那科机器人仿真软件FANUCROBOGUIDE打开机器备份
  10. 库存管理 库存管理软件榜单 库存管理软件排名 库存管理提高效率的办法
  11. jmeter使用手册
  12. 行测 资料分析 统计术语篇
  13. 电子传真在金融业务的应用
  14. win10U盘插进电脑读不出来/不显示驱动怎么办?
  15. 自定义 Spring Starter
  16. 510cms渗透过程,挂马并提权
  17. 喵 ~ 小程序搭建记录
  18. 2022年制冷与空调设备运行操作考试模拟100题及答案
  19. 【程序设计】C语言程序设计基础教材题解
  20. “泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解针对日常电器的电力数据挖掘

热门文章

  1. mysql 三表left join_mysql left join 3表查询问题
  2. ideal新建springboot工程_MyBatis初级实战之一:Spring Boot集成
  3. TensorFlow.js:零基础在小程序上实现机器学习
  4. php 常用文件系统函数,PHP fileperms 文件系统函数
  5. python索引值_python索引总结
  6. 欧盟回应Meta退出欧洲威胁:没有Facebook生活一样很美好
  7. CINNO:2025年全球折叠屏智能手机销量有望超5700万部
  8. 钱大妈关闭所有北京门店:低估了北京市场的难度
  9. 网红奶茶雪糕高价背后,到底是真好吃还是智商税
  10. 疑似vivo X60t Pro在工信部入网:搭载天玑1200 主打线下渠道