java大数据组件HBase
什么是HBase:
- 是一个非关系型数据库(稀疏矩阵)
- 关系型数据库:有固定的列,每一列的数据类型明确
- 非结构化数据,半结构化数据。
- 存储的目标数据
- 数据量大
- 结构简单
- 基于key的快速查找能力
- 可以面向列进行查询
- 为什么要有hbase,为什么不用hdfs:
- 因为hdfs适用的场景是海量的数据批读写,不支持海量数据中的个别数据修改
- 而Hbase支持在海量数据中,修改某一个数据。
- Hbase的快,是相对于hdfs来说的。
- 是一个非关系型数据库(稀疏矩阵)
数据仓库的特点
- 面向主题:每一种数据分析的方向都有对应的主题,主题是一个抽象的概念,主题不是固定的。
- 数据集成:任何一个主题的数据,最好是可以轻易的集成在一起。
- 非易失:用于保存历史归档数据,同时也是增量数据。
- 反应历史变化:通常不会删,会一直保存下去
hbase的数据结构
- 逻辑结构
- 列族:多个列的组合
- 在数据底层当中,各个列族之间,数据是分开存储的。
- 列:一个列族下有若干的列
- 注意:hbase的列,没有数据类型,都是string
- 不需要在建表时声明
- 行:rowkey
- 所有的列族,所有的列,都可以引用同一个行号,但是不强制要求各个行之间对应
- 可以当做索引用
- 按字典顺序排序的
- 要在hbase当中查某一行,只能通过行号来查,因为hbase是基于列数据进行查询的。但是行号是可以过滤的,行号是可以随意设置的。可以把某个常用列的值作为key的一部分,方便过滤。
- Hbase是有分区的,同一行数据,只会出现在一个分区当中
- 一个分区中有若干的Store,一个Store中保存一个列族
- 列族:多个列的组合
- 逻辑结构
物理结构
- 物理存储结构,即在物理文件当中,hbase数据的存储格式。
- hbase是基于列进行查询的,任何一个字段单元格都是一个独立的数据。
- Rowkey
- 列族名
- 列名
- 时间戳
- 操作类型
- 值
- 版本号
- 在hbase当中没有真正意义上的update,所谓的修改和删除,是追加了一条数据,已最新的时间戳来显示。如果是删除数据,会将该数据的类型改为delete,删除的数据不会永久保留,如果没有正在进行的读写,那么就会启动删除。牺牲了一部分读的性能,换取写的性能。
hbase的shell操作
- 建表:create ‘[命名空间:]表名’,’列族名1’,’列族名2’……
- 添加/修改记录:put ‘[命名空间:]表明’,’行名’,’列族名:列名’,’值’
- 获取一行记录:get ‘[命名空间:]表明’,’行名’
- 获取记录数:count ‘[命名空间:]表明’ ---- 行数!!!
- 删除记录:delete ‘[命名空间:]表明’,’行名’,’列族名:列名’
- scan命令:
- 属性
- 查询指定列
- 指定行数
- 起始行
- 结束行
- 时间戳
- 版本
- 过滤器:
- 对值过滤
- binary等值
- substring包含
- 列前缀过滤
- 列明包含过滤
- Rowkey前缀过滤
- 属性
java大数据组件HBase相关推荐
- java大数据组件Flume
特点: flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本 ...
- java大数据组件Zookeeper
zookeeper的作用: Zookeeper是针对大型分布式系统的高可靠的协调系统,如dubbo里面的注册中心.分布式锁等,主要应用于分布式系统中. 分布式应用的优点: 可靠性- 单个或几个系统的故 ...
- java大数据组件Kafka
定义: 大吞吐量,内置分区,可以进行数据备份,同时具备数据容错性的消息系统. Kafka可以完成在线或者离线数据消费,所谓离线数据消费实际上就是kafka将消息数据保留在磁盘上. kafka会做数据备 ...
- 大数据组件之HBase
文章目录 前言 一.HBase 1.Region 2.RegionServer 3.Master 4.Zookeeper 二.HBases的Standalone安装 1.解压配置环境变量 1.下载 2 ...
- 大数据组件需要额外添加的依赖包汇总(持续更新中)
现在FLINK已经被阿里收购了,所以会有blink的jar包 大数据组件 依赖包来源 具体的依赖包 Hadoop3.1.2 用户添加 javax.ws.rs-api-2.0-m11.jar jerse ...
- hive 取消打印日志信息_Hive及其相关大数据组件
HDFS架构 Hadoop 分布式文件系统(HDFS)是 Hive 存储数据的地方,简单了解HDFS的基本机制和读写工作机制,对于排查HiveSQL 程序是否由于数据存储引发的性能问题有较大的帮助. ...
- 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)
文章目录 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样? 第一个神奇宝贝 Hadoop 第二个神奇宝贝 Hive 第三个神奇宝贝 Hbase 第四个神奇宝贝的管理员 Zookeeper 第五个 ...
- 为什么Java大数据是最火爆的编程语言?
未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而Java最大的优势就是它在大数据领域的地位,目前很多的大数据架构都是通过Java来完成的. 在这个Android.iOS ...
- 一篇文章带你了解大数据生态圈---大数据组件图谱
小编一篇文章带你了解大数据生态圈-大数据组件图谱 转载地址:http://blog.csdn.net/u010039929/article/details/70157376 文章目录 小编一篇文章带你 ...
最新文章
- linux系统普通用户ssh不能登陆,关于CentOS普通用户无法登录SSH问题
- mysql 实例复制_MYSQL教程MySQL 复制详解及简单实例
- 信息学奥赛一本通 1983:【19CSPJ普及组】公交换乘
- memcached高速缓存学习笔记003---利用JAVA程序操作memcached crud操作
- 2019东南大学研究生课程计算机网络安全
- 1023 组个最小数 (20 分)—PAT (Basic Level) Practice (中文)
- 售前十年,两种人生,多重感悟!
- java 生成ai矢量图_(针对新手)AI将位图图标转换为矢量图方法
- 发那科机器人仿真软件FANUCROBOGUIDE打开机器备份
- 库存管理 库存管理软件榜单 库存管理软件排名 库存管理提高效率的办法
- jmeter使用手册
- 行测 资料分析 统计术语篇
- 电子传真在金融业务的应用
- win10U盘插进电脑读不出来/不显示驱动怎么办?
- 自定义 Spring Starter
- 510cms渗透过程,挂马并提权
- 喵 ~ 小程序搭建记录
- 2022年制冷与空调设备运行操作考试模拟100题及答案
- 【程序设计】C语言程序设计基础教材题解
- “泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解针对日常电器的电力数据挖掘
热门文章
- mysql 三表left join_mysql left join 3表查询问题
- ideal新建springboot工程_MyBatis初级实战之一:Spring Boot集成
- TensorFlow.js:零基础在小程序上实现机器学习
- php 常用文件系统函数,PHP fileperms 文件系统函数
- python索引值_python索引总结
- 欧盟回应Meta退出欧洲威胁:没有Facebook生活一样很美好
- CINNO:2025年全球折叠屏智能手机销量有望超5700万部
- 钱大妈关闭所有北京门店:低估了北京市场的难度
- 网红奶茶雪糕高价背后,到底是真好吃还是智商税
- 疑似vivo X60t Pro在工信部入网:搭载天玑1200 主打线下渠道