文章目录

  • Scala部分
  • 2.Hbase部分
    • 2.1 简介
      • 什么是HBase
      • 与其他部分的关系
      • Hbase的数据模型
      • HBase架构
      • Hbase访问接口
      • Hbase存储格式
    • 2.2 安装与运行
    • 2.3 一些基本操作
  • 其他增加的小知识点

Scala部分


var 是 variable(变量,可变物)或者是variation的简写。

2.Hbase部分

2.1 简介

什么是HBase

  1. 是一个NoSQL
  2. Hadoop项目中的一部分
  3. 基于HDFS运行
    HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。主要应用场景是实时随机读写超大规模的数据。

HBase 在列上实现了 BigTable 论文提到的压缩算法、内存操作和布隆过滤器。HBase 的表能够作为 MapReduce 任务的输入和输出,可以通过 Java API 来存取数据,也可以通过 REST、Avro 或者 Thrift 的 API 来访问。

与其他部分的关系

HBase 不能取代 RDBMS,因为二者的应用场景不同。HBase 为了解决海量数据的扩展性,支持简单的增加节点来实现线性扩展,从而在集群上管理海量的非结构化或半结构化的稀疏数据。HBase 仅能通过主键(raw key)或主键的 range 检索数据,支持单行事务。

上图描述 Hadoop EcoSystem 中的各层系统。其中,HBase 位于结构化存储层,Hadoop HDFS 为 HBase 提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase 提供了高性能的计算能力,Zookeeper 为 HBase 提供了稳定服务和 failover 机制。

此外,Pig 和 Hive 还为 HBase 提供了高层语言支持,使得在 HBase 上进行数据统计处理变的非常简单。Sqoop 则为 HBase 提供了方便的 RDBMS 数据导入功能,使得传统数据库数据向 HBase 中迁移变的非常方便。

Hbase的数据模型

HBase架构

Hbase访问接口

Native Java API,最常规和高效的访问方式,适合 Hadoop MapReduce Job 并行批处理 HBase 表数据。
HBase Shell,HBase 的命令行工具,最简单的接口,适合 HBase 管理使用。
Thrift Gateway,利用 Thrift 序列化技术,支持 C++,PHP,Python 等多种语言,适合其他异构系统在线访问 HBase 表数据。
REST Gateway,支持 REST 风格的 Http API 访问 HBase, 解除了语言限制。
Pig,可以使用 Pig Latin 流式编程语言来操作 HBase 中的数据,和 Hive 类似,本质最终也是编译成 MapReduce Job 来处理 HBase 表数据,适合做数据统计。

Hbase存储格式

2.2 安装与运行

参考最新的Hadoop与HBase版本兼容性,我的hadoop是v3.1.3,所以用2.2.4版本的hbase
参考林子雨教程进行了伪分布安装
在运行过程中出现了“错误的替换”

//因为已经在环境变量中配置了hadoop和hbase,直接启动以下命令即可
start-dfs.sh
start-hbase.sh//打开shell
hbase shell//关闭
stop-hbase.sh

2.3 一些基本操作

其他增加的小知识点

  1. sudo:superuser do
  2. 宝藏:linux命令缩写大全
  3. 递归-recursion

大数据平台技术——Scala+Hbase学习相关推荐

  1. K8S 从懵圈到熟练--大数据平台技术栈18

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的K8S! 来自:阿里技术公众号 阿里妹导读:排查完全陌生的问题.不熟悉的系统组件,对许多工程师来说是无与伦比的工作乐趣,当然也是一大挑战 ...

  2. TiDB 在大型互联网的深度实践及应用--大数据平台技术栈08

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的TiDB! 作者介绍 吕磊,摩拜单车高级 DBA 一.业务场景 摩拜单车 2017 年开始将 TiDB 尝试应用到实际业务当中,根据业务 ...

  3. RocketMQ实战--大数据平台技术栈06

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的RocketMQ! 作者丨张丰哲 www.jianshu.com/p/3afd610a8f7d 阿里巴巴有2大核心的分布式技术,一个是O ...

  4. 谈谈对 Canal( 增量数据订阅与消费 )的理解--大数据平台技术栈系列(3)

    之前说了,大数据平台技术栈 (可点击查看),今天就来说说其中的Cannal 来源:朱小厮, blog.csdn.net/u013256816/article/details/52475190 概述 c ...

  5. 大数据平台技术可以提供哪些服务

    随着大数据.互联网和物联网的深度渗入,智慧城市已经成为城市现代化发展的首要任务和目标,即将大数据等数字技术融入城市生活和管理的各个方面,使城市的各项数据均能得到整合利用.那么大数据平台技术能够提供哪些 ...

  6. 企业大数据平台技术体系架构

    2015年国务院向社会公布的<促进大数据发展行动纲要>明确提出了大数据的基本概念:大数据是以容量大.类型多.存取速度快.应用价值高位为主要特征的数据集合,正快速发展为对数量巨大.来源分散. ...

  7. 【大数据】大数据平台技术方案及案例

    大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储.运算.展现作为目的的平台.大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP ...

  8. 独家解读!阿里首次披露自研飞天大数据平台技术架构

    9 月 26 日,阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布,这也是阿里首次对外披露飞天大数据平台的整体架构. 据介绍,飞天大数据平台由阿里自主研发,可扩展至 10 万台计算集群,是目前 ...

  9. 案例分析:大数据平台技术方案及案例(ppt)

    大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储.运算.展现作为目的的平台.大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP ...

最新文章

  1. 【Excel】VBA自动化更新数据表格
  2. 微信端 a 链接无法跳转
  3. 使用WebBrowser控件获取网页源码的方法
  4. 文献学习(part15)--Subspace Clustering via Good Neighbors
  5. Java BigDecimal add()方法与示例
  6. 琢越网用户使用手册和反馈
  7. Python科学计算——前期准备
  8. BZOJ 1801 chess 中国象棋
  9. X86汇编语言从实模式到保护模式15:任务和任务的创建
  10. 怎么用小学生计算机玩游戏,小学生不应该玩电脑游戏作文
  11. 简单好用的照片恢复软件推荐
  12. activiti表单设计器_可拖拽的表单设计布局器-echarts-vue-jquery-可视化图表
  13. WM_CREATE消息响应函数和WM_INITDIALOG消息响应函数之区别
  14. 站立会议01(冲刺2)
  15. 汇编语言程序设计实验三
  16. 《软件测试的艺术》笔记
  17. 常用软件分类运维或个人收藏软件必备,及文件夹打包下载
  18. 基于Java的四种算法设计(1.螺钉和螺母问题 2.九宫格问题 3.最大总和问题 4.地图着色问题)
  19. 完全删除conime.exe 程序。。。
  20. IE 7打开网页慢解决方法

热门文章

  1. c# OutlookBar控件
  2. Spring Cloud简单笔记
  3. IndentationError: unindent does not match any outer indentation level问题
  4. Java统计代码的执行时间的6种方法
  5. FPGA Verilog HDL 系列实例--------顺序脉冲发生器
  6. 模型修饰在无人机航测实景三维模型生产中的应用——以DP-Modeler软件为例
  7. 如何选择优化器 optimizer
  8. ASSERT(FALSE)
  9. MicroC实现Expr部分和for循环,无续算版本Comp.fs展示
  10. java.lang.NoClassDefFoundError: com.yolanda.nohttp.NoHttp