大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase

  • Hadoop生态系统
  • HDFS
    • HDFS结构
    • Name Node与Second Name Node与Data Node
    • 数据冗余存储
    • HDFS的数据读写过程
  • HBase
    • 定义
    • HBase数据模型
    • HBase功能组件
    • HBase运行机制
  • 相关命令
    • HDFS
    • HBase

Hadoop生态系统

HDFS

HDFS结构

Name Node(主节点、名称节点)
文件的创建删除等操作,同时管理数据节点和文件映射的关系
Second Name Node(第二名称节点)
冷备份、减缓主节点存储压力
Data Node(从节点、数据节点)
存储数据

块大小:64MB或128MB

Name Node与Second Name Node与Data Node

Name Node内包含两个文件:FsImage、Editlog
FsImage可以看作一个文件的快照,内容包括了块大小以及组成文件、访问权限等
Editlog可以看作为一个编辑日志,内容包括了对文件进行的一系列操作

Name Node启动时会将FsImage读入内存中,然后执行Editlog内容更新FsImage并删除旧Editlog

Data Node 是分布式文件系统HDFS的工作节点,负责数据的存储以及读取,每个数据文件均保存在Data Node的Linux文件系统中。

Second Node用于解决Editlog逐渐变大的问题具体操作如下:

由于上述操作导致若在t1~t2之间出现错误,将会造成数据丢失。同样因为每隔一段时间拉取FsImage、EditLog所以Second Name Node 能够在一定程度上起到冷备份的作用。

数据冗余存储

默认情况下HDFS保存3份同样数据,保证容灾性。

HDFS的数据读写过程

HBase

定义

HBase是一个高可靠、高性能、可伸缩的面向列的键值分布式数据库

HBase数据模型

HBase四维坐标
<行键、列族、列限定符、时间戳>

HBase功能组件

HBase总共包含三个组件:
(1)库函数
(2)一个Master主服务器:用于管理和维护Reigon分区表信息
(3)多个Reigon服务器:用于存储Reigon
注意的是客户端并不是直接从Master服务器获取Reigon地址而是从Zookeeper中获取
同时客户端也不是从Master中获取数据而是取得Reigon位置信息后从Reigon服务器中获取
Reigon定义:一个行区间

HBase运行机制

当客户端取数据时候需要三层访问
层次 名称 作用
第一层 Zookeeper文件 记录ROOT表的位置信息
第二层 -ROOT-表 记录.META表的Reigon位置信息,-ROOT-表只有一个Reigon。通过-ROOT-表可以访问.META中的信息
第三层 .META表 存储用户数据表中的信息.META可以有多个Reigon,保存所有位置信息

层次 名称 作用
第一层 Zookeeper文件 记录ROOT表的位置信息
第二层 -ROOT-表 记录.META表的Reigon位置信息,-ROOT-表只有一个Reigon。通过-ROOT-表可以访问.META中的信息
第三层 .META表 存储用户数据表中的信息.META可以有多个Reigon,保存所有位置信息

相关命令

HDFS

hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir 创建目录
hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件
hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS,与put一致
hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地,与get一致
hadoop fs -test -e 检测目录和文件是否存在,存在返回值$?为0,不存在返回1
hadoop fs -text 查看文件内容
hadoop fs -du 统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
hadoop fs -tail 显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录

HBase

list 列出Hbase中存在的所有表
alter 修改列簇(column family)模式
count 统计表中行的数量
create 创建表
describe 显示表相关的详细信息
delete 删除指定对象的值(可以为表,行、列对应的值,另外也可以指定时间戳的值)
deleteall 删除指定行的所有元素值
disable 使表无效
drop 删除表
enable 使表有效
exists 测试表是否存在
exit 退出Hbaseshell
get 获取行或单元(cell)的值
incr 增加指定表,行或列的值
put 向指向的表单元添加值
tools列出Hbase所支持的工具
scan 通过对表的扫描来获取对用的值
status 返回Hbase集群的状态信息
shutdown 关闭Hbase集群(与exit不同)

本文及后续文章内容均由个人总结,仅用于复习记录,如发现错误请大家伙指正,侵删。

大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase相关推荐

  1. 大数据技术原理与应用第2版-林子雨版-课后习题答案

    第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志 解决问题 代表公司 第一次浪潮 1980年前后 个人计算机 信息处理 Intel.AMD.IBM.苹果.微软. ...

  2. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  3. 大数据技术原理与应用 第三篇 大数据处理与分析(三)Spark

    一. Spark简介 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的.低延迟的数据分析应用程序 1.1 ...

  4. 大数据技术原理与应用(三)

    第3章 分布式文件系统HDFS HDFS,全称:Hadoop Distributed File System,大数据两大核心技术:分布式存储/分布式处理:HDFS通过集群实现分布式存储 文件系统结构 ...

  5. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  6. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  7. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  8. 林子雨试卷《大数据技术原理与应用》试题与答案

    <大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...

  9. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

最新文章

  1. 有规律格式化文本文件插入数据库
  2. 合并模拟器和真机的静态库动态库aggregate
  3. com组件 安全提示_【加粉利器】百度基木鱼通用微信组件上线
  4. 重学java基础第十二课:计算机语言发展史
  5. 如何降低 Python 的内存消耗量?
  6. centos7 pe系统安装_U盘PE启动安装Win7系统教程(微PE版)
  7. android view强制重绘_安卓自定义 view 不能正常重绘
  8. 497.非重叠矩形中的随机点
  9. 控制网平差(C++实现)
  10. mdf文件和ldf文件是什么?
  11. ColdFusion mx 7.0 函数分类列表
  12. php对比两张数据表,【后端开发】PHP比较两个表不同数据
  13. Flask项目1(美食地图)
  14. Word文档恢复,电脑突然关机 如何一步步将.asd恢复为Word文档 (详解)
  15. Linux下批处理文件编写
  16. ~3 ccf 2022-03-2 出行计划
  17. 美国南加州大学研究生计算机专业申请条件,美国南加州大学计算机研究生申请条件有哪些呢...
  18. MySQL日期类型详解
  19. mysql 删除表中某一列的数据及删除某一列的方法
  20. js生成随机数字符串

热门文章

  1. perl 备份mysql_MySQLDumper:基于PHP和Perl的MySQL数据库备份工具
  2. Android和iOS 测试五个最好的开源自动化工具
  3. 自动驾驶路径规划五大常用算法(Dijkstra/人工势场/图搜索等)
  4. CSS定位position总结(超详细哦!)
  5. 【原动力x 降本增效读后感】触发记忆杀
  6. (附源码)计算机毕业设计ssm房屋租赁系统
  7. oracle台湾拼音,oracle汉字转拼音
  8. java 写一个斐波那契数列
  9. 利用Word Embedding自动生成语义相近句子
  10. Vue +vue-quill-editor+ Element UI使用富文本编辑器(后续更新上传视频、链接、表格....)