知识很多很碎,以下内容只是对重点内容的罗列,许多地方还需要大家翻书,看图理解。另外关于大题部分,由于精力有限就不详写了,大家可以根据实验内容,找重点部分记忆。比如SSH无密码登录指令:ssh-keygen -t rsa,启动HDFS指令:./sbin/start-dfs.sh,Hadoop伪分布式安装,HDFS的操作指令,代码部分的HDFS写文件操作。也可以参考往年题复习复习~

题型:

1.填空20空,每空1分,共20分

2.单选20道,每道1分,共20分

3.多选5道,每道2分,共10分

4.判断10道,每道1分,共10分

5.简答4道,每道5分,共20分

6.大题两道,计算实验,共20分

第一章 概述

1.大数据的4V特性:数据量大(Volume)数据类型繁多(Variety)处理速度快(Velocity)价值密度低(Value)

2.三次信息化浪潮主要解决信息处理,信息传输,信息爆炸的问题

3.大数据颠覆了传统思维方式,3个转变:全样而非抽样效率而非精确相关而非因果

4.大数据技术的层面:数据采集与预处理,数据存储和管理,数据处理与分析,数据安全和隐私保护

5.大数据计算模式:批处理计算,流计算,图计算,查询分析计算。

6.云计算的关键技术:虚拟化,分布式存储,分布式计算。多租户等

7.搭建集群的时候,namenode,datanode可以在一个节点上

8.云计算服务模式:

云计算平台层:平台即服务(PaaS);

应用层:软件即服务(SaaS)

基础设施层:基础设施即服务(IaaS)

7.人类在科学研究上先后经历的四种范式:实验科学,理论科学,计算科学,数据密集型科学。

8.信息科技在大数据时代提供的3大技术支撑:信息存储,信息处理,信息传输。

第二章 大数据处理架构Hadoop

1.Hadoop的核心是Hadoop分布式文件系统(HDFS)和MapReduce

2.Hadoop的配置与启动(步骤自己敲一遍)

第三章 分布式文件系统HDFS

1.HDFS中块的大小为64MB,采用块概念的好处:支持大规模文件存储;简化系统设计;适合数据备份(好存好取好计算,提高磁盘读写效率)

2.名称节点NameNode负责管理分布式文件系统的命名空间(namespace)

两个核心数据结构:FsImage,EditLog

3.FsImage的作用:用于维护文件系统树以及文件树中所有的文件和文件夹的元数据

操作日志文件EditLog记录所有针对文件的·创建,删除,重命名操作。

4.名称节点的启动过程(简答)

(1)将FsImage的内容加载到内存中,然后执行EditLog文件中的各个操作,使内存中的元数据保持最新。

(2)若在内存中成功建立元数据映射,创建一个新的Fsimage文件和一个空的EditLog文件。

(3)正常运行后,更新操作写入EditLog中

名称节点启动过程中处于安全模式,对外提供读操作,无法提供写操作。启动结束后,系统会退出安全模式,正常运行。

5.数据节点负责数据的存储和读取,会根据客户端或名称节点的调度进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表信息。

6.第二名称节点(Secondarynamenode)具有两方面的功能:完成FsImage,EditLog的合并操作,减少editlog文件大小,缩短名称节点重启时间;作为名称节点的检查点,保存名称节点中的元数据信息。

7.HDFS HA(高可用架构)是用来解决NameNode 单点故障问题的, HDFS 联邦是用来解决 NameNode 内存瓶颈问题的。

8.HDFS名称节点出错,将第二名称节点中恢复数据。(HDFS的备份机制)

HDFS数据节点出错由上级负责。(心跳机制)

9.写文件

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
public class Chapter3 {    public static void main(String[] args) { try {Configuration conf = new Configuration();  conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystem fs = FileSystem.get(conf);byte[] buff = "Hello world".getBytes(); // 要写入的内容String filename = "test"; //要写入的文件名FSDataOutputStream os = fs.create(new Path(filename));os.write(buff,0,buff.length);System.out.println("Create:"+ filename);os.close();fs.close();} catch (Exception e) {  e.printStackTrace();  }  }
}

第四章 分布式数据库Hbase

1.Hbase实现原理:Hbase功能组件,表,Region的定位.

2.Hbase功能组件:库函数,连接到每个客户端;一个Master主服务器;多个Region服务器。

  • Region服务器:负责存储和维护分配给自己的Region,处理来自客户端的读写请求。
  • Master主服务器:负责管理和维护Hbase表的分区信息(一个表分成哪些REgion?每个Region被分配在哪个Region服务器上)

3.Master检测集群中的Region服务器,把特定Region分配在可用的Region服务器上。

4.客户端不是直接从Master主服务器上读取数据,在获取Region的存储位置信息后从Region服务器上读取。

5.Hbase客户端借助于ZooKeeper来获取Region位置信息。

6.Region是横向拆分。每个Region默认大小为100-200MB,是Hbase中数据分发和均衡负载的基本单位。

7.Master主服务器将Region匹配到Region服务器。每个Region服务器负责管理一个Region集合(10-1000)。

8.Hbase的四维坐标:[“行键”,“列族”,“列限定符”,“时间戳”]

时间戳一般是64位整型数据

三级寻址(重点)zookeeper文件/-ROOT-表(根数据表)/.META.表(元数据表)

.META.表:存储region和region服务器的映射关系。

-ROOT-表:记录元数据的具体位置

Zookeeper文件:记录根数据表的位置。

9.Region服务器的工作原理(看书)

Region服务器是Hbase的核心,维护分配给自己的Region,响应用户的读写要求。

10.HLog的工作原理(看书)

Hlog保证系统发生故障时恢复到正确状态。

11.Region服务器内有多个region和一个Hlog

13. HBASE是基于列存储的,只有一个索引(行键)

12.hbase中的数据类型只有未经解释的字符串;数据操作只有简单的插入,查询,删除,清空。

第五章 Nosql数据库

1.NoSQL的三大基石:CAP,BASE,最终一致性。

2.CAP理论:

  • C:一致性。任何一个读操作总是能够读到之前完成的写操作的结果。
  • A:可用性。快速获取数据,在确定时间内返回操作结果。
  • P:分区容忍性。网络出现分区的时候,分离的系统也能正常运行。

一个分布式系统最多只能满足其中两个。

3.CA,放弃P,严重影响可扩展性

CP,等待期间无法提供服务

AP,一致性转为最终一致性

4.数据库事务具有ACID四性:原子性,一致性,隔离性,持久性。

5.BASE的基本含义:基本可用,软状态,最终一致性。

  • 基本可用:一个分布式系统部分发生问题或不可用时,其他部分依然可以正常使用。
  • 软状态:可以有一段数据不同步,具有滞后性。
  • 最终一致性:允许后续的访问操作可以暂时读不到更新后的操作,但是经过一段时间后,用户必须读到更新后的数据。

6.NoSql的四大类型:键值数据库,列族数据库,文档数据库,图数据库。

键值:Redis,Riak,SimpleDB

列族:Bigtable,Hbase,Cassandra

文档:MongoDB,CouchDB

图:Neo4J,InfoGrid

7.nosql的由来:大数据时代数据类型繁多,不能很好地处理非结构化数据。非关系数据库应运而生。

8.nosql的特点:灵活的可扩展性,灵活的数据类型,与云计算紧密结合。

第六章 云数据库

1.云数据库并非一种全新的数据库技术,而是以服务的方式提供数据库功能的技术。

大数据技术原理与应用(1-6)-TYUT相关推荐

  1. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  2. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  3. 关于大数据技术原理与应用的学习(6)

    学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...

  4. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  5. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  6. 《大数据技术原理与应用》(第八章Hadoop 课后答案)

    第八章 Hadoop再探讨 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库实 ...

  7. 林子雨试卷《大数据技术原理与应用》试题与答案

    <大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...

  8. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  9. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

  10. 大数据技术原理与应用作业四

    大数据技术原理与应用作业四 1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系. HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算: 利用Z ...

最新文章

  1. wikioi 1160 蛇形矩阵
  2. vb 垂直滚动条定位
  3. 9.6 LSMW程序删除操作手册-录屏
  4. 数字的补数——力扣476
  5. 洛谷 P1067 多项式输出
  6. python-打开网页
  7. 2018.09.22 上海大学技术分享 - An Introduction To Go Programming Language
  8. 饿了么是视障者非常喜欢的APP,你们要加油哦!
  9. 很久没写了,今天兴致来了,写一下!
  10. 读余华《活着》,你好,我叫福贵
  11. 免费开源FTP工具:Cyberduck for Mac
  12. vue3获取url后面参数
  13. 计算机图形学--实时光线追踪
  14. [实用资料系列]注册表技术大全「二辛苦收集的注册表大全」
  15. 学习js在线html(富文本)编辑器
  16. element-ui日期时间选择框picker-options如何禁用时间范围
  17. PLC实验四十字路口交通灯控制的模拟
  18. ES双中心数据稽核(同步)
  19. 判断无穷积分是绝对收敛还是条件收敛---练习题
  20. 多层多路径子文件夹批量解压压缩包到指定目录(以B2Z格式压缩包为例)

热门文章

  1. scrapy 爬取论坛帖子名称及链接(递归方式获取)
  2. CEGUI 动画系统
  3. 周志华西瓜南瓜书学习(一)
  4. 分享|雄安新区2021年大数据研究报告(附PDF)
  5. 第六章软件项目配置管理
  6. 树莓派3用ppoe拨号连接宽带
  7. 我的世界制作服务器地图,我的世界服务器制作 我的世界怎样制作和运行服务器...
  8. 三国杀(1):VS2017 C/C++ lua tolua++ 编译 集成,及使用介绍
  9. c++编程关机重启 非常快捷实用
  10. 基于javaweb的在线书城书店系统(jsp+ssm+mysql)