大数据采集与处理期末复习题

填空：

数据产生方式经历的阶段：运营式系统阶段、用户原创内容阶段和感知式系统阶段
大数据的四个特点：数据量大、数据类型繁多、处理速度快和价值密度低。
大数据的四种范式：实验、理论、计算、数据密集型
大数据计算模式：批处理计算、流计算、图计算、查询分析计算
Hadoop的特性：高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言
Hadoop的核心：HDFS和MapReduce
分布式文件系统的节点：一类叫主节点（名称节点）或从节点（数据节点）
Hbase：采用行键、列族、列限定符和时间戳进行索引
Hbase：三个主要的功能组件：库函数，链接到每个客户端；一个Master主服务器；许多个Region服务器
Hbase：三层结构 Zookeeper文件 -ROOT-表 .META.表
Hbase系统架构：客户端、Zookeeper服务器、Master主服务器、Region服务器，一般采用HDFS作为底层数据存储
NoSQL数据库三个特点：灵活的可扩展性、灵活的数据模型、与云计算紧密融合
关系数据库无法满足Web2.0的需求的三个方面：无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可扩展性和高可用性的需求。
NoSQL的四大类型：键值数据库、列族数据库、文档数据库、图数据库
NoSQL三大基石：CAP、BASE和最终一致性
CAP指的是：C 一致性 A 可用性 P 分区容忍性三选二
数据库事务具有ACID四性：A 原子性、C 一致性、I 隔离性、D 持久性
BASE基本含义：基本可用、软状态、最终一致性
云数据库具有以下特性：动态可扩展、高可用性、较低的使用代价、易用性、高性能、免维护、安全
YARN体系机构中包含了三个组件：ResourceManager、 ApplicationMaster、 NodeManager
Spark四个特点：运行速度快、容易使用、通用性、运行模式多样
Spark具有以下优点：Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多数据集操作类型，编程模型比 MapReduce
Sperk提供了内存计算，中间结果之间放在内存中，带来了更高的迭代执行机制
Sperk基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制
数据的两种类型：静态数据和流数据
计算模式：批量计算和实时计算
Storm主要术语：Streams、Spouts、Bolts、Topology、Stream Groupings
Spark Streaming和Storm最大的区别在于，Spark 无法实现毫秒级的流计算，而Storm则可以实现毫秒级响应。
Pregel图计算模型：有向图和顶点、顶点之间的消息传递、Pregel的计算过程
推荐方法：专家推荐、基于统计的推荐、基于内容的推荐、协同过滤推荐、混合推荐

名词解释：

分布式文件系统的概念：是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
HDFS：是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。
名称节点：负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，即FsImage和EditLog
数据节点：是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。
第二名称节点：是HDFS架构的一个重要组成部分，具有两个方面的功能：首先，可以完成EditLog与FsImage的合并操作，减小EditLog文件大小，缩短名称节点重启时间；其次，可以作为名称节点的“检查点”。
Zookeeper服务器：Zookeeper服务器并非一台单一的机器，可能是由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper不仅能够帮助维护当前集群中机器的服务状态，而且能够帮助选出一个“总管”。让这个总管来管理集群。
云数据库的概念：云数据库是部署和虚拟化在云计算环境中的数据库，云数据库是在云计算的大背景下发展起来的一种新兴的共享基础结构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易，同时也虚拟化了许多后端功能。
RDD概念：是弹性分布式数据集的英文缩写，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
窄依赖：父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖
宽依赖：父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖
什么是数据可视化：数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。
协同过滤推荐：是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度，最后根据这一喜好程度对目标用户进行推荐。

简答题：

数据存取策略原理：数据存取策略包括数据存放、数据读取和数据复制等方面，它在很大程度上会影响到整个分布式文件系统的读写性能，是分布式文件系统的核心内容。
Region服务器的工作原理：Region服务器内部管理一系列Region对象和一个Hlog文件，其中，Hlog是磁盘上面的记录文件，它记录着所有的更新操作，每个Region对象又是由多个Store组成的，每个Store对应了表中的一个列族的存储。每个Store又包含了MemStore和若干个StoreFile，其中，MemStore是在内存中的缓存。
Map函数的输入来自于分布式文件系统的文件块，这些文件块的格式是任意的，可以是文档，也可以是二进制格式的。文件块是一系列元素的集合，这些元素也是任意类型的，同一个元素不能跨文件存储。Map函数将输入的元素转换成<key,value>形式的键值对，键和值的类型也是任意的，其中键不同于一般的标志属性，即键没有唯一性，不能作为输出的身份标识，即使是同一输入元素，也可通过一个Map任务生成具有相同键的多个<key,value>
Reduce函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来，输出处理后的键值对，输出结果会合并成一个文件。用户可以指定Reduce任务的个数，并通知实现系统，然后主控进程通常会选择一个Hash函数，map任务输出的每个键都会经过Hash函数计算，并根据哈希结果将该键值对输入相应的Reduce任务来处理。对于处理键为k的Reduce任务的输入形式为<k,<v1,v2,…vn>>,输出为<k,v>.
Map端的Shuffle过程：Map端的输出结果首先会被与入到缓存中（比磁盘效率高），
当缓存满时（80%写入后），就会启动流与掷作；溢写操作会清空内容，把内容写入到磁盘空间。每次溢写操作会写一个磁盘文件(key,value)，当Map程序运行完成后，会把这个Map程序产生的溢写文件归并成一个大的文件(key,value1,value2,…)，然后通知Reduce端来取数据
HDFS HA新特性：在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃”状态，另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则作为备用节点，保存了足够多的系统元数据，当名称节点出现故障时提供快速回复能力也就是说，在HDFS HA中，处于待命状态的名称节点提供了“热备份”，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点，不会影响到系统的正常对外服务。

大数据采集与处理期末复习题相关推荐

【大数据采集技术与应用】【期末复习题】
文章目录一.选择题二.填空题三.简答题四.编程题一.选择题 1.zookeeper的默认监控端口号是多少? A. 2180 B. 2181 C. 2182 D. 2183 2.kafka的默 ...
用c语言编写5颗骰子任意投掷总数为15 的概率,大工15春《应用统计》开卷考试期末复习题...
大连理工大学网络教育学院大工15春<应用统计>开卷考试期末复习题一.单项选择题(本大题共60小题,每小题2分,共120分) 5C481.从一幅52张的扑克牌(去掉大小王)中,任意取5张 ...
《Python爬虫大数据采集与挖掘》期末考试考题汇总带答案
一.填空题 1.爬虫技术的应用可以分为两大类:采集型爬虫.监测型爬虫. 2.根据 Web 页面组成结构中的信息内容的生成方式不同,可以将 Web 页面分为静态页面.动态页面.以及伪静态页面三大类. 3 ...
计算机控制技术分辨率的计算,微型计算机控制技术期末复习题
<微型计算机控制技术期末复习题>由会员分享,可在线阅读,更多相关<微型计算机控制技术期末复习题(17页珍藏版)>请在人人文库网上搜索. 1.下载可编辑1. 计算机控制系统:就是 ...
计算机网络及公文写作知识,计算机网络期末复习题
1.计算机网络期末复习题2-5运行在一台主机上的一个进程使用什么信息来标示运行在另一台主机上的进程.2-6假定你想尽快地处理从远程客户机到服务器的事务,应使用 UDP 还是 TCP,为什么?2-10握 ...
微型计算机硬盘接口主要分为,北京交通大学微机原理与接口技术_期末复习题_图文...
北京交通大学微机原理与接口技术_期末复习题_图文更新时间:2017/1/26 18:34:00 浏览量:1285 手机版 "微机原理与接口技术"2008年期末考试复习题 1. ...
微型计算机接口期末,微机接口技术期末复习题及其答案 (2)
微机接口技术期末复习题及其答案微机接口技术综合练习题一.填空题 1.接口的基本功能就是输入缓冲与输出锁存.2.数据输入/输出的三种方式就是程序控制.中断与DMA. 3.在查询输入/输出方式下,外设 ...
C语言题库青岛理工大学,青岛理工大学C语言期末复习题库.doc
青岛理工大学C语言期末复习题库.doc (19页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.9 积分 .第1章程序设计及C语言概述一.单选题1 ...
公共经济学(开卷)期末复习题
<公共经济学>(开卷)期末复习题一.简答题 1.简述帕累托标准的三个条件答:要达到帕累托标准,必须满足三个条件:1)交换效率条件.任何两种商品之间的商品替代率对任何两个消费者都相等.2 ...
《会计信息系统》课程期末复习题与参考答案
<会计信息系统>课程期末复习题与参考答案一.填空题:(每空1分,共20分) 1.会计数据处理是指对会计数据进行(加工处理 ).生成管理所需的( 会计信息 )的过程. 2.会计数据处理经历 ...

大数据采集与处理期末复习题

填空：

简答题：

大数据采集与处理期末复习题相关推荐

最新文章

热门文章