913大数据综合复试内容

1.1大数据的概述以及重要的时间节点

大数据是指从物联网，互联网，社交媒体等数据源的大量数据的收集，存储，分析，共享和处理，以获取有价值的信息和知识的一种新兴技术。重要的时间节点包括2001年，Google推出MapReduce；2005年，Apache推出Hadoop；2008年，Apache推出Hive；2009年，Facebook推出Presto；2011年，Google推出Spark；2014年，Apache推出Flink

1.2大数据的影响以及应用

大数据的影响主要体现在应用方面。大数据可以帮助企业更好地分析客户需求，提高服务质量，提升客户体验。此外，大数据也可以帮助企业优化运营模式，实现有效的营销策略，提高企业的经济效益。

1.3大数据的关键技术和计算模式

大数据的关键技术主要包括数据采集、数据存储、数据分析和数据可视化等；计算模式包括模式识别、机器学习、深度学习、图计算等。

1.4大数据处理架构Hadoop

大数据处理架构Hadoop是一个可扩展的分布式系统，用于存储和处理大量数据集。它由一组软件组件组成，可以部署在廉价的服务器上，从而为组织提供更大的计算能力和存储容量。 Hadoop允许组织在多台服务器上并行处理大量数据，比单台服务器更快地完成计算任务，并且可以支持大量的并发数据访问。

1.5 Hadoop的生态系统

Hadoop的生态系统是一个基于Apache Hadoop的生态系统，它涵盖了Hadoop核心技术及其附属技术，如：HDFS、YARN、MapReduce、Hive、Pig、HBase、ZooKeeper等。

2.1 分布式文件系统的HDFS的架构

HDFS架构由一个NameNode和一组DataNode组成。NameNode负责管理文件系统的元数据，而DataNode负责处理实际的数据存储和管理。当文件被写入HDFS时，它会被分割成多个块，然后每个块都被加密并存储在不同的DataNode上。当从HDFS读取文件时，DataNode会根据NameNode的指示将文件块组装成一个完整的文件，然后发送给客户端。

2.2 HDFS的存储原理

HDFS的存储原理是：将文件分割成一个个小块，然后在网络上的多台机器上进行存储，同时还能够在多台机器之间进行数据的分发和重新分配，以保证数据的安全性和可用性。

2.3分布式数据的HBase的实现原理

HBase是一种面向列的开源、分布式、NoSQL数据库，建立在Hadoop之上，它结合了Hadoop的分布式文件系统(HDFS)和Google的BigTable设计思想，实现了分布式存储和数据处理的功能。HBase数据库的实现原理有以下几个要素：

1）底层存储：HBase是建立在HDFS之上，它将数据以文件的形式存储在HDFS上，从而实现了自动分布式存储。

2）表结构：HBase采用表的数据结构，由行和列组成，可以支持千万级的行数，每列可以有不同的数据类型，可以实现多种数据类型的混合存储。

3）分区：HBase采用表分区的方式，将数据按照行键进行分区，从而实现了分布式数据处理。

4）索引：HBase通过索引和内存缓存机制，实现了快速查询。

2.4 HBase运行机制和系统架构

HBase运行机制主要是利用Hadoop分布式文件系统（HDFS）上的分布式存储，它利用HDFS文件系统的特性，将数据分割成多个块，并将其存储到HDFS上的多个节点上。HBase系统架构包括HDFS，HBase Master和HBase RegionServer。HDFS用于存储数据，HBase Master负责管理HBase的元数据，并负责分发HBase的表的创建，删除，修改等操作，还负责调度HBase RegionServer的加载，移除和故障恢复等任务；HBase RegionServer负责存储和检索数据，并处理客户端的读写操作。

2.5NoSql数据库的四大类型和三大基石

NoSql数据库的四大类型是键值存储、文档存储、列存储和图形数据库；三大基石是分布式计算、非关系型数据和高性能存储。

2.6云数据的特征和系统架构

云数据的特征主要包括可扩展性、可用性、可访问性、可管理性和可安全性。云数据的系统架构一般包含数据收集、数据清洗、数据存储、数据分析和数据可视化等模块。

3.1分布式并行编程：MAP和REDUCE

MAP和REDUCE是分布式并行编程技术中的两种基本操作，它们是一种函数式编程的方法，可以帮助程序员处理大量的数据。MAP的主要作用是分发和并行处理数据，而REDUCE的主要作用是将这些数据进行汇总，以获得最终的结果。

3.2MapReduce的具体应用

MapReduce的具体应用包括搜索引擎的索引构建、社交网络中的好友推荐、海量日志分析、金融分析、语音识别、计算机视觉、机器学习等等。

3.3YARN设计思路，体系结构和工作流程

YARN（Yet Another Resource Negotiator）是Hadoop生态系统的资源管理器，它的设计思路是建立一个可以管理Hadoop集群资源的分布式平台。它的体系结构包括Resource Manager（资源管理器）、Node Manager（节点管理器）、Application Master（应用程序管理器）和ApplicationMasterService（应用程序管理服务）。

YARN工作流程由四个步骤组成：

1.资源请求：客户端向ResourceManager发起资源请求，ResourceManager将请求添加到队列中； 2.资源分配：ResourceManager将可用资源分配给请求； 3.应用程序管理：ApplicationMaster识别资源，并负责应用程序的生命周期管理； 4.资源释放：ApplicationMaster完成作业后，将资源释放回ResourceManager，完成一次资源管理的流程。

3.4数据仓库HIVE系统架构的工作流程

HIVE系统的工作流程如下：1.用户提交查询请求；2.Hive将查询请求转换为MapReduce任务；3.Hive任务分发到Hadoop集群，运行MapReduce程序；4.在Hadoop集群上运行MapReduce任务；5.结果被返回到Hive；6.Hive将结果返回给用户。

3.5Hive高可用性（HA）基本原理

Hive高可用性（HA）基本原理是将多个Hive实例部署在不同的服务器上，并使用一个负载均衡器来调度查询请求，从而使Hive集群保持高可用性。如果某个实例发生故障，负载均衡器将查询请求重新路由到另一个可用的实例上。

3.6 Spark生态系统和运行架构

Spark生态系统是一个开放的分布式数据分析框架，它支持多种数据存储和处理系统，如Hadoop、S3和Kafka，可以满足用户的大数据存储和分析需求。而Spark运行架构基于Master/Slave架构，使用SparkContext和SparkSession作为框架的入口，使用Spark Core负责运行计算任务，并使用Spark SQL、Spark MLib和Spark Streaming进行数据处理和分析。

3.7 流计算框架和处理流程

流计算框架是一种用于处理实时流数据的技术，它能够从不同的输入源接收数据，并使用可配置的计算内容处理数据，从而提供实时结果。流处理流程是一个用于处理实时流数据的管道，它可以从输入源接收数据，并使用各种可配置的处理步骤处理数据，从而将结果发送到输出源。

3.8大数据Lambda架构

Lambda架构是一种流式数据处理架构，它被设计用于处理大量的实时数据流。它的主要特点是简单性、可伸缩性和极低的延迟。Lambda架构主要分为三个部分，即收集、处理和投放，每个部分都具有不同的功能。收集部分用于收集实时数据，处理部分用于处理收集到的数据，投放部分用于将处理后的数据发送给相应的目标系统。Lambda架构可以极大地提高数据处理的性能，并且能够有效地处理海量数据。

3.9Prege1 图计算模型和计算过程

Prege1图计算模型是一种分布式计算模型，它将神经网络的计算过程抽象成一个图，并将图中的每个节点都用一个多维向量来表示，每个节点之间的关系也用多维向量表示。在计算过程中，节点之间会产生数据信息的传递，其中节点之间的边表示节点之间的关系，节点之间的传递过程则按照节点之间的关系进行，最终实现神经网络的计算过程。

3.10 数据可视化分析（可视化工具与案例）

数据可视化是将数据以图表、图形、折线图、柱状图等可视化形式呈现出来，以便更加清晰、直观的理解数据内容。常见数据可视化分析工具有Tableau、Power BI、QlikView、Looker、Chartio等，案例包括股票可视化分析、航线可视化分析、地图可视化分析等。

4.1推荐系统（长尾理论，推荐方法，推荐系统模型）

推荐系统是一种用于向用户推荐特定内容的技术。它通常基于长尾理论，即网络流行度分布中的少量内容占据着大多数流量，而少数内容占据着少量流量。推荐系统使用不同的推荐方法来寻找最合适的内容，以满足用户的需求。推荐系统的模型可以基于内容、用户和上下文，并且可以采用基于协同过滤的方法，以便根据用户的历史行为来进行推荐。

4.2基于用户/物品的协同过滤

基于用户/物品的协同过滤是一种机器学习技术，它使用相似性推荐算法，根据用户的历史购买记录或兴趣来生成推荐。它通过分析用户之间的相似性和物品之间的关系，检索出具有最高相似性的物品，从而生成推荐。

4.3大数据在医学领域的应用（流行病预测）

大数据在生物医学领域的应用可以用来进行流行病的预测。通过分析历史数据，结合机器学习技术，可以更加精准地预测流行病的发生情况，提供有助于预防流行病的政策和措施。此外，大数据还可以用于传染病的聚类分析，以帮助诊断和治疗，更好地控制疾病的传播。

4.4大数据在智能物流，智能交通的应用

大数据在智能物流智能交通中的应用主要有以下几点：1.实现高效的货运路径规划，提高运输效率；2.通过智能分析，预测和调度货物流，提高货物流的有效性；3.通过智能调度保障道路安全，并且能够持续优化城市交通；4.通过大数据进行智能计价，实现更高效的收费；5.通过精准定位系统，实现路况实时监控，有效预测和避免交通拥堵。