云计算与大数据课程学习笔记

一.
1.什么是云计算？

  云计算（cloud computing）是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期，简单地说，就是简单的分布式计算，解决任务分发，并进行计算结果的合并。因而，云计算又称为网格计算。通过这项技术，可以在很短的时间内（几秒钟）完成对数以万计的数据的处理，从而达到强大的网络服务。现阶段所说的云服务已经不单单是一种分布式计算，而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。“云”实质上就是一个网络，狭义上讲，云计算就是一种提供资源的网络，使用者可以随时获取“云”上的资源，按需求量使用，并且可以看成是无限扩展的，只要按使用量付费就可以，“云”就像自来水厂一样，我们可以随时接水，并且不限量，按照自己家的用水量，付费给自来水厂就可以。从广义上说，云计算是与信息技术、软件、互联网相关的一种服务，这种计算资源共享池叫做“云”，云计算把许多计算资源集合起来，通过软件实现自动化管理，只需要很少的人参与，就能让资源被快速提供。也就是说，计算能力作为一种商品，可以在互联网上流通，就像水、电、煤气一样，可以方便地取用，且价格较为低廉。总之，云计算不是一种全新的网络技术，而是一种全新的网络应用概念，云计算的核心概念就是以互联网为中心，在网站上提供快速且安全的云计算服务与数据存储，让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。云计算是继互联网、计算机后在信息时代有一种新的革新，云计算是信息时代的一个大飞跃，未来的时代可能是云计算的时代，虽然目前有关云计算的定义有很多，但总体上来说，云计算虽然有许多得含义，但概括来说，云计算的基本含义是一致的，即云计算具有很强的扩展性和需要性，可以为用户提供一种全新的体验，云计算的核心是可以将很多的计算机资源协调在一起，因此，使用户通过网络就可以获取到无限的资源，同时获取的资源不受时间和空间的限制。

2.云计算的主要特点有哪些？

云计算的可贵之处在于高灵活性、可扩展性和高性比等，与传统的网络应用模式相比，其具有如下优势与特点：

（1）虚拟化技术
必须强调的是，虚拟化突破了时间、空间的界限，是云计算最为显著的特点，虚拟化技术包括应用虚拟和资源虚拟两种。众所周知，物理平台与应用部署的环境在空间上是没有任何联系的，正是通过虚拟平台对相应终端操作完成数据备份、迁移和扩展等。
（2）动态可扩展
云计算具有高效的运算能力，在原有服务器基础上增加云计算功能能够使计算速度迅速提高，最终实现动态扩展虚拟化的层次达到对应用进行扩展的目的。
（3）按需部署
计算机包含了许多应用、程序软件等，不同的应用对应的数据资源库不同，所以用户运行不同的应用需要较强的计算能力对资源进行部署，而云计算平台能够根据用户的需求快速配备计算能力及资源。
（4）灵活性高
目前市场上大多数IT资源、软、硬件都支持虚拟化，比如存储网络、操作系统和开发软、硬件等。虚拟化要素统一放在云系统资源虚拟池当中进行管理，可见云计算的兼容性非常强，不仅可以兼容低配置机器、不同厂商的硬件产品，还能够外设获得更高性能计算。
（5）可靠性高
倘若服务器故障也不影响计算与应用的正常运行。因为单点服务器出现故障可以通过虚拟化技术将分布在不同物理服务器上面的应用进行恢复或利用动态扩展功能部署新的服务器进行计算。
（6）性价比高
将资源放在虚拟资源池中统一管理在一定程度上优化了物理资源，用户不再需要昂贵、存储空间大的主机，可以选择相对廉价的PC组成云，一方面减少费用，另一方面计算性能不逊于大型主机。
（7）可扩展性
用户可以利用应用软件的快速部署条件来更为简单快捷的将自身所需的已有业务以及新业务进行扩展。如，计算机云计算系统中出现设备的故障，对于用户来说，无论是在计算机层面上，亦或是在具体运用上均不会受到阻碍，可以利用计算机云计算具有的动态扩展功能来对其他服务器开展有效扩展。这样一来就能够确保任务得以有序完成。在对虚拟化资源进行动态扩展的情况下，同时能够高效扩展应用，提高计算机云计算的操作水平。

3.云计算的关键技术有哪些？

（1）体系结构
实现计算机云计算需要创造一定的环境与条件，尤其是体系结构必须具备以下关键特征。第一，要求系统必须智能化，具有自治能力，减少人工作业的前提下实现自动化处理平台智地响应要求，因此云系统应内嵌有自动化技术；第二，面对变化信号或需求信号云系统要有敏捷的反应能力，所以对云计算的架构有一定的敏捷要求。与此同时，随着服务级别和增长速度的快速变化，云计算同样面临巨大挑战，而内嵌集群化技术与虚拟化技术能够应付此类变化。
云计算平台的体系结构由用户界面、服务目录、管理系统、部署工具、监控和服务器集群组成：
a.用户界面。主要用于云用户传递信息，是双方互动的界面。
b.服务目录。顾名思义是提供用户选择的列表。
c.管理系统。指的是主要对应用价值较高的资源进行管理。
d.部署工具。能够根据用户请求对资源进行有效地部署与匹配。
e.监控。主要对云系统上的资源进行管理与控制并制定措施。
f.服务器集群。服务器集群包括虚拟服务器与物理服务器，隶属管理系统。
g.资源监控
云系统上的资源数据十分庞大，同时资源信息更新速度快，想要精准、可靠的动态信息需要有效途径确保信息的快捷性。而云系统能够为动态信息进行有效部署，同时兼备资源监控功能，有利于对资源的负载、使用情况进行管理。其次，资源监控作为资源管理的“血液”，对整体系统性能起关键作用，一旦系统资源监管不到位，信息缺乏可靠性那么其他子系统引用了错误的信息，必然对系统资源的分配造成不利影响。因此贯彻落实资源监控工作刻不容缓。资源监控过程中，只要在各个云服务器上部署Agent代理程序便可进行配置与监管活动，比如通过一个监视服务器连接各个云资源服务器，然后以周期为单位将资源的使用情况发送至数据库，由监视服务器综合数据库有效信息对所有资源进行分析，评估资源的可用性，最大限度提高资源信息的有效性。
（3）自动化部署
科学进步的发展倾向于半自动化操作，实现了出厂即用或简易安装使用。基本上计算资源的可用状态也发生转变，逐渐向自动化部署。对云资源进行自动化部署指的是基于脚本调节的基础上实现不同厂商对于设备工具的自动配置，用以减少人机交互比例、提高应变效率，避免超负荷人工操作等现象的发生，最终推进智能部署进程。自动化部署主要指的是通过自动安装与部署来实现计算资源由原始状态变成可用状态。其于与计算中表现为能够划分、部署与安装虚拟资源池中的资源为能够给用户提供各类应用于服务的过程，包括了存储、网络、软件以及硬件等。系统资源的部署步骤较多，自动化部署主要是利用脚本调用来自动配置、部署与配置各个厂商设备管理工具，保证在实际调用环节能够采取静默的方式来实现，避免了繁杂的人际交互，让部署过程不再依赖人工操作。除此之外，数据模型与工作流引擎是自动化部署管理工具的重要部分，不容小觑。一般情况下，对于数据模型的管理就是将具体的软硬件定义在数据模型当中即可；而工作流引擎指的是触发、调用工作流，以提高智能化部署为目的，善于将不同的脚本流程在较为集中与重复使用率高的工作流数据库当中应用，有利于减轻服务器工作量。

二.
1.什么是集群？集群的类型有哪些？
计算机集群简称集群，是一种计算机系统，它通过一组松散集成的计算机软件(和/或)硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点，通常通过局域网连接，但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度(和/或)可靠性。一般情况下集群计算机比单个计算机，工作站或超级计算机性能价格比要高得多。
集群就是一组相互独立的计算机，通过高速的网络组成一个计算机系统，每个集群节点都是运行其自己进程的一个独立服务器。对网络用户来讲，网站后端就是一个单一的系统，协同起来向用户提供系统资源，系统服务。通过网络连接组合成一个组合来共同完一个任务。
集群可以分为：
（1）负载均衡集群：负载均衡集群为企业提供了更为实用，性价比更高的系统架构解决方案。负载均衡集群把很多客户集中访问的请求负载压力尽可能平均的分摊到计算机集群中处理。客户请求负载通常包括”应用程度处理负载”和”网络流量负载”。这样的系统非常适合向使用同一组应用程序为大量用户提供服务。每个节点都可以承担一定的访问请求负载压力，并且可以实现访问请求在各节点之间动态分配，以实现负载均衡。负载均衡运行时，一般通过一个或多个前端负载均衡器将客户访问请求分发到后端一组服务器上，从而达到整个系统的高性能和高可用性。这样计算机集群有时也被称为服务器群。一般高可用性集群和负载均衡集群会使用类似的技术，或同时具有高可用性与负载均衡的特点。
负载均衡集群的作用：分担访问流量（负载均衡）保持业务的连续性（高可用性）
（2）高可用性集群：一般是指当集群中的任意一个节点失效的情况下，节点上的所有任务自动转移到其他正常的节点上，并且此过程不影响整个集群的运行，不影响业务的提供。类似是集群中运行着两个或两个以上的一样的节点，当某个主节点出现故障的时候，那么其他作为从节点的节点就会接替主节点上面的任务。从节点可以接管主节点的资源（IP地址，架构身份等），此时用户不会发现提供服务的对象从主节点转移到从节点。
高可用性集群的作用：当一个机器宕机另一台进行接管。
比较常用的高可用集群开源软件有：keepalive，heardbeat。
（3）高性能计算集群：高性能计算集群采用将计算任务分配到集群的不同计算节点儿提高计算能力，因而主要应用在科学计算领域。比较流行的HPC采用Linux操作系统和其它一些免费软件来完成并行运算。这一集群配置通常被称为Beowulf集群。这类集群通常运行特定的程序以发挥HPCcluster的并行能力。这类程序一般应用特定的运行库, 比如专为科学计算设计的MPI库。HPC集群特别适合于在计算中各计算节点之间发生大量数据通讯的计算作业，比如一个节点的中间结果会影响到其它节点计算结果的情况。

2.什么是MPI？

    MPI是一个跨语言的通讯协议，用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口，包括协议和和语义说明，他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能，大规模性，和可移植性。与OpenMP并行程序不同，MPI是一种基于信息传递的并行编程技术。消息传递接口是一种编程接口标准，而不是一种具体的编程语言。简而言之，MPI标准定义了一组具有可移植性的编程接口。MPI在今天仍为高性能计算的主要模型。主要的MPI-1模型不包括共享内存概念，MPI-2只有有限的分布共享内存概念。 但是MPI程序经常在共享内存的机器上运行。在MPI模型周边设计程序比在NUMA架构下设计要好因为MPI鼓励内存本地化。尽管MPI属于OSI参考模型的第五层或者更高，他的实现可能通过传输层的sockets和Transmission Control Protocol (TCP)覆盖大部分的层。大部分的MPI实现由一些指定惯例集（API）组成，可由C,C++,Fortran,或者有此类库的语言比如C#, Java or Python直接调用。MPI优于老式信息传递库是因为他的可移植性和速度。

3.什么是网格计算？

（1）分布式计算是一种新提出的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息，这些软件既可以在同一台计算机上运行，也可以在通过网络连接起来的多台计算机上运行。
分布式计算是利用互联网上的计算机的 CPU 的闲置处理能力来解决大型计算问题的一种计算科学。随着计算机的普及，个人电脑开始进入千家万户。与之伴随产生的是电脑的利用问题。越来越多的电脑处于闲置状态，即使在开机状态下CPU的潜力也远远不能被完全利用。我们可以想象，一台家用的计算机将大多数的时间花费在“等待”上面。即便是使用者实际使用他们的计算机时,处理器依然是寂静的消费，依然是不计其数的等待（等待输入，但实际上并没有做什么）。互联网的出现,使得连接调用所有这些拥有闲置计算资源的计算机系统成为了现实。那么，一些本身非常复杂的但是却很适合于划分为大量的更小的计算片断的问题被提出来，然后由某个研究机构通过大量艰辛的工作开发出计算用服务端和客户端。服务端负责将计算问题分成许多小的计算部分，然后把这些部分分配给许多联网参与计算的计算机进行并行处理，最后将这些计算结果综合起来得到最终的结果。分布式计算意味着应用程序不再“绑定”到具体的物理系统和平台软件上，数据和程序是能够在计算节点间“流动起来”的。
（2）网格计算是分布式计算的一种，是一门计算机科学。它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终结果。最近的分布式计算项目已经被用于使用世界各地成千上万志愿者的计算机的闲置计算能力，通过因特网，您可以分析来自外太空的电讯号，寻找隐蔽的黑洞，并探索可能存在的外星智慧生命；您可以寻找超过1000万位数字的梅森质数；您也可以寻找并发现对抗艾滋病毒更为有效的药物。用以完成需要惊人的计算量的庞大项目。

4.云计算、MPI、网格计算的区别？

分布式计算

分布式计算是利用互联网上的计算机的中央处理器的闲置处理能力来解决大型计算问题的一种计算科学。研究如何把巨大的问题分成许多小的部分，然后把这些小任务分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。在两个或多个软件间互相共享数据，这些软件既可以在同一台计算机上运行,也可以在利用网络连接起来的多台计算机上运行。

网格计算

网格计算也是一种分布式计算,通过利用大量异构计算机的未用资源，将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群，为解决大规模的计算问题提供了一个模型。网格计算的焦点放在支持跨管理域计算的能力，这使它与传统的计算机集群或传统的分布式计算相区别。

云计算

云计算和网格计算都是属于分布式计算。它们之间的一个重要区别在于资源调度模式。云计算采用集群来存储和管理数据资源,运行的任务以数据为中心。即调度计算任务到数据存储节点运行。而网格计算则以计算为中心。计算资源和存储资源分布在因特网的各个角落，不强调任务所需的计算和存储资源同处一地。由于网络带宽的限制，网格计算中的数据传输时间占总运行时间的很大一部分。网格将数据和计算资源虚拟化，而云计算则进一步将硬件资源虚拟化，活用虚拟机技术，对失败任务重新执行，而不必重启任务。同时，网格内各节点采用统一的操作系统，大部分为UNIX，而云计算放宽了条件，在各种操作系统的虚拟机上提供各种服务。和网格的复杂管理方式不同,云计算提供一种简单易用的管理环境。另外,网格和云在付费方式上有着显著的不同。网格按照固定的资费标准收费或者若干组织之间共享空闲资源。而云计算则采用时付费以及服务等级协议的模式收费。其他区别不再赘述。

5.云计算与大数据的关系？
大数据（big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。他俩之间的关系可以这样来理解，云计算技术就是一个容器，大数据正是存放在这个容器中的水，大数据是要依靠云计算技术来进行存储和计算的。
大数据的趋势：
（1）数据的资源化
何为资源化，是指大数据成为企业和社会关注的重要战略资源，并已成为大家争相抢夺的新焦点。因而，企业必须要提前制定大数据营销战略计划，抢占市场先机。
(2)与云计算的深度结合
大数据离不开云处理，云处理为大数据提供了弹性可拓展的基础设备，是产生大数据的平台之一。自2013年开始，大数据技术已开始和云计算技术紧密结合，预计未来两者关系将更为密切。除此之外，物联网、移动互联网等新兴计算形态，也将一齐助力大数据革命，让大数据营销发挥出更大的影响力。
(3)科学理论的突破
随着大数据的快速发展，就像计算机和互联网一样，大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术，可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破。

三.

1.机器学习与数据挖掘的区别？

      机器学习：广泛的定义为"利用经验来改善计算机系统的自身性能。"，事实上，由于“经验”在计算机系统中主要是以数据的形式存在的，因此机器学习需要设法对数据进行分析，这就使得它逐渐成为智能数据分析技术的创新源之一，并且因此而受到越来越多的关注。数据挖掘：一种解释是“识别出海量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”，顾名思义，数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘可以认为是数据库技术与机器学习的交叉，它利用数据库技术来管理海量的数据，并利用机器学习和统计分析来进行数据分析。数据挖掘受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。简单地说，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能在进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。数据挖掘并非只是机器学习在工业上的简单应用，它们之间至少包含下面两个重要的区别:（1）传统的机器学习研究并不把海量数据作为处理对象，因此，数据挖掘必须对这些技术和算法进行专门的的改造。（2）作为一个独立的学科，数据挖掘也有其独特的东西，即：关联分析。简单地说，关联分析就是希望从数据中找出“买尿布的人很可能会买啤酒”这样的有实际意义的模式。

2.大数据处理系统的分类和各自特点？

  大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力，因此海量数据的处理对于当前存在的技术来说是一种极大的挑战。目前，人们对大数据的处理形式主要是对静态数据的批量处理，对在线数据的实时处理，以及对图数据的综合处理。其中，在线数据的实时处理又包括对流式数据的处理和实时交互计算两种：

（1）批量数据处理系统：利用批量数据挖掘合适的模式，得出具体的含义，制定明智的决策，最终做出有效的应对措施实现业务目标是大数据批处理的首要任务。大数据的批量处理系统适用于先存储后计算，实时性要求不高，同时数据的准确性和全面性更为重要的场景。批量数据的特征通常有3个：
第一，数据体量巨大。数据从TB级别跃升到PB级别。数据是以静态的形式存储在硬盘中，很少进行更新，存储时间长，可以重复利用，然而这样大批量的数据不容易对其进行移动和备份。
第二，数据精确度高。批量数据往往是从应用中沉淀下来的数据，因此精度相对较高，是企业资产的一部分宝贵财富。
第三，数据价值密度低。以视频批量数据为例，在连续不断的监控过程中，可能有用的数据仅仅有一两秒。因此，需要通过合理的算法才能从批量的数据中抽取有用的价值。此外，批量数据处理往往比较耗时，而且不提供用户与系统的交互手段，所以当发现处理结果和预期或与以往的结果有很大差别时，会浪费很多时间。因此，批量数据处理适合大型的相对比较成熟的作业。
（2）流式数据处理系统：Google于2010年推出了Dremel，引领业界向实时数据处理迈进。实时数据处理是针对批量数据处理的性能问题提出的，可分为流式数据处理和交互式数据处理两种模式。在大数据背景下，流式数据处理源于服务器日志的实时采集，交互式数据处理的目标是将PB级数据的处理时间缩短到秒级。通俗而言，流式数据是一个无穷的数据序列，序列中的每一个元素来源各异，格式复杂，序列往往包含时序特性，或者有其他的有序标签(如IP报文中的序号)。从数据库的角度而言，每一个元素可以看作是一个元组，而元素的特性则类比于元组的属性。流式数据在不同的场景下往往体现出不同的特征，如流速大小、元素特性数量、数据格式等，但大部分流式数据都含有共同的特征，这些特征便可用来设计通用的流式数据处理系统：
首先，流式数据的元组通常带有时间标签或其余含序属性。因此，同一流式数据往往是被按序处理的。然而数据的到达顺序是不可预知的，由于时间和环境的动态变化，无法保证重放数据流与之前数据流中数据元素顺序的一致性。这就导致了数据的物理顺序与逻辑顺序不一致。而且，数据源不受接收系统的控制，数据的产生是实时的、不可预知的。此外，数据的流速往往有较大的波动，因此需要系统具有很好的可伸缩性，能够动态适应不确定流入的数据流，具有很强的系统计算能力和大数据流量动态匹配的能力。
其次，数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的。数据流中往往含有错误元素、垃圾信息等。因此流式数据的处理系统要有很好的容错性与异构数据分析能力，能够完成数据的动态清洗、格式处理等。最后，流式数据是活动的(用完即弃)，随着时间的推移不断增长，这与传统的数据处理模型(存储查询)不同，要求系统能够根据局部数据进行计算，保存数据流的动态属性。流式处理系统针对该特性，应当提供流式查询接口，即提交动态的SQL语句，实时地返回当前结果。
（3）交互式数据处理系统：与非交互式数据处理相比，交互式数据处理灵活、直观、便于控制。系统与操作人员以人机对话的方式一问一答——操作人员提出请求，数据以对话的方式输入，系统便提供相应的数据或提示信息，引导操作人员逐步完成所需的操作，直至获得最后处理结果。采用这种方式，存储在系统中的数据文件能够被及时处理修改，同时处理结果可以立刻被使用。交互式数据处理具备的这些特征能够保证输入的信息得到及时处理，使交互方式继续进行下去。
（4）图数据处理系统：图由于自身的结构特征，可以很好地表示事物之间的关系，在近几年已成为各学科研究的热点。图中点和边的强关联性，需要图数据处理系统对图数据进行一系列的操作，包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等。随着图中节点和边数的增多(达到几千万甚至上亿数)，图数据处理的复杂性给图数据处理系统提出了严峻的挑战。下面主要阐述图数据的特征和典型应用以及代表性的图数据处理系统。
图数据中主要包括图中的节点以及连接节点的边，通常具有3个特征。
第一，节点之间的关联性。图中边的数量是节点数量的指数倍，因此，节点和关系信息同等重要，图结构的差异也是由于对边做了限制，在图中，顶点和边实例化构成各种类型的图，如标签图、属性图、语义图以及特征图等。
第二，图数据的种类繁多。在许多领域中，使用图来表示该邻域的数据，如生物、化学、计算机视觉、模式识别、信息检索、社会网络、知识发现、动态网络交通、语义网、情报分析等。每个领域对图数据的处理需求不同，因此，没有一个通用的图数据处理系统满足所有领域的需求。
第三，图数据计算的强耦合性。在图中，数据之间是相互关联的，因此，对图数据的计算也是相互关联的。这种数据耦合的特性对图的规模日益增大达到上百万甚至上亿节点的大图数据计算提出了巨大的挑战。大图数据是无法使用单台机器进行处理的，但如果对大图数据进行并行处理，对于每一个顶点之间都是连通的图来讲，难以分割成若干完全独立的子图进行独立的并行处理;即使可以分割，也会面临并行机器的协同处理，以及将最后的处理结果进行合并等一系列问题。这需要图数据处理系统选取合适的图分割以及图计算模型来迎接挑战并解决问题。

3.大数据处理的基本流程？

   大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节，其中数据质量贯穿于整个大数据流程，每一个数据处理环节都会对大数据质量产生影响作用。通常，一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释：（1）数据收集在数据收集过程中，数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。对于Web数据，多采用网络爬虫方式进行收集，这需要对爬虫软件进行时间设置以保障收集到的数据时效性质量。比如可以利用易海聚采集软件的增值API设置，灵活控制采集任务的启动和停止。（2）数据预处理大数据采集过程中通常有一个或多个数据源，这些数据源包括同构或异构的数据库、文件系统、服务接口等，易受到噪声数据、数据值缺失、数据冲突等影响，因此需首先对收集到的大数据集合进行预处理，以保证大数据分析与预测结果的准确性与价值性。大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容，可以大大提高大数据的总体质量，是大数据过程质量的体现。 数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面，有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量。数据集成则是将多个数据源的数据进行集成，从而形成集中、统一的数据库、数据立方体等，这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量;数据归约是在不损害分析结果准确性的前提下降低数据集规模，使之简化，包括维归约、数据归约、数据抽样等技术，这一过程有利于提高大数据的价值密度，即提高大数据存储的价值性。数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术，可通过转换实现数据统一，这一过程有利于提高大数据的一致性和可用性。总之，数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量，而大数据预处理中的相关技术是影响大数据过程质量的关键因素
（3）数据处理与分析a.数据处理:大数据的分布式处理技术与存储形式、业务数据类型等相关，针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。MapReduce是一个批处理的分布式计算框架，可对海量数据进行并行分析与处理，它适合对各种结构化、非结构化数据的处理。分布式内存计算系统可有效减少数据读写和移动的开销，提高大数据处理性能。分布式流计算系统则是对数据流进行实时处理，以保障大数据的时效性和价值性。总之，无论哪种大数据分布式处理与计算系统，都有利于提高大数据的价值性、可用性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统，而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。因此在进行大数据处理时，要根据大数据类型选择合适的存储形式和数据处理系统，以实现大数据质量的最优化。b.数据分析:大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。分布式统计分析可由数据处理技术完成，分布式挖掘和深度学习技术则在大数据分析阶段完成，包括聚类与分类、关联分析、深度学习等，可挖掘大数据集合中的数据关联性，形成对事物的描述模式或属性规则，可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。数据分析是大数据处理与应用的关键环节，它决定了大数据集合的价值性和可用性，以及分析预测结果的准确性。在数据分析环节，应根据大数据应用情境与决策需求，选择合适的数据分析技术，提高大数据分析结果的可用性、价值性和准确性质量。(4)数据可视化与应用环节数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程，并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息，以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性， 便于用户理解与使用，故数据可视化是影响大数据可用性和易于理解性质量的关键因素。大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程，它是对大数据分析结果的检验与验证，大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。在大数据收集、处理等一系列操作之前，通过对应用情境的充分调研、对管理决策需求信息的深入分析，可明确大数据处理与分析的目标，从而为大数据收集、存储、处理、分析等过程提供明确的方向，并保障大数据分析结果的可用性、价值性和用户需求的满足。

云计算与大数据课程学习笔记相关推荐

云计算和大数据技术---学习笔记
云计算和大数据技术 Part 1 云计算基础思维导图: 练习题: Part 1 云计算基础思维导图: 练习题: 云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,通常技术人员在 ...
大数据业务学习笔记_学习业务成为一名出色的数据科学家
大数据业务学习笔记意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...
云计算和大数据课程开课简介
云计算和大数据课程开课简介前言:小编今年还是大学的学生,这一学期学校开了有关于云计算.大数据.以及大数据仓库方面的课程,写这一系列的博客真正的意义并不在于说小编有学的多好(小编从小就是一个学渣), ...
大数据HiveSQL学习笔记三-查询基础语法以及常用函数
大数据HiveSQL学习笔记三-查询基础语法以及常用函数一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...
【博学谷学习记录】超强总结，用心分享|大数据课程-学习第三周总结
1. 大数据课程导论数据分析的前提是有数据,数据存储的目的是支撑数据分析.究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题.传统的数据存储模式存储容量是有大小限制或者空间局限限制 ...
读《从0开始学大数据》-- 学习笔记和感想随笔（一）
主要记录阅读<从0开始学大数据>课程的学习笔记.课程系统性的介绍大数据的发展史.大数据系统的原理及架构.大数据生态体系中的主要产品.如何进行呢大数据开发实践.大数据平台开发及系统集成.使用 ...
大数据 -- kafka学习笔记：知识点整理（部分转载）
一为什么需要消息系统 1.解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...
大数据技术学习笔记
内容来自:大数据技术视频课程目标课程模块第一讲大数据概念及计算简介要求:对本课程教学目标.内容.方式做一个全面概要介绍内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服 ...
大数据Hadoop学习笔记01
1.Google在大数据方面三篇论文: GFS----HDFS Map-Reduce---MR BigTable---HBase 2.Hadoop优势: 高可靠性.高扩展性.高效性.高容错性 3.Ha ...

云计算与大数据课程学习笔记

云计算与大数据课程学习笔记相关推荐

最新文章

热门文章