1.大数据环境下的数据处理需求
在大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。但是传统数据处理的方法的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。而传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求。
2.大数据的处理流程的步骤和传统数据处理流程的差异
大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。大数据技术能够提高数据的处理速度是因为大数据有并行处理的好工具,这个工具就是MapReduce。而大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。而MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。这是因为MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。例如,对10T大小行存储的文本文件进行重复行处理:
传统数据处理方法处理流程如图1所示:
环境:PC机1台,8G内存
第一步:读文件并进行取模将相同行写入小文件
第二步:分别读取小文件并进行重复行的处理

Hadoop处理流程如图2所示:
环境:PC机100台,8G内存
第一步:文件进行线性切割然后平均存储在100台PC机上
第二步:每台PC机读取当前机器上的切割后的文件,进行取模计算并写入文件
第三步:每台PC机分别拉取与自己编号相同的小文件进行对数据的重复处理

3.大数据处理的基本流程
大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节如图3所示,其中数据质量贯穿于整个过程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释,本文将基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。

(1)数据收集
在数据收集过程中,数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。对于Web数据,多采用网络爬虫方式进行收集,这需要对爬虫软件进行时间设置以保障收集到的数据时效性质量。
(2)数据预处理
大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性与价值性。
大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容,可以大大提高大数据的总体质量,是大数据过程质量的体现。数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量;
数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等,这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量;
数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,即提高大数据存储的价值性。
数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一,这一过程有利于提高大数据的一致性和可用性。
总之,数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量,而大数据预处理中的相关技术是影响大数据过程质量的关键因素
(3)数据处理与分析
1、数据处理
大数据的分布式处理技术与存储形式、业务数据类型等相关,针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。MapReduce是一个批处理的分布式计算框架,可对海量数据进行并行分析与处理,它适合对各种结构化、非结构化数据的处理。分布式内存计算系统可有效减少数据读写和移动的开销,提高大数据处理性能。分布式流计算系统则是对数据流进行实时处理,以保障大数据的时效性和价值性。
总之,无论哪种大数据分布式处理与计算系统,都有利于提高大数据的价值性、可用性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统,而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。因此在进行大数据处理时,要根据大数据类型选择合适的存储形式和数据处理系统,以实现大数据质量的最优化。
2、数据分析
大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。分布式统计分析可由数据处理技术完成,分布式挖掘和深度学习技术则在大数据分析阶段完成,包括聚类与分类、关联分析、深度学习等,可挖掘大数据集合中的数据关联性,形成对事物的描述模式或属性规则,可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。
数据分析是大数据处理与应用的关键环节,它决定了大数据集合的价值性和可用性,以及分析预测结果的准确性。在数据分析环节,应根据大数据应用情境与决策需求,选择合适的数据分析技术,提高大数据分析结果的可用性、价值性和准确性质量。
(4)数据可视化与应用环节
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息,以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性, 便于用户理解与使用,故数据可视化是影响大数据可用性和易于理解性质量的关键因素。
大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。
在大数据收集、处理等一系列操作之前,通过对应用情境的充分调研、对管理决策需求信息的深入分析,可明确大数据处理与分析的目标,从而为大数据收集、存储、处理、分析等过程提供明确的方向,并保障大数据分析结果的可用性、价值性和用户需求的满足。

传统数据处理技术如何与大数据处理技术有机结合相关推荐

  1. 大数据、云计算、物联网相关技术概述——《大数据技术原理与应用》课程学习总结

    在学习大数.云计算以及物联网相关概念之前,先了解一下大数据的背景吧 1.1 大数据时代 1.1.1 第三次信息化浪潮 三次信息化浪潮: 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次信息化浪潮 ...

  2. 5g空分复用技术_5G十大关键技术之三的空分复用

    笔者在描述5G的十大关键技术时,列举了其中一个关键技术是:空分复用(Space Division Multiplexing,SDM). 在讨论空分复用之前,我们有必要知道什么是空分复用,以及移动通信中 ...

  3. python数据处理常用函数_Python大数据处理模块Pandas

    Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数 ...

  4. python编程技术总结_大数据技术学习之Spark技术总结

    Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合.需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是 ...

  5. 《深入理解大数据:大数据处理与编程实践》一一1.2 大数据处理技术简介

    本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第1章,第1.2节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...

  6. 大数据处理技术之hadoop概览

    上两个图,可以对热到极致的大数据处理技术有一个基本的认识 大数据处理技术之演进 大数据处理技术之hadoop软件族: hadoop 1 hadoop2 相关软件下面简介: 1 Ambari:Hadoo ...

  7. 【大数据】企业级大数据技术体系概述

    目录 产生背景 常见应用场景 企业级大数据技术框架 数据收集层 数据存储层 资源管理与服务协调层 计算引擎层 数据分析层 数据可视层 企业级大数据技术实现方案 Google 大数据技术栈 Hadoop ...

  8. 水环境模型与大数据技术融合研究

    点击上方蓝字关注我们 水环境模型与大数据技术融合研究 马金锋1, 饶凯锋1, 李若男1,2, 张京1, 郑华1,2 1 中国科学院生态环境研究中心城市与区域生态国家重点实验室,北京 100085 2  ...

  9. 大数据技术在发展 挑战与机遇并存

    大数据技术是在传统数据处理手段无法应对海量数据的实时需求的情况下,采用新的信息技术来应对大数据爆发进行数据处理的技术.大数据技术一般可以包括基础架构支持.数据采集.数据存储.数据计算和数据展现交互等. ...

  10. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

最新文章

  1. 轻断食是一种科学的减肥方法吗?
  2. Oracle数据加载之sqlldr工具的介绍
  3. nginx 错误502 upstream sent too big header while reading response header from upst
  4. pythonsorted_[转].Python中sorted函数的用法
  5. 分布式架构中一致性解决方案——Zookeeper集群搭建
  6. 2020最新Java线程池入门(超详细)
  7. 可重入锁 不可重入锁_什么是可重入锁?
  8. A Simple Note on P4FPGA: A Rapid Prototyping Framework for P4
  9. 计算机图形学学习报告,计算机图形学学习报告.doc
  10. 数据结构---array
  11. #nginx# 泛解析大量域名的情况下 将不带www的域名,301到与之对应的www前缀的域名...
  12. 后台开发(1)---app后台开发入门
  13. 写出杨辉三角_认识杨辉三角
  14. 查看tensorflow版本以及路径:
  15. java(20) - 代理模式
  16. Android Studio稍微较新的版本下载
  17. SSM Generator生成mapper中xml文件:未能解析映射资源:“文件嵌套异常
  18. codeforces 455D Serega and Fun
  19. Atitit.变量的定义 获取 储存 物理结构 基本类型简化 隐式转换 类型推导 与底层原理 attilaxDSL
  20. 【机房报修管理系统】1.简介篇 机房报修管理系统简介

热门文章

  1. 鸿蒙os自定义主题,通过鸿蒙自定义属性,来创造一个可以为所欲为的自定义标题组件...
  2. 第十一章 ESL-通过事件控制FreeSWITCH
  3. Leetcode(347)——前 K 个高频元素
  4. 数据库设计5-逻辑结构设计
  5. 360杀毒软件无视宏病毒!
  6. GDPR 和个人信息保护的小知识
  7. MYSQL-JDBC数据库实战-宠物商店
  8. QT 加载歌词LRC文件
  9. 太牛了!B 站 UP 主开发会写高考作文的 AI
  10. Oblog 2.52导出日志最新漏洞