什么是大数据?

可以从四个方面概括:数据量(volume)、处理速度(velocity)、多样性(variety)、真实性(veracity),简称4V。

Volume(数据量)

数据量大是大数据的比较明显的特征,一般是TB级的数据量,并且每天数据的增长量比较大。

Velocity(速度)

要求数据的处理速度比较快,从数据采集、加工处理、分析到产生价值的速度,能够及时快速的响应,并不能因为数据量大,响应速度就慢下来。

Variety(多样性)

数据的来源不同,数据类型不同(结构化、非结构化)、比如可能来自网站的日志文件、数据库中库表等。

Veracity(准确性)

因为采集到的数据会掺杂太多的无用信息,需要确保收集到的数据非常准确、准确,否则对虚假的数据做处理也不会产生任何有用价值。

对应这些方面,每个方面都需要专用的处理工具:

  • 数据加工——这些工具用来执行某种形式的计算和提取处理,比如对杂乱无序的数据做排序、筛选操作。比如像Storm、HBase、Hive等。
  • 数据传输——这些工具用来收集和接受数据并传输给数据加工系统(或者在不同的系统组件间传输)。这些工具的做法通常是使用消息总线(message bus)或消息队列。比如像Kafka、Flume、Sqoop等。
  • 数据存储——这些工具用来保存数据加工过程中不同阶段的数据存储。比如像分布式的文件系统(HDFS)和GlusterFS,还有像Cassandra这样的NoSQL数据库。

大数据和关系型数据库的区别?

主要区别体现在数据规模、数据类型(结构化、非结构化)、产生模式(来源多样性)。以及处理对象、处理工具的变化,由以计算为主转到以数据处理为主。

大数据的处理模式

大数据的处理模式大致可分为两种:一种为批处理(batch processing),另一种为流处理模式(stream processing)。两者的区别是批处理是先存储在处理,流处理是直接处理,然后再存储,甚至不存。

1、批处理(batch processing)

批处理模式最具代表性的就是MapReduce,它先将原数据分块,然后分别分发给多个map任务处理,每个map任务对输入进行解析,提取出键值对集合,然后由用户自定义的map函数对这些键值对集合做处理,得到中间结果并输出到磁盘上。然后由reduce任务读取这些中间结果,并根据Key值进行相关的排序、合并,最后由用户自定义的reduce函数对这些已排序的结果做处理,得到最终结果并输出。
从MapReduce的处理过程可以看出其核心设计思想是:
a、将问题分而治之
b、把计算推到数据端,而不是把数据推到计算端,这样可以避免数据传输过程中产生的大量通信开销,有效降低网络带宽。

2、流处理(stream processing)

流处理模式的目标是尽可能快地对最新的数据进行分析并给出结果,因为数据的价值会随着时间的流逝而减少。
流处理模式将数据视为流,源源不断的数据就形成了数据流,当新的数据到达时就立刻处理并返回所需结果。数据流本身具有持续性、速度快且数据量大等特点,通常不会对数据做持久化存储。并且由于响应时间的要求,流处理的过程基本都是在内存中进行的,因此内存是流处理的一个瓶颈。
在流处理方面做得比较好的,如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等等。
无论是批处理还是流处理都是大数据的可行思路,在实际的大数据处理中,通常并不是简单的使用其中某一种,更多的是将两者结合起来使用。
3、大数据的基本处理流程
大数据的处理流程可以定义为通过某种合适的工具,对广泛异构的数据进行抽取、筛选、集成,并把结果按照一定的标准统一存储。然后利用合适的数据分析技术对存储的数据进行分析,从中提取出有价值的信息,并利用某种方式展现给终端用户。简单点说分为数据的抽取与集成、数据分析以及数据解释。

什么是大数据(Big Data)?相关推荐

  1. 大数据Big Data

    转载自  大数据Big Data 2012年本站曾对大数据预测:如果说2012年是大数据概念为人所知.引人瞩目.小试牛刀的一年,那么2013年大数据将会实现产品部署,早期投资获得回报,一小部分的产业被 ...

  2. 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...

    大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...

  3. 认知:大数据-Big Data

    大数据-Big Data 作者 | WenasWei 一 大数据 大数据(Big Data)也称为海量数据(Massivee),是随着计算机技术及互联网技术的高速发展而产生的数据现象,2013年也称为 ...

  4. == 大数据 Big Data ==

    The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collabo ...

  5. 阿里巴巴以9000万欧元收购德国大数据公司Data Artisans

    数据猿导读 阿里巴巴虽以电子商务而闻名,但同时拥有云计算.流媒体服务等众多业务.转向开源和基础架构技术,对阿里巴巴来说未来的意义非凡. 来源:数据猿丨作者:吴丹 数据猿官网 | www.datayua ...

  6. 大数据-数据仓库(Data Warehouse):概述【面向主题的、集成的、相对稳定的、反映历史变化的数据集合;是一个数据处理过程(清洗、转义、分类、重组、合并、拆分、统计等)】

    一.数据仓库介绍 1.数据仓库概念 数据仓库概念创始人在<建立数据仓库>一书中对数据仓库的定义是:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented ...

  7. Spark - 大数据Big Data处理框架

    Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右. Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来 ...

  8. 什么是大数据口子_大数据分析师年薪几十万,学什么专业才能从事大数据?

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  9. 2013大数据全球技术峰会观后感

    今天很荣幸参加了51CTO举办的大数据全球技术峰会,并聆听了各行各业的专家们对于大数据的阐释,非常感谢51CTO举办这次峰会.以前,我认为大数据就是海量数据.但是今天我懂得了海量数据只是大数据的一部分 ...

  10. 科普丨数据中心、云计算、大数据之间有什么区别和联系?

    不少人把数据中心.云计算数据中心.大数据搞混淆,觉得这三者是一样的产品,其实有显著地区别,数据中心机房是一整套复杂的设施,如今,云计算即将成为信息社会的公共资源,而数据中心则是支撑云计算服务的基础设施 ...

最新文章

  1. 学习一个 Linux 命令:sort 命令
  2. 独家 | 教你使用Keras on Google Colab(免费GPU)微调深度神经网络
  3. linux的权限管理以及特殊权限SUID,SGID,Sticky
  4. 手把手教你玩转SOCKET模型之重叠I/O篇(下)
  5. Bootstrap简介及Bootstrap里的栅格系统col-md/sm/xs-x;
  6. php基础遍历,php 数据遍历
  7. Java 中sleep()与wait()的区别
  8. linux 远程赋值,linux 简单远程复制命令scp参数
  9. scp传服务器文件,使用tar、scp和screen在服务器之间传输文件
  10. CocoaPods之Podfile\Podfile.lock
  11. Eclipse 性能优化
  12. MoviePy问题解决汇总
  13. 【Matlab】三维绘图总结
  14. R语言实现RMF模型
  15. oracle expdp 11,oracle11g使用expdp/impdp备份数据
  16. SQL Server基础操作(此随笔仅作为本人学习进度记录六 !--程序块和循环)
  17. openssl 开发库下载集合
  18. 视觉SLAM十四讲学习笔记-第三讲-旋转向量、欧拉角、四元数
  19. chapter.初识1.1(正则表达式一)
  20. 2020年全球数据中心十大发展趋势

热门文章

  1. VMware Workstation 15界面,英文改中文
  2. 基于PP-Human V2的闯入人员检测
  3. Ubuntu下解压rar文件的方法
  4. pycharm安装教程-pycharm安装详细步骤(Mac版)
  5. Android之MVP模式
  6. RK3399实际解码能力测试
  7. 大数据与AI时代,企业爆发之道?Tesra超算网络保驾护航!
  8. 利用qwinsta和rwinsta察看连接到一个机器的连接数
  9. wazuh-monitord agent连接监控
  10. 在3G中实现LBS的定位技术和GIS系统