大数据 BigData
目录
- 大数据
- 不同高性能系统之间的比较
- 主要的大数据处理系统
- 大数据处理的基本流程
- 分布式系统中计算和数据的协作机制:集群技术
- 集群系统概述
- 集群文件系统的基本概念
大数据
大数据是指:在短时间内,无法用传统的IT技术和软硬件工具进行处理的数据集合。
这里传统的IT技术和软硬件工具是指单机计算模式和传统的数据分析算法。
因此实现大数据的分析通常需要从两个方面来着手:
①采用集群的方法来获取强大的数据分析能力;
②研究面向大数据的新的数据分析算法。
不同高性能系统之间的比较
主要的大数据处理系统
- 1.数据查询分析计算系统
大数据时代,数据查询分析计算系统需要具备对大规模数据实时或准实时查询的能力,数据规模的增长已经超出了传统关系型数据库的承载和处理能力。目前主要的数据查询分析计算系统包括HBase、Hive、Shark、Hana、Cassandra、Dremel、等。
- 2.批处理系统
MapReduce是被广泛使用的批处理计算模式。MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想,将数据记录的处理分为Map和Reduce两个简单的抽象操作,提供了一个统一的并行计算框架。批处理系统将并行计算的实现进行封装,大大降低开发人员的并行程序设计难度。Hadoop和Spark是典型的批处理系统。
3.流式计算系统
流式计算具有很强的实时性,需要对应用不断产生的数据实时进行处理,使数据不积压、不丢失,常用于处理电信、电力等行业应用以及互联网行业的访问日志等。Apache的Flume、Twitter的Storm、UCBerkeley的Spark Streaming、Facebook的Scribe、Yahoo的S4、是常用的流式计算系统。
4.迭代计算系统
针对MapReduce不支持迭代计算的缺陷,人们对Hadoop的MapReduce进行了大量改进,Haloop、Spark、iMapReduce、Twister、是典型的迭代计算系统。
5.图计算系统
社交网络、网页链接等包含具有复杂关系的图数据,这些图数据的规模巨大,可包含数十亿顶点和上百亿条边,图数据需要由专门的系统进行存储和计算。常用的图计算系统有Google公司的Pregel、Pregel的开源版本Giraph、微软的Trinity、Berkeley AMPLab的GraphX以及高速图数据处理系统PowerGraph。
6.内存计算系统
随着内存价格的不断下降和服务器可配置内存容量的不断增长,使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。目前常用的内存计算系统有分布式内存计算系统Spark、全内存式分布式数据库系统HANA、Google的可扩展交互式查询系统Dremel。
大数据处理的基本流程
分布式系统中计算和数据的协作机制:集群技术
集群技术的采用成为了应对大数据挑战最为直接的方法,在CPU计算速度无法满足数据增长的需要时通过增加计算节点来解决从技术的角度讲是最为简单的,所以目前我们所见到的大数据系统基本都采用了集群架构。
集群系统概述
集群系统是一个互相通过网络连接起来的计算机(节点)所构成的分布式系统,集群中的每一个节点都具有独立的存储系统,和共享存储系统相比集群是一种松耦合的系统。集群系统现在是实现高性能计算主要方法,集群系统不只是计算的聚集也是存储的聚集。这里所指的分布式系统包括分布式计算和分布式存储。
集群文件系统的基本概念
目前常用的HDFS、GFS、Lustre等文件系统都属于集群文件系统。
集群文件系统存储数据时并不是将数据放置于某一个节点存储设备上,而是将数据按一定的策略分布式地放置于不同物理节点的存储设备上。集群文件系统将系统中每个节点上的存储空间进行虚拟的整合,形成一个虚拟的全局逻辑目录,集群文件系统在进行文件存取时依据逻辑目录按文件系统内在的存储策略与物理存储位置对应,从而实现文件的定位。
大数据 BigData相关推荐
- 大数据bigdata
前言: 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各 ...
- 自学大数据需要从哪里入手 收藏了一份详细的学习路线图
大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生.IT.金融.农业.通信等方面都有广泛应用.未来5年大数据行业呈井喷趋势,人才需求火爆,2018年大数据人才缺口更是高达900万. ...
- 超级干货,一文看懂大数据的前世今生
"不参与大数据建设,10年后一定后悔".早在几年前,马云就在某次峰会中提到,未来30年,是从IT时代到DT时代的变革. 大数据发展态势 从上世纪60年代到现在,我们对数据的处理能 ...
- 移动大数据时代:无线网络的挑战与机遇
随着移动互联网.云计算.物联网.机器类型通信等新兴信息通信技术的飞速发展,信息社会进入了网络化的大数据时代.快速普及的智能化移动终端应用助推了全球移动数据流量的大幅度增长.在移动大数据时代,海量数据. ...
- EDM数据之大数据是什么
在EDM营销中,了解EDM数据最重要的一点是就是数据的准确性.解析来本文为大家介绍一下EDM数据中的大数据.请看下文的介绍. 大数据(Bigdata)是什么? IBM公司把大数据概括成了三个V,即大量 ...
- 「认识AI:人工智能如何赋能商业」【10】大数据基本概念
作者 | Harper 审核 | gongyouliu 编辑 | auroral-L 大数据基本概念 本期内容给大家带来的内容是来自于这本<认识AI,人工智能如何赋能商业>,这本书是我们数 ...
- 大数据生态系统 修仙之道 Hadoop Blog
大数据生态系统 修仙之道 Hadoop Blog @(2019-01-22)[Docs Language:简体中文 & English|Programing Language:Hadoop|W ...
- 大数据简介与大数据分析
最近几年,大数据热得像烫手山芋!什么是大数据?通过查阅资料,整理一番,博文将给您带来福利了! 大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用 ...
- 大数据简介视频下载_大数据简介
大数据简介视频下载 We are going to deliver a series of Tutorials on the following concepts one by one: 我们将逐一提 ...
最新文章
- pg数据库json数据类型_PG数据类型
- Tensorflow::Session 释放内存
- Windows server 2008 R2 通过策略关闭密码复杂性
- 关于分布式锁的面试题都在这里了
- Nginx的SSL相关指令
- php 登录记住密码,php 记住密码自动登录
- 面试项目亮点_程序员面试时这样介绍自己的项目经验,等于成功了一大半
- java编码转换报错_Java中BeanUtils的日期转换 代码报错 怎么解决
- windows mobile 上面固定比例图像缩放
- 感谢所有常来我博客的朋友
- 字符串处理 BestCoder Round #43 1001 pog loves szh I
- Elasticsearch 基本查询,term,match,
- 深入理解kafka 电子版
- Cannot pull, git cannot resolve reference ORIG_HEAD
- You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true
- 神山的方向至诚地祈祷、朝拜
- ctfshow 菜狗杯 化零为整 wp
- 更新harbor证书
- 用震盘实现中性笔这一大类笔的笔帽的定向上料设计(SolidWorks模型讲解)
- ABP VNext学习日记7
热门文章
- RK3568烧录系统
- 证件识别/证件识别SDK
- 我想转行程序员,上个编程培训班,能找到工作吗?我可以自学吗?
- uefi装完系统后无法引导_uefi安装win10无法启动?uefi安装win10无法启动原因分析及解决方法...
- 7.springcloudAlibaba-网关gateway
- 使用numpy.sin()打印矢量/矩阵元素的正弦值 使用Python的线性代数
- Bluetooth Profile Specification之1.1 A2DP 之Audio Codec(音频编解码器)-SBC
- openh264编解码器的编译与运行
- 飞利浦 V808 android
- 十款入门级微信小程序源码分享之三