大数据入门简介(一)了解大数据
大数据入门简介(一)
首先我们先想想为什么会大数据,或者说它能干什么?
与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大好好谈谈这个大数据。
一、概念(三无、俩海)
1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合(三无)。
2、大数据主要解决(俩海):海量的数据存储和海量的数据计算问题。
二、特性(四V俩固)
四大特性(4V):
Volume:大数据量。大多是过去俩年产生的数据
Velocity:速度快。数据增长速度快,时效性比较高
Variety:多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。
Value:价值密度低。需要深入挖掘数据信息。
固有特性:
时效性
不可变性
三、Hadoop
1、介绍
Hadoop是一个开源的分布式系统架构。
我们可以看看他的发展及版本。
(1)、Hadoop起源于搜索引擎Apache Nutch
创始人:Doug Cutting
2004年:最初版本
2008年:成为Apache顶级项目
(2)、Hadoop发行的版本
社区版:Apache Hadoop版本。开源,免费,你懂的,国内大多数公司都在用。
Cloudera发行版:CDH。这个现在好像需要money了,不过适合小公司使用,兼容性高。
Hortonworks发行版:HDP。这个就不多介绍了,感兴趣的可以查查。
(3)、那为什么我们要使用Hadoop呢?(三高+三优)
首先我们先说说三高吧:
高扩展性:在集群件分配任务数据,可方便的扩展数以千计的节点。
高可靠性:Hadoop底层维护了多个数据副本。
高容错性:Hadoop阔加能够自动将失败的任务重新分配。
听了这三高是不是就已经觉得他已经很牛了?别急,还有呢。。。
我们再说说它的三个优吧:
低成本:Hadoop架构可以允许部署在不同机器上,哪怕你这个机器再垃圾都可以噢,老省钱了。
灵活:Hadoop可以存储在任意类型的数据。
开源:它是开放式的,社区活跃,有很多大神再社区活动,你们懂的,还不赶紧抱大腿,嘿嘿嘿。。。
(4)、Hadoop和RDBMs数据库对比
我们既然说到了数据库,不妨把俩者做个比较吧。
为了大家能够清晰的明白它们之间的不同和优异,我给它做了个表格(在此声明,绝对不是我懒,主要是最近一直敲字,快吐了。。。。)
Hadoop | RDBMS | |
---|---|---|
格式 | 读数据时要求 | 写数据时要求 |
速度 | 写数据速度快 | 读数据速度快 |
数据监管 | 任意的数据结构 | 标准结构化 |
数据处理 | 处理能力绝对牛 | 处理能力有限 |
数据类型 | 结构化、半结构化、非结构化 | 只能是结构化数据 |
应用场景 |
OLAP 处理非结构化数据 海量的数据存储计算 |
交互式OLTP ACID事务处理 企务系统 |
在这里可以额外提一个知识点:OLAP和OLTP
OLTP(On-line Transaction Processing):联机事务处理。一般针对具体的业务在数据库中的操作。
OLAP(On-line Analytical Processing):联机分析处理。一般针对某些主题的历史数据进行处理,支持管理类型的决策。
概览类型的估计大家也不想看,那咱们就是上图,简单明了,将俩者进行一个对比。
2、功能
解决海量数据存储、海量数据计算的问题。
3、优势
1、处理海量数据的架构首选。
2、非常快的完成大数据的计算任务。
3、至今为止,这种架构已经发展成一种Hadoop生态圈。
如下图所示:
针对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。
乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。
下面给大家一一列举:
HDFS:分布式文件系统。解决分布式存储。
MapReduce:分布式计算框架。
对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。
乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。
下面给大家一一列举:
HDFS:分布式文件系统。解决分布式存储。
MapReduce:分布式计算框架。
YARN:分布式资源管理系统,直白的说,也可以说式集群资源管理系统。
大数据入门简介(一)了解大数据相关推荐
- 大数据入门之什么是大数据?
文章目录 1.什么是大数据? 字面意思: 专业解释: 再专业点: 2.大数据的特点-- 4V(Volume,Velocity,Variety)? 2.1Volume(大量) 2.2 Velocity( ...
- 大模型入门(三)—— 大模型的训练方法
参考hugging face的文档介绍:https://huggingface.co/docs/transformers/perf_train_gpu_many#naive-model-paralle ...
- 大数据入门-大数据技术概述(一)
目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...
- 大数据入门-什么是Kudu
目录 一.概念 二.架构 1.Master Server 2.Tablet Server 3.Table 4.Tablet 三.特性 1.重要性 2.易用性 3.优势 4.与传统关系型数据库比较 5. ...
- 大数据入门-三分钟读懂Hadoop
最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭! 大数据入门系列文章 1.大数据入门-大数据是什么 1.大数据入门-大数据是什么 2.大数据入门-大数据技术概述(一) 2.大数据 ...
- 好程序员大数据培训分享怎样进行大数据入门学习
好程序员大数据培训分享怎样进行大数据入门学习,对于大数据的入门学习,基础不一样,起点就会不一样. 今天先来说说,对于零基础的同学想要学习大数据的方式方法吧!很多人可能感到不可思议,零基础怎么可能学习大 ...
- 零基础小白的大数据入门手册
零基础小白的大数据入门手册,学大数据前,大家可能听过不少说大数据难学.入行做好心理准备的.大家听完也很动摇很犹豫,怀疑自己能不能学好大数据.这其实完全没有必要,觉得一个东西难,百分之八十的原因是你不了 ...
- 大数据入门-五分钟读懂HDFS
目录 大数据入门系列文章 一.概念 二.架构及组件概念 三.读写流程 四.大白话 五.其他 大数据入门系列文章 最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭! 大数据入门系列文 ...
- 出行大数据,滴滴发布400城数据可视化分析
转 一:出行大数据,滴滴发布400城数据可视化分析 2018年01月04日 00:00:00 https://blog.csdn.net/zw0Pi8G5C1x/article/details/789 ...
最新文章
- 迁移学习全面指南:概念、项目实战、优势、挑战
- Oracle 常用命令 及近期使用问题集合
- HTML 5 Web Workers
- python写前端和js_Python之路【第十二篇】前端之jsdomejQuery
- C++ 读取文件操作
- 各种当下编程风格一览,看一看你属于哪一种?
- Linux 命令(97)—— info 命令
- python 基础 集合
- Boxx:一个旨在提高 Python 代码开发和调试效率的工具库,尤其在计算机视觉领域...
- Ragnar Locker 卷土重来:美国52个关键信息基础设施被入侵
- Spring Bean作用域 (面试题)
- 在ajax中幸运抽奖,JS实现幸运抽奖页面
- OpenG 分化基础知识
- 在64位WIN7系统中修改驱动的sys文件,主要在sys文件中修改一下提供商等信息。
- 输入年份和月份输出该月有多少天python_输入一个年份和月份,打印出该月份有多少天(考虑闰年),用switch语句编程...
- 传说中的ACM大牛们
- IB中文阅读书单推荐
- Amoeba:开源的分布式数据库Porxy解决方案
- 程序员学金融-金融科普(2)-正回购
- Win7怎么共享无线 Win7无线网络共享全攻略
热门文章
- WayOs PPPOE群集服务器怎么玩?就是用户自动均衡,自动切换,增加服务器的稳定性!...
- 奥运会国家队都是什么神仙颜值啊!Python带你来揭秘!真的超美!
- 程序员之间的斗图大作战! 代码可乱, 斗图不能输
- 山东职业学院的计算机网络技术,2017年山东信息职业技术学院计算机网络技术教学质量...
- 七种回归分析方法,个 个 经 典
- 天意u盘启动盘安装linux,(BIOS+UEFI双启WINPE)天意u盘维护系统技术员版V2.1
- QQ红钻认领音乐场景体验QQ2006新功能(转)
- 切比雪夫逼近法设计FIR滤波器
- 初次体验PDF.JS,非常好用的pdf前台包
- 卢卡奇总体性原则_卢卡奇的“总体性”原则探析