大数据入门简介(一)

首先我们先想想为什么会大数据,或者说它能干什么?

与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大好好谈谈这个大数据。

一、概念(三无、俩海)

1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合(三无)。

2、大数据主要解决(俩海):海量的数据存储和海量的数据计算问题。

二、特性(四V俩固)

四大特性(4V):

​ Volume:大数据量。大多是过去俩年产生的数据

​ Velocity:速度快。数据增长速度快,时效性比较高

​ Variety:多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。

​ Value:价值密度低。需要深入挖掘数据信息。

固有特性:

​ 时效性

​ 不可变性

三、Hadoop

1、介绍

Hadoop是一个开源的分布式系统架构。

我们可以看看他的发展及版本。

(1)、Hadoop起源于搜索引擎Apache Nutch

​ 创始人:Doug Cutting

​ 2004年:最初版本

​ 2008年:成为Apache顶级项目

(2)、Hadoop发行的版本

​ 社区版:Apache Hadoop版本。开源,免费,你懂的,国内大多数公司都在用。

​ Cloudera发行版:CDH。这个现在好像需要money了,不过适合小公司使用,兼容性高。

​ Hortonworks发行版:HDP。这个就不多介绍了,感兴趣的可以查查。

(3)、那为什么我们要使用Hadoop呢?(三高+三优)

​ 首先我们先说说三高吧:

​ 高扩展性:在集群件分配任务数据,可方便的扩展数以千计的节点。

​ 高可靠性:Hadoop底层维护了多个数据副本。

​ 高容错性:Hadoop阔加能够自动将失败的任务重新分配。

听了这三高是不是就已经觉得他已经很牛了?别急,还有呢。。。

我们再说说它的三个优吧:

​ 低成本:Hadoop架构可以允许部署在不同机器上,哪怕你这个机器再垃圾都可以噢,老省钱了。

​ 灵活:Hadoop可以存储在任意类型的数据。

​ 开源:它是开放式的,社区活跃,有很多大神再社区活动,你们懂的,还不赶紧抱大腿,嘿嘿嘿。。。

(4)、Hadoop和RDBMs数据库对比

​ 我们既然说到了数据库,不妨把俩者做个比较吧。

​ 为了大家能够清晰的明白它们之间的不同和优异,我给它做了个表格(在此声明,绝对不是我懒,主要是最近一直敲字,快吐了。。。。)

Hadoop RDBMS
格式 读数据时要求 写数据时要求
速度 写数据速度快 读数据速度快
数据监管 任意的数据结构 标准结构化
数据处理 处理能力绝对牛 处理能力有限
数据类型 结构化、半结构化、非结构化 只能是结构化数据
应用场景 OLAP
处理非结构化数据
海量的数据存储计算
交互式OLTP
ACID事务处理
企务系统

在这里可以额外提一个知识点:OLAP和OLTP

OLTP(On-line Transaction Processing):联机事务处理。一般针对具体的业务在数据库中的操作。

OLAP(On-line Analytical Processing):联机分析处理。一般针对某些主题的历史数据进行处理,支持管理类型的决策。

概览类型的估计大家也不想看,那咱们就是上图,简单明了,将俩者进行一个对比。

2、功能

解决海量数据存储、海量数据计算的问题。

3、优势

1、处理海量数据的架构首选。

2、非常快的完成大数据的计算任务。

3、至今为止,这种架构已经发展成一种Hadoop生态圈。

如下图所示:

针对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。

乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。

下面给大家一一列举:

HDFS:分布式文件系统。解决分布式存储。

MapReduce:分布式计算框架。

对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。

乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。

下面给大家一一列举:

HDFS:分布式文件系统。解决分布式存储。

MapReduce:分布式计算框架。

YARN:分布式资源管理系统,直白的说,也可以说式集群资源管理系统。

大数据入门简介(一)了解大数据相关推荐

  1. 大数据入门之什么是大数据?

    文章目录 1.什么是大数据? 字面意思: 专业解释: 再专业点: 2.大数据的特点-- 4V(Volume,Velocity,Variety)? 2.1Volume(大量) 2.2 Velocity( ...

  2. 大模型入门(三)—— 大模型的训练方法

    参考hugging face的文档介绍:https://huggingface.co/docs/transformers/perf_train_gpu_many#naive-model-paralle ...

  3. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

  4. 大数据入门-什么是Kudu

    目录 一.概念 二.架构 1.Master Server 2.Tablet Server 3.Table 4.Tablet 三.特性 1.重要性 2.易用性 3.优势 4.与传统关系型数据库比较 5. ...

  5. 大数据入门-三分钟读懂Hadoop

    最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭! 大数据入门系列文章 1.大数据入门-大数据是什么 1.大数据入门-大数据是什么 2.大数据入门-大数据技术概述(一) 2.大数据 ...

  6. 好程序员大数据培训分享怎样进行大数据入门学习

    好程序员大数据培训分享怎样进行大数据入门学习,对于大数据的入门学习,基础不一样,起点就会不一样. 今天先来说说,对于零基础的同学想要学习大数据的方式方法吧!很多人可能感到不可思议,零基础怎么可能学习大 ...

  7. 零基础小白的大数据入门手册

    零基础小白的大数据入门手册,学大数据前,大家可能听过不少说大数据难学.入行做好心理准备的.大家听完也很动摇很犹豫,怀疑自己能不能学好大数据.这其实完全没有必要,觉得一个东西难,百分之八十的原因是你不了 ...

  8. 大数据入门-五分钟读懂HDFS

    目录 大数据入门系列文章 一.概念 二.架构及组件概念 三.读写流程 四.大白话 五.其他 大数据入门系列文章 最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭! 大数据入门系列文 ...

  9. 出行大数据,滴滴发布400城数据可视化分析

    转 一:出行大数据,滴滴发布400城数据可视化分析 2018年01月04日 00:00:00 https://blog.csdn.net/zw0Pi8G5C1x/article/details/789 ...

最新文章

  1. 迁移学习全面指南:概念、项目实战、优势、挑战
  2. Oracle 常用命令 及近期使用问题集合
  3. HTML 5 Web Workers
  4. python写前端和js_Python之路【第十二篇】前端之jsdomejQuery
  5. C++ 读取文件操作
  6. 各种当下编程风格一览,看一看你属于哪一种?
  7. Linux 命令(97)—— info 命令
  8. python 基础 集合
  9. Boxx:一个旨在提高 Python 代码开发和调试效率的工具库,尤其在计算机视觉领域...
  10. Ragnar Locker 卷土重来:美国52个关键信息基础设施被入侵
  11. Spring Bean作用域 (面试题)
  12. 在ajax中幸运抽奖,JS实现幸运抽奖页面
  13. OpenG 分化基础知识
  14. 在64位WIN7系统中修改驱动的sys文件,主要在sys文件中修改一下提供商等信息。
  15. 输入年份和月份输出该月有多少天python_输入一个年份和月份,打印出该月份有多少天(考虑闰年),用switch语句编程...
  16. 传说中的ACM大牛们
  17. IB中文阅读书单推荐
  18. Amoeba:开源的分布式数据库Porxy解决方案
  19. 程序员学金融-金融科普(2)-正回购
  20. Win7怎么共享无线 Win7无线网络共享全攻略

热门文章

  1. WayOs PPPOE群集服务器怎么玩?就是用户自动均衡,自动切换,增加服务器的稳定性!...
  2. 奥运会国家队都是什么神仙颜值啊!Python带你来揭秘!真的超美!
  3. 程序员之间的斗图大作战! 代码可乱, 斗图不能输
  4. 山东职业学院的计算机网络技术,2017年山东信息职业技术学院计算机网络技术教学质量...
  5. 七种回归分析方法,个 个 经 典
  6. 天意u盘启动盘安装linux,(BIOS+UEFI双启WINPE)天意u盘维护系统技术员版V2.1
  7. QQ红钻认领音乐场景体验QQ2006新功能(转)
  8. 切比雪夫逼近法设计FIR滤波器
  9. 初次体验PDF.JS,非常好用的pdf前台包
  10. 卢卡奇总体性原则_卢卡奇的“总体性”原则探析