一、大数据、Hadoop、Hbase介绍

1.1. 数据与信息

1.1.1. 数据

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。可以是符号、文字、数字、语音、图像、视频等

1.1.2. 信息

信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。

1.1.3. 两者的关系

数据经过处理后变成信息。

1.1.4.数据库

相关数据有组织的集合

1.2. 数据模型

1.2.1. 分层模型

树形结构存储

1.2.2. 网络模型

网络结构存储

1.2.3. 关系模型

表格形式存储

1.3. 数据结构

1.3.1. 结构化数据

可定义,有类型、格式、结构约束,如:RDBMS

1.3.2. 半结构化数据

有一定的格式约束但是不全,如: csv,xml,json,html文件,拥有开标签闭标签

1.3.3. 准结构化数据

如: 运行日志,流数据

1.3.4. 非结构化数据

没有规律可言很复杂,如:视频,音频,PDF文件,ppt文件,图片,邮件等;

1.4. 大数据5v特征

大量,多样,高速,价值密度低,准确不高

1.4.1. Volume 大量:

数据量大,包括采集、存储和计算的量都非常大。

1.4.2. Variety 多样:

种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

1.4.3. Value 价值密度低:

数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

1.4.4. Velocity 速度快:

数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

1.4.5. Veracity 准确率不高:

数据的准确性和可信赖度,即数据的质量。数据不一定完整,有一定缺陷

1.5. RDBMS的数据处理限制

1.5.1. RDBMS限制

一台计算机不可能无限制提高配置,只能有限的进行垂直扩展提升配置,当数据量超过最高配置承受能力之后,此时传统数据库如Mysql,Oracle,等无法进行数据管理和处理,数据就成为大数据。大数据没有规定起点和终点具体是多大,只要超过传统数据库的处理范围就是大数据。此时只能使用大数据的处理方法。

1.5.2. RDBMS限制解决方法

1.5.2.1
当一台机器处理能力饱和后我们可以根据数据量大小和处理需求加入一定数量的计算机进行水平扩展能力,此时所有的计算机组合在一起共同工作就叫做分布式文件系统。
1.5.2.2
使用大数据工具,比如说Hadoop,Hbase,Spark,Hive…

1.6. Hadoop介绍

1.6.1.框架

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
HDFS:分布式文件系统,用于存储数据
MapReduce:用于处理数据
Yarn:用于资源管理

1.7. Hbase介绍

1.7.1. Hbase特点

•HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。
•这是一个开源项目。
•它是水平可伸缩的。
•HBase是一种数据模型,类似于Google的大表,旨在提供对大量结构化数据的快速随机访问。
•非关系型的。
•它是分布式数据库。
•是稀疏矩阵

1.7.2. Nosql类型

•基于键值对存储: Apache Cassandra, Redis,
•基于文件存储: MongoDB, Couchbase Server
•基于列存储:MariaDB,Apache HBase
•基于图像存储:ArangoDB,Neo4j

大数据、Hadoop、Hbase介绍相关推荐

  1. 大数据Hadoop生态圈介绍

    大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠.高效.可伸缩等特点. Hadoop的核心组件是HDFS.MapReduce.随着处理任务不同,各种 ...

  2. 【博学谷学习记录】超强总结,用心分享|大数据之Hbase介绍

    HDFS: 分布式文件存储系统 特点: 吞吐量极高, 适合于进行批量数据处理的工作, 随机的读写能力比较差(压根不支持) 但是, 在实际生产环境中, 有时候的数据体量比较大, 但是希望能够对数据进行随 ...

  3. 大数据Hadoop之——总结篇

    文章目录 一.前言 二.Hadoop 1)HDFS常见操作 1.HDFS服务启停命令 2.常见文件操作命令 3.安全模式操作命令 4.数据平衡常见操作命令 5.处理小文件常见操作命令 6.HDFS N ...

  4. 大数据Hadoop之——数据分析引擎Apache Pig

    文章目录 一.Apache Pig概述 二.Apache Pig架构 1)架构图 2)Apache Pig组件 1.Parser(解析器) 2.Optimizer(优化器) 3.Compiler(编译 ...

  5. Hadoop当下最简洁的大数据各种技术介绍与总结

    当下最简洁的大数据各种技术介绍与总结 当下最简洁的大数据各种技术介绍与总结 1.大数据的发展历史 1.1 启蒙阶段:数据仓库的出现 1.2 技术变革:Hadoop诞生 1.3 数据商业化:数据湖系统 ...

  6. 2021年大数据Hadoop(三十):Hadoop3.x的介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...

  7. 2021年大数据Hadoop(二十六):YARN三大组件介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...

  8. 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...

  9. 2021年大数据Hadoop(一):​​​​​​​Hadoop介绍

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 Hadoop介绍 Hadoo ...

  10. 大数据技术Hbase 和 Hive 详解

    目录 两者的特点 各自的限制 应用场景 大数据技术Hbase 和 Hive 详解, 今天给大家介绍一下关于零基础学习大数据视频教程之HBASE 和 HIVE 是多么重要的技术,那么两者有什么区别呢 ? ...

最新文章

  1. 算法复习——bitset(bzoj3687简单题)
  2. R语言创建自定义颜色(分类变量与颜色形成稳定映射)实战:设置因子变量(分类变量)到可视化颜色的稳定映射
  3. 笔记-项目采购管理-索赔的处理
  4. 算法题11 字符串的所有对称子串
  5. intellij-IDE运行Java程序报错:java: -source 1.5 中不支持 lambda 表达式 有用
  6. android谷歌补丁日期,久违的Android更新补丁:多年前的坑,谷歌终于给填上了
  7. 计算机应用技术试卷在线老师,《计算机应用技术》试卷B.doc
  8. [翻译]下拉列表多选控件MultiDropDown
  9. Alexey 大神接棒,YOLOv4 重磅来袭!快来一睹论文真容吧!| 原力计划
  10. 已有一个名为“frmadd”的组件。组件的名称必须是唯一的,而且名称必须不区分大小
  11. Python笔记3:使用命令行运行Python文件
  12. 用JAVA写一个小游戏程序难不难?具体步骤怎么操作?
  13. 《Adobe Flash CS6中文版经典教程》——第1课 Flash CS6快速入门1.1 启动Flash并打开文件...
  14. Linux文件解hgc,Linux shell I/O重定向详解
  15. 直接解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.OMP:
  16. 精简指令集的特点_精简指令集有哪些指令
  17. 2690. Soda Surpler
  18. LeetCode 908 题解
  19. 大学生“8分钟视频征友”成为时尚
  20. Qt中的项目类型(二)

热门文章

  1. 高等代数——大学高等代数课程创新教材(丘维声)——1.3笔记+习题
  2. 易优CMS:arcview的基础用法
  3. java实战项目教程
  4. 李俊昌《衍射计算及数字全息》代码
  5. YunOS曙光初现----看好阿里云OS----阿冬专栏!!
  6. Vista home版连Win7旗舰版的远程桌面,提示“您的凭据不工作”的解决方法
  7. 图书管理系统《软件工程》
  8. SJCcopula matlab,时变copula的matlab程序
  9. linux系统下载乌班图,乌班图系统下载-乌班图Linux系统下载 V20.04官方版-KK下载站...
  10. Linux后台运行python程序