随着智能化、万物互联时代的快速发展,数据量开始暴增,一方面我们需要开始思考如何高效可靠地存储海量的数据,另一方面我们还需要对这些数据进行分析处理,以获得更多有价值的信息。这时期我们就需要用到Hadoop了。

Hadoop是Apache软件基金会下一个开源分布式计算平台,以hdfs(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上,形成分布式系统。

Hadoop生态

除了基础Hadoop,发展到今天Hadoop已经拥有非常完善和庞大的开源生态圈:HDFS提供文件存储,YARN提供资源管理,在此基础上,进行各种处理,包括mapreduce、Tez、Sprak、Storm等等,以满足不同要求的数据使用场景。

HDFS架构

HDFS架构图

HDFS采用了主从结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成,其中NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作,而DataNode则负责管理存储的数据。HDFS底层数据被切割成了多个Block,而这些Block又被复制后存储在不同的DataNode上,以达到容错容灾的目的。

MapReduce

MapReduce是谷歌公司的核心计算模型,它将运行于在规模集群上的复杂并行计算过程高度地抽象为两个函数过程:Map和Reduce("Map(映射)"和"Reduce(归约)")。map函数以 key/value 对作为输入,产生另外一系列 key/value 对作为中间输出写入本地 磁盘。MapReduce 框架会自动将这些中间数据按照 key 值进行聚集,且 key 值相同的数据被统一交给 reduce函数处理。reduce函数则以 key 及对应的 value 列表作为输入,经合并 key 相同的 value 值后,产 生另外一系列 key/value 对作为最终输出写入HDFS。

Hive与Hbase的区别

在Hadoop基本生态中,有两个组件得说说他们的区别,它们就是hive和hbase。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储。

  1. Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。
  2. hive可认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。
  3. hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。
  4. hbase可以认为是hdfs的一个包装。他的本质是数据存储,是个NoSql(not only sql)数据库;hbase部署于hdfs之上,并且克服了hdfs在随机读写方面的缺点。

hive 插入数据映射到hbase_大数据基础知识:Hadoop分布式系统介绍相关推荐

  1. hive 插入数据映射到hbase_年薪50万都难招的大数据工程师,凭什么?

    回顾2018年,降薪.裁员.互联网寒冬似乎成为主旋律,那实际上资本市场萎缩了吗? 其实不然,2018年6月,蚂蚁金服还获得140亿融资,而热度较高的大数据行业,在2018年的融资额达到1273.1亿元 ...

  2. 大数据学习总结+JAVA学习总结+大数据面试+java面试+大数据java异常总结

    文章目录 一.java模块面试问题 1.动态代理 2.浏览器禁用Cookie后的Session处理 3.主从复制的流程[重要] 5.redis的数据类型[重要] 6.Junit测试的注解 7.缓存问题 ...

  3. 23篇大数据系列(二)scala基础知识全集(史上最全,建议收藏)

    作者简介: 蓝桥签约作者.大数据&Python领域优质创作者.管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题. 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系 ...

  4. [大数据文章之其一] 大数据对你来说意味着什么?

    日常前言 五月六月,又陷入反反复复的项目 Bug 中了.讲道理,分析日志是越来越熟练了,代码水平其实没有很大提高,毕竟改 Bug 嘛,大多只是在原有代码的基础上,添加或者修改一些业务逻辑.虽然改原生代 ...

  5. 百分点“数据隧道”玩转大数据平台实时数据复制

    实时数据复制技术在银行.电信.保险.政务和电商等领域应用非常广泛. 比如银行领域的收单业务涉及收单行.银行卡组织及发卡行的数据同步.收单行的数据需要传输到银行卡组织,再由银行卡组织传输给发卡行. 如果 ...

  6. 物联网与大数据(四)大数据技术 物联网操作系统

    前言 关于物联网与大数据的分享已经迎来最后一期,回顾之前的内容:我们在物联网与大数据(一)中介绍了物联网与大数据的含义.背景:在从物联网看大数据中探讨了物联网形成大数据的主要环节:在从大数据看物联网中 ...

  7. 大数据学习资料_2020大数据学习之路必备

    介绍 大数据领域相当广阔,对于任何开始学习大数据及其相关技术的人来说,这都是一项非常艰巨的任务.大数据技术数不胜数,决定从哪里开始可能是迷茫的. 这就是我想写这篇文章的原因.本文为您提供了一条引导您开 ...

  8. 大数据开发及和大数据相关的技术

    在现如今,随着互联网技术飞速的发展,目前有不少朋友询问关于大数据方面的问题,比如什么是大数据开发啊,和大数据相关的技术是什么呢等问题,我们今天就浅谈一下大数据开发及和大数据相关的技术的问题. 首先,大 ...

  9. 如何学习大数据!!我要做大数据!

    一文读懂大数据平台--写给大数据开发初学者的话! 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章 ...

最新文章

  1. SSH实现新闻管理系统
  2. 联想笔记本电脑,重新安装系统之U盘启动方法
  3. c++ 利用boost 实现文件操作
  4. 敏捷毒药-敏捷中有损组织整体的负面实践
  5. cuda第一次计算耗时_CUDA优化的冷知识10 | GPU卡和Jetson上显存优化的特色
  6. [转]数据库分库分表
  7. docker安装nacos步骤
  8. js 把对象按照属性名的字母顺序进行排列
  9. T60 改LED 高压板连线方式。
  10. struts2系列-Real-BUUCTF平台
  11. php自动加nofollow,WordPress自动给文章添加nofollow属性的实现方法
  12. 回程静态路由及trunk简单链路
  13. 精美UI静态界面欣赏
  14. nc服务器修改过ip地址,nc服务器修改过ip地址
  15. 华为p50预计售价鸿蒙是什么,华为p50预计售价多少_华为p50价格预测
  16. gps测试软件怎么算正常,完整的GPS测试和经济实用的解决方案
  17. AD19技术笔记-常用PCB设计思路-布线篇(一)
  18. 梦幻西游网络诊断找不到服务器,《梦幻西游》电脑版出现网络故障 受影响者可寻找恢复使者进行恢复...
  19. 万亿规模的二手交易市场,真的是门好生意吗?
  20. springboot毕设项目人格障碍诊断系统212h6(java+VUE+Mybatis+Maven+Mysql)

热门文章

  1. 2.3.3 进程互斥的硬件实现方法
  2. Django之模型层和ORM
  3. Python之二叉树的遍历
  4. 当年的聊天室,今天的我(java实现聊天室群聊功能)
  5. SQL语言之组函数(Oracle)
  6. jQuery调用其他JS文件中的方法
  7. wsgiserver python 漏洞_简单的WSGI server
  8. 程序员必备:Java 日期处理的十个坑
  9. hibernate教程--快速入门(增删改查)
  10. Element 'dependency' cannot have character [children]