Hadoop大数据平台架构与实践

推荐书籍:

大数据存储与处理技术的原理(理论)

Hadoop的使用和开发能力(实践)

预备知识:

Linux常用命令

Java基础编程

1、大数据相关概念

​ 无处不在的大数据,科学数据、金融数据、零售数据、社交网络数据、交通数据、物联网数据等。

​ 马云:“21世纪核心的竞争是数据的竞争。谁拥有更多数据,谁就拥有未来。”

初始Hadoop

​ 如何对大数据进行存储和分析呢?

​ 系统瓶颈:存储容量、读写速率、计算效率…

谷歌大数据技术:MapReduce、BigTables、GFS

革命性的变化

​ 1:成本降低,能用PC机,就不用大型机和高端存储。

​ 2:软件容错硬件故障视为常态,通过软件保证可靠性。

​ 3:简化并行分布式计算,无须控制节点同步和数据交换。

​ Google只是发表了相关的技术论文,而没有开放源代码。所以,出现了一个模仿Google大数据技术的开源实现,Hadoop

Hadoop的功能和优势

​ Hadoop是一个Apache开发的开源的分布式存储基础架构和分布式计算平台。

​ Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

​ Hadoop的框架最核心的设计就是:HDFS和MapReduce

​ HDFS:分布式文件系统,为海量的数据提供了存储。

​ MapReduce:并行处理框架,实现任务分解和调度,为海量的数据提供了计算。

Hadoop应用:

​ 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。如搜索引擎,日志分析,商业智能,数据挖掘。

Hadoop优势:

​ 1、高扩展 理论上是无限的

​ 2、低成本

​ 3、成熟的生态圈

Hadoop生态系统及版本

Hadoop家族:

Hive(小蜜蜂):

​ 将sql语句转换成Hadoop任务去执行,降低了使用Hadoop的门槛。

HBase:

​ 存储结构化数据的分布式数据库。

​ 与传统的关系型数据库相比,HBase放弃事务特性,追求更高的扩展。

​ 与HDFS相比,HBase提供数据的随机读写和实时访问,实现对表数据的读写功能。

zookeeper(动物管理员):

​ 监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点资源之间数据的一致性。

Hadoop版本:

​ 这里学习的是ver1.2版本,稳定版,容易上手理解。

 [外链图片转存中...(img-c2srLkMB-1569672170113)]

Hadoop版本:

​ 这里学习的是ver1.2版本,稳定版,容易上手理解。

2、Hadoop安装

step1、准备Linux环境

多种方式:
Windows下安装虚拟机;
租用云主机,阿里云、UnitedStack等;

step2、安装JDK
step3、配置Hadoop

初识大数据--Hadoop大数据平台架构与实践相关推荐

  1. 大数据时代数据库-云HBase架构生态实践

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&a ...

  2. 字节跳动一站式数据治理解决方案及平台架构

    更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 "一站式数据治理解决方案及平台架构"的分享会分为四个部分展开: 首先,明确数据治理的 ...

  3. 【2016年第6期】数据产品在线定制平台的探索实践

    张峰1,孙宗哲2,OCHORA Dennis Reagan2,刘建楠3,宋杰2 1.      国家海洋信息中心,天津 300171: 2.      东北大学软件学院,辽宁 沈阳 110819: 3 ...

  4. 数据自治开放应用平台设计与实践

    数据自治开放应用平台设计与实践 陈德华, 潘乔, 王梅, 乐嘉锦 东华大学计算机科学与技术学院,上海 201620 摘要:围绕数据自治开放的数据管理新模式,提出了一套面向数据自治开放应用的整体解决方案 ...

  5. 携程实时计算平台架构与实践丨DataPipeline

    文 | 潘国庆 携程大数据平台实时计算平台负责人 本文主要从携程大数据平台概况.架构设计及实现.在实现当中踩坑及填坑的过程.实时计算领域详细的应用场景,以及未来规划五个方面阐述携程实时计算平台架构与实 ...

  6. bilibili Saber 实时计算平台架构与实践【Apache Flink 替换 Spark Stream的架构与实践】

    摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践.本次分享主要围绕以下四个 ...

  7. bilibili 实时计算平台架构与实践

    摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践.本次分享主要围绕以下四个 ...

  8. 联盟广告平台架构及实践

    导读:随着大数据的快速发展,大数据应用已经融入各行各业,在很多场景中得到了商业化实践.今天和大家分享下 58 同城联盟广告平台架构及实践.主要包括:58 联盟广告 SSP 媒体平台.投放平台.程序化创 ...

  9. 知乎基于 Apache Doris 的 DMP 平台架构建设实践

    1. DMP 业务背景 DMP 平台是大家老生常谈的话题.在早期广告系统出现之后就拥有了类似的 DMP 平台,比如:腾讯的广点通.阿里巴巴的达摩盘等都是业界做的比较好的 DMP 平台典型.而知乎搭建属 ...

最新文章

  1. [学习笔记]CDQ分治
  2. Java中的接口命名[关闭]
  3. python资源管理错误漏洞_国家信息安全漏洞库
  4. PAT甲级题目翻译+答案 AcWing(字符串处理)
  5. mybatis实现一对多关系《DeptEmp》
  6. CityEngine下如何更好的实现影像与地形叠加
  7. windows 启动exe程序前注入dll(c++)
  8. Cocos2d-x建工程时避免copy文件夹和库
  9. [Python] virtualenvwrapper 常见问题
  10. Excel2007中插入页眉和页脚
  11. python开发好吗_用Python开发应用好用吗?
  12. Jmeter安装TPS插件
  13. 捷联惯导系统学习7.3(惯性/卫星组合导航 )
  14. 微信公众号迁移函、公证所需资料与流程
  15. run()方法和start()方法的区别
  16. LINUX IIO子系统分析之五IIO BUFFER子模块实现分析
  17. Perl/Tk入门学习(上)
  18. 美团配送系统技术演进
  19. c语言课程设计报告之迷宫,C语言课程设计-迷宫游戏
  20. 山西省内拍摄制作VR全景360照片720全景

热门文章

  1. n1盒子openwrt某个容器无法启动 启动直接死机
  2. 深度学习(3)——softmax回归
  3. 2020 用html做一个简单的时间显示(12小时制)
  4. ConnectionState详解
  5. 大卫 异星觉醒 机器人_异星觉醒结局翻转恶心到观众?隐藏剧情暗含深意
  6. Java学习——java语言概述
  7. LINUX-查看历史操作记录
  8. LTspice基础教程-008.LTspice PWL设置
  9. MS08_067复现+远程控制
  10. Scala 可变集合体系、不可变集合体系 详解