初识大数据--Hadoop大数据平台架构与实践
Hadoop大数据平台架构与实践
推荐书籍:
⭐大数据存储与处理技术的原理(理论)
⭐Hadoop的使用和开发能力(实践)
预备知识:
Linux常用命令
Java基础编程
1、大数据相关概念
无处不在的大数据,科学数据、金融数据、零售数据、社交网络数据、交通数据、物联网数据等。
马云:“21世纪核心的竞争是数据的竞争。谁拥有更多数据,谁就拥有未来。”
初始Hadoop
如何对大数据进行存储和分析呢?
系统瓶颈:存储容量、读写速率、计算效率…
谷歌大数据技术:MapReduce、BigTables、GFS
革命性的变化
1:成本降低,能用PC机,就不用大型机和高端存储。
2:软件容错硬件故障视为常态,通过软件保证可靠性。
3:简化并行分布式计算,无须控制节点同步和数据交换。
Google只是发表了相关的技术论文,而没有开放源代码。所以,出现了一个模仿Google大数据技术的开源实现,Hadoop。
Hadoop的功能和优势
Hadoop是一个Apache开发的开源的分布式存储基础架构和分布式计算平台。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS:分布式文件系统,为海量的数据提供了存储。
MapReduce:并行处理框架,实现任务分解和调度,为海量的数据提供了计算。
Hadoop应用:
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。如搜索引擎,日志分析,商业智能,数据挖掘。
Hadoop优势:
1、高扩展 理论上是无限的
2、低成本
3、成熟的生态圈
Hadoop生态系统及版本
Hadoop家族:
Hive(小蜜蜂):
将sql语句转换成Hadoop任务去执行,降低了使用Hadoop的门槛。
HBase:
存储结构化数据的分布式数据库。
与传统的关系型数据库相比,HBase放弃事务特性,追求更高的扩展。
与HDFS相比,HBase提供数据的随机读写和实时访问,实现对表数据的读写功能。
zookeeper(动物管理员):
监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点资源之间数据的一致性。
Hadoop版本:
这里学习的是ver1.2版本,稳定版,容易上手理解。
[外链图片转存中...(img-c2srLkMB-1569672170113)]
Hadoop版本:
这里学习的是ver1.2版本,稳定版,容易上手理解。
2、Hadoop安装
step1、准备Linux环境
多种方式:
Windows下安装虚拟机;
租用云主机,阿里云、UnitedStack等;
step2、安装JDK
step3、配置Hadoop
初识大数据--Hadoop大数据平台架构与实践相关推荐
- 大数据时代数据库-云HBase架构生态实践
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&a ...
- 字节跳动一站式数据治理解决方案及平台架构
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 "一站式数据治理解决方案及平台架构"的分享会分为四个部分展开: 首先,明确数据治理的 ...
- 【2016年第6期】数据产品在线定制平台的探索实践
张峰1,孙宗哲2,OCHORA Dennis Reagan2,刘建楠3,宋杰2 1. 国家海洋信息中心,天津 300171: 2. 东北大学软件学院,辽宁 沈阳 110819: 3 ...
- 数据自治开放应用平台设计与实践
数据自治开放应用平台设计与实践 陈德华, 潘乔, 王梅, 乐嘉锦 东华大学计算机科学与技术学院,上海 201620 摘要:围绕数据自治开放的数据管理新模式,提出了一套面向数据自治开放应用的整体解决方案 ...
- 携程实时计算平台架构与实践丨DataPipeline
文 | 潘国庆 携程大数据平台实时计算平台负责人 本文主要从携程大数据平台概况.架构设计及实现.在实现当中踩坑及填坑的过程.实时计算领域详细的应用场景,以及未来规划五个方面阐述携程实时计算平台架构与实 ...
- bilibili Saber 实时计算平台架构与实践【Apache Flink 替换 Spark Stream的架构与实践】
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践.本次分享主要围绕以下四个 ...
- bilibili 实时计算平台架构与实践
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践.本次分享主要围绕以下四个 ...
- 联盟广告平台架构及实践
导读:随着大数据的快速发展,大数据应用已经融入各行各业,在很多场景中得到了商业化实践.今天和大家分享下 58 同城联盟广告平台架构及实践.主要包括:58 联盟广告 SSP 媒体平台.投放平台.程序化创 ...
- 知乎基于 Apache Doris 的 DMP 平台架构建设实践
1. DMP 业务背景 DMP 平台是大家老生常谈的话题.在早期广告系统出现之后就拥有了类似的 DMP 平台,比如:腾讯的广点通.阿里巴巴的达摩盘等都是业界做的比较好的 DMP 平台典型.而知乎搭建属 ...
最新文章
- [学习笔记]CDQ分治
- Java中的接口命名[关闭]
- python资源管理错误漏洞_国家信息安全漏洞库
- PAT甲级题目翻译+答案 AcWing(字符串处理)
- mybatis实现一对多关系《DeptEmp》
- CityEngine下如何更好的实现影像与地形叠加
- windows 启动exe程序前注入dll(c++)
- Cocos2d-x建工程时避免copy文件夹和库
- [Python] virtualenvwrapper 常见问题
- Excel2007中插入页眉和页脚
- python开发好吗_用Python开发应用好用吗?
- Jmeter安装TPS插件
- 捷联惯导系统学习7.3(惯性/卫星组合导航 )
- 微信公众号迁移函、公证所需资料与流程
- run()方法和start()方法的区别
- LINUX IIO子系统分析之五IIO BUFFER子模块实现分析
- Perl/Tk入门学习(上)
- 美团配送系统技术演进
- c语言课程设计报告之迷宫,C语言课程设计-迷宫游戏
- 山西省内拍摄制作VR全景360照片720全景