多图技术贴:深入浅出解析大数据平台架构
目录:
- 什么是大数据
- Hadoop介绍-HDFS、MR、Hbase
- 大数据平台应用举例-腾讯
- 公司的大数据平台架构
“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。
大数据的4V特征-来源
公司的“大数据”
随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:
1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;
2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;
……
三国里的“大数据”
“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。
Google分布式计算的三驾马车
- Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
- Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
- BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。
Hadoop体系架构
Hadoop核心设计
HDFS介绍-文件读流程
MapReduce——映射、化简编程模型
输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果
Hbase——分布式数据存储系统
Client:使用HBase RPC机制与HMaster和HRegionServer进行通信
Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况
HMaster: 管理用户对表的增删改查操作
HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据
HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table
HStore:HBase存储的核心。由MemStore和StoreFile组成。
HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件
还有哪些NoSQL产品?
为什么要使用NoSQL?
一个高并发网站的DB进化史
关系模型>聚合数据模型的转换-基本变换
关系模型>聚合数据模型的转换-内嵌变换
关系模型>聚合数据模型的转换-分割变换
关系模型>聚合数据模型的转换-内联变换
Hadoop2.0
MapReduce:
JobTracker:协调作业的运行。
TaskTracker:运行作业划分后的任务。
作者:昆明小虫
描微信下面二维码,随时了解大数据最新动向,添加36大数据官方微信公共帐号dashuju36:
End
多图技术贴:深入浅出解析大数据平台架构相关推荐
- 《程序员》11月精彩内容:大数据平台架构与技术实践
本期<程序员>呈现大数据平台架构与技术实践精彩内容,汇聚来自去哪儿.游族网络.链家网.万达金融等公司的技术专家,将带领读者共同探讨热门技术应用和实践优化,深入解析蕴藏的数据价值,展现时下大 ...
- 大数据平台架构技术选型与场景运用
内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...
- 大数据平台架构及主流技术栈
互联网和移动互联网技术开启了大规模生产.分享和应用数据的大数据时代.面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索.Google的三篇论文 GFS(2003),MapReduc ...
- 大数据平台架构的层次划分
1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构. 2. 数据整理层:包括数据清洗.数据转换.数据加 ...
- 大数据平台架构浅析——以讯飞大数据平台Odeon为例
文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...
- 软件架构设计原则和大数据平台架构层
1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...
- 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践
导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...
- 大数据平台架构包括哪些方面
大数据平台将互联网使用和大数据产品整合起来,将实时数据和离线数据打通,使数据能够实现更大规模的相关核算,挖掘出数据更大的价值,然后实现数据驱动事务,那么大数据平台架构如何进行?包括哪些方面呢? 1.事 ...
- 安全大数据平台架构设计参考
当前网络与信息安全领域,正在面临多种挑战.一方面,企业和组织安全体系架构日趋复杂,各种类型的安全数据越来越多,随着内控与合规的深入,传统的分析能力明显力不从心,越来越需要分析更多的安全信息.并且要更加 ...
最新文章
- Visual Studio 2008 到底有多强?漫画告诉你 !
- 剑破冰山—Oracle开发艺术 前言
- luogu5024 [NOIp2018]保卫王国 (动态dp)
- sqlite数据库实现字符串查找的方法(instr,substring,charindex替代方案)
- 惊了!Chrome浏览器竟然自带的一款恐龙游戏【免下载】
- java中让数据生成excle文件并且支持下载
- numpy的cumsum ()函数
- go语言基础之格式化输出
- Could not autowire. No beans of 'DeptDao' type found
- 10亿级!淘宝大规模图像检索引擎算法设计概览
- Python:监控键盘输入、鼠标操作,并将捕获到的信息记录到文件中
- 【报告分享】人工智能在五大行业的成就与挑战-毕马威.pdf(附下载链接)
- 基于python的气象数据分析_基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其......
- 福昕编辑器打开pdf自动打印
- java——MP3转wav
- MediaPipe基础(5)Pose(姿势)
- 网络推广100种方法_免费在线推广业务的6种方法
- 刘禹锡最经典诗文10首,每一首都是千古名作,读懂受益一生
- 如何在Python中四舍五入数字
- Linus 批评英特尔的 LAM 代码,拒绝将其合并到内核