目录:

  • 什么是大数据
  • Hadoop介绍-HDFS、MR、Hbase
  • 大数据平台应用举例-腾讯
  • 公司的大数据平台架构

“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

大数据的4V特征-来源

公司的“大数据”

随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

……

三国里的“大数据”

“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

Google分布式计算的三驾马车

  • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
  • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
  • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop核心设计

HDFS介绍-文件读流程

Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。
HDFS介绍-文件写流程
Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

MapReduce——映射、化简编程模型

输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

Hbase——分布式数据存储系统

Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

HStore:HBase存储的核心。由MemStore和StoreFile组成。

HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

还有哪些NoSQL产品?

为什么要使用NoSQL?

一个高并发网站的DB进化史

关系模型>聚合数据模型的转换-基本变换

关系模型>聚合数据模型的转换-内嵌变换

关系模型>聚合数据模型的转换-分割变换

关系模型>聚合数据模型的转换-内联变换

Hadoop2.0

MapReduce:
JobTracker:协调作业的运行。
TaskTracker:运行作业划分后的任务。

大数据的技术领域
腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)
腾讯大数据平台产品架构
腾讯大数据平台与业务平台的关系
公司数据处理平台的基础架构
公司大数据平台架构图
应用一数据分析
应用二视频存储
应用三离线日志分析
应用五在线数据分析
参考资料:京东基于Samza的流式计算实践

作者:昆明小虫

描微信下面二维码,随时了解大数据最新动向,添加36大数据官方微信公共帐号dashuju36:

End

多图技术贴:深入浅出解析大数据平台架构相关推荐

  1. 《程序员》11月精彩内容:大数据平台架构与技术实践

    本期<程序员>呈现大数据平台架构与技术实践精彩内容,汇聚来自去哪儿.游族网络.链家网.万达金融等公司的技术专家,将带领读者共同探讨热门技术应用和实践优化,深入解析蕴藏的数据价值,展现时下大 ...

  2. 大数据平台架构技术选型与场景运用

    内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...

  3. 大数据平台架构及主流技术栈

    互联网和移动互联网技术开启了大规模生产.分享和应用数据的大数据时代.面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索.Google的三篇论文 GFS(2003),MapReduc ...

  4. 大数据平台架构的层次划分

    1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构. 2. 数据整理层:包括数据清洗.数据转换.数据加 ...

  5. 大数据平台架构浅析——以讯飞大数据平台Odeon为例

    文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...

  6. 软件架构设计原则和大数据平台架构层

    1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

  7. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  8. 大数据平台架构包括哪些方面

    大数据平台将互联网使用和大数据产品整合起来,将实时数据和离线数据打通,使数据能够实现更大规模的相关核算,挖掘出数据更大的价值,然后实现数据驱动事务,那么大数据平台架构如何进行?包括哪些方面呢? 1.事 ...

  9. 安全大数据平台架构设计参考

    当前网络与信息安全领域,正在面临多种挑战.一方面,企业和组织安全体系架构日趋复杂,各种类型的安全数据越来越多,随着内控与合规的深入,传统的分析能力明显力不从心,越来越需要分析更多的安全信息.并且要更加 ...

最新文章

  1. Visual Studio 2008 到底有多强?漫画告诉你 !
  2. 剑破冰山—Oracle开发艺术 前言
  3. luogu5024 [NOIp2018]保卫王国 (动态dp)
  4. sqlite数据库实现字符串查找的方法(instr,substring,charindex替代方案)
  5. 惊了!Chrome浏览器竟然自带的一款恐龙游戏【免下载】
  6. java中让数据生成excle文件并且支持下载
  7. numpy的cumsum ()函数
  8. go语言基础之格式化输出
  9. Could not autowire. No beans of 'DeptDao' type found
  10. 10亿级!淘宝大规模图像检索引擎算法设计概览
  11. Python:监控键盘输入、鼠标操作,并将捕获到的信息记录到文件中
  12. 【报告分享】人工智能在五大行业的成就与挑战-毕马威.pdf(附下载链接)
  13. 基于python的气象数据分析_基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其......
  14. 福昕编辑器打开pdf自动打印
  15. java——MP3转wav
  16. MediaPipe基础(5)Pose(姿势)
  17. 网络推广100种方法_免费在线推广业务的6种方法
  18. 刘禹锡最经典诗文10首,每一首都是千古名作,读懂受益一生
  19. 如何在Python中四舍五入数字
  20. Linus 批评英特尔的 LAM 代码,拒绝将其合并到内核

热门文章

  1. BZOJ1832: [AHOI2008]聚会
  2. IE浏览器中Image对象onload失效的解决办法
  3. 由锚点失效引发的hasLayout探究
  4. IT人必读:写给浮躁的IT同仁
  5. PAT乙级 1003
  6. java 2 图形设计卷i awt_java 2 图形设计卷i:awt
  7. 首期openGauss训练营结营,48个FAQ和全部PPT通通给你,随附62人结营学员名单
  8. SparkSQL高并发:读取存储数据库
  9. 开发好能重构的代码,都是这么干的
  10. 快来,这里有23种设计模式的Go语言实现