本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三大论文以后,不断的发展起来的,典型的就是Apache开源的hadoop和hbase,其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文,而hbase来源于谷歌的bigtable论文。

mapreduce

介绍:MapReduce是一个处理大数据集的编程模型。它通过map函数把基于行的输入转化成不同的键值对,再通过reduce函数把这些键值对针对相同的键进行聚合,并在聚合的过程中进行相应的计算。

其中的重点是:

  • 如何分割基于行的源文件。
  • 在map阶段如何把行数据映射成键值对。
  • 对大数据集如何进行partition。
  • 在reduce阶段如何进行响应的逻辑计算并输出结果。

其中,一个最典型的用例是给出一篇文章,计算每个单词出现的个数,起逻辑流程为:

1、把文章按照行来切分。
2、在map阶段,对每一行的每个单词构建一个键值对,键是单词本身,值是固定值"1"。
3、对map的结果进行分区,使用默认策略,通过哈希进行分区。
4、在reduce阶段,统计聚合在同一个key的值的数量,得出每个单词出现的次数。

gfs-sosp2003

介绍:GFS是一个分布式文件系统,用来存储大量的较大文件,它可以在廉价的硬件上实现存储文件,并做到容错性,并且针对多个客户同时访问提供比较有竞争力的性能。

其中的重点是:

  • 把一个较大的文件切分成不同的单元块。
  • 把每一个单元块存储在ChunkServer上,并且每一块都会复制在多个ChunkServer服务器上。
  • 每一个文件包含多少块和哪些块这些元数据存储在GFS Master服务器上。
  • 这是一个低成本的分布式存储系统,用来数据量非常大的存储场景,通常为mapreduce的大数据处理模型提供输入和输出的存储系统。

bigtable-osdi06

介绍:Bigtable是一个可以管理结构化数据的分布式存储系统,它本身支持水平的横向扩展,通过使用成千上万的连接服务器,来支持PB量级的数据处理。

其中的重点是:

  • Chubby服务器存储SSTable根的数据信息。
  • Tablet server的水平扩展以及分裂。
  • SSTable的存储结构。
  • 列式存储结构,RowKey以及列簇的设计。
  • LSM Tree的数据结构以及特点。
  • 在谷歌,网页索引,谷歌帝企鹅,谷歌财经等的数据都存储在Bigtable集群里。

MapReduce_NextGen_Architecture

介绍:在第一代mapdure的实现中,资源分配和任务监控都耦合在Master节点上,在Worker节点数增加到一定的数量级,Master节点出现了性能瓶颈,下一代MapReduce框架Yarn把资源管理器和任务管理器分离,解决了这个性能瓶颈。

谷歌大数据的三驾马车相关推荐

  1. “三驾马车”拉动大数据征信 行业格局突变

    2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业 ...

  2. 全面了解大数据“三驾马车”的开源实现

    Google 大数据"三驾马车"的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存 ...

  3. 大数据三驾马车与hadoop起源

    背景介绍 Google成立于1998年是全球最大的搜索引擎公司,主要业务为搜索.云计算.广告技术等,主要利润来自于广告等服务.在21世纪初互联网刚刚兴起,每个企业保存和生产的数据量并不大,已有的技术对 ...

  4. 谷歌三驾马车将成历史,创始人退位,皮查伊兼任母公司CEO

    曾经发誓要共同战斗到至少2024年的谷歌"三驾马车"都退出了领导者角色. 美国当地时间周二,谷歌联合创始人拉里 · 佩奇(Larry Page)和谢尔盖 · 布林(Sergey B ...

  5. “三驾马车“上演人事大挪移,京东靠什么复刻亚马逊的增长神话?

    发展战略需要与组织架构的调整相匹配,无论何种规模的企业都是如此.大脑若有想法,四肢却无法支持,那战略自然也失去了有效支撑. 年关将至,一批互联网巨头都进行着新一轮的组织架构调整.阿里.美团.滴滴.快手 ...

  6. 独家:沪上三大律师解读“三驾马车”下的数据合规与上海数商体系创新​

    引 言 当下,数据已是继技术.劳动力.资本.土地之外的"第五要素".去年,美国数据交易量高达2700亿美元,我国则在545亿人民币左右.但不可忽视,全球20%的数据量由中国创造,数 ...

  7. 疫情期各类数据图表背后的七个方法、三驾马车与一个工具

    疫(zhái)情(jiā)期间,数据分析领域涌现出很多民间高手,数据玩家各显神通,或通过仿真程序调参,模拟病毒传播,强调不要出门对控制传播的重要贡献:或用自然语言处理工具+词云,直观展示每日新闻热词的 ...

  8. 让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理

    科技云报道原创. 由中国网络安全产业联盟(CCIA).科技云报道共同主办的"解码2022中国网安强星"活动正式拉开帷幕.本次活动以"网安力量 照见未来"为主题, ...

  9. 【赠书福利】人工智能发展的三驾马车

    提醒!文末有福利哟! 说起今年的科技热词,非人工智能(AI)莫属了."智能+"时代已经到来,那么人工智能是怎么逐步发展起来的呢?   先来看看它在历史上经历过的三次浪潮: 第一个兴 ...

最新文章

  1. 全景分割:CVPR2019论文解析
  2. 线上订单号重复了?一招搞定它!
  3. TensorFlow图像分类:如何构建分类器
  4. PowerDesigner教程系列(四)概念数据模型
  5. IAR调试按钮功能说明及调试主要看哪些内容
  6. 1.20 main()方法
  7. python中的pass语句_Python中pass的作用与使用代码示例
  8. Eclipse+PyDev+Django+Mysql搭建Python web开发环境
  9. 如何在注册表里计算机用户名,可以通过注册表修改电脑的密码 ?怎么做的?
  10. 全境封锁服务器维护 2018,全境封锁全域事件2018年8月活动什么时候开始_全域事件怎么玩...
  11. qt解析html的数据,windows下用QTwebkit解析html
  12. java 内存溢出分析_用一段时间后java内存溢出问题分析(转)
  13. 大数据学习笔记02-HDFS-常用命令
  14. 2021秋季“金九银十”跳槽必备:软件测试面试题(附带答案)
  15. Halcon 二维码
  16. 关于python中的round()和javascript中的round()的比较
  17. VMware Fusion Pro for Mac虚拟机v12.2.0(18760249)中文版
  18. 安利一个免费在线的pdf转word、excel、ppt
  19. 如何利用Python实现自动打卡签到
  20. Tasteless challenges hard WP

热门文章

  1. 利用HTA文件绕过杀软及邮件钓⻥
  2. Java 计算时间差之年龄问题
  3. asp mysql 性能_asp优化:最大限度优化你的Asp性能
  4. 工具软件推荐——GifCam
  5. scite 运行c语言,SciTE常用编译环境的配置,scite编译环境
  6. 将(123)数字转换成大写数字(壹,贰,弎)
  7. linux公共基础-初阶
  8. Flask框架详细教程
  9. cad与连接mySQL数据库_C++连接mysql数据库的两种方法
  10. 前端开发:如何正确地跨端?