大数据三驾马车与hadoop起源
背景介绍
Google成立于1998年是全球最大的搜索引擎公司,主要业务为搜索、云计算、广告技术等,主要利润来自于广告等服务。在21世纪初互联网刚刚兴起,每个企业保存和生产的数据量并不大,已有的技术对数据的保存和处理完全满足业务上的需求。作为搜索引擎公司,google需要保存爬虫所获取的大量网页数据,还要对海量的数据进行快速的搜索、计算、排名等处理。由于海量数据对当时的技术构成了严峻的挑战,google内部研发出了对应的存储、搜索、计算的相关解决方案,并在2003年~2006年相继公布了对应的技术解决方案,也就是开启大数据工业时代的三驾马车。
一、三驾马车
Google针对海量数据处理给出来可行性的解决方案:
1.于2003年 发布《The Google File System》,用于处理海量网页的存储
2.于2004年 发布《MapReduce: Simplified Data Processing on Large Clusters》,可用于处理海量网页的索引计算问题
3.于2006年 发布《Bigtable: A Distributed Storage System for Structured Data》,用来处理海量结构化数据
二、hadoop起源
提到hadoop就不得不提Doug Cutting,作为Lucene的创作者,一直致力于搜索引擎的研发,2004年Doug Cutting在Lucene基础上开发一个款开源的搜索引擎Nutch。
1.Nutch
Nutch是一个基于Lucene基础上的网页搜索应用程序,功能跟Google类似。大批网站采用Nutch,随时时间推移,Nutch也遇到了和Google相同的海量数据的处理问题。
Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,命名为NDFS(Nutch Distributed File System)。
基于Google的MapReduce在Nutch实现了此功能。
2006年 Doug Cutting加入Yahoo后,将NDFS和MapReduce进行了改造并重新命名为Hadoop。后来又根据Bigtable实现了HBase。
2.hadoop
狭义上,hadoop指的就是hadoop这个软件,指包括HDFS和MapReduce。广义上,hadoop指的是大数据的一个生态圈,包括很多其他大数据相关软件。
大数据三驾马车与hadoop起源相关推荐
- 全面了解大数据“三驾马车”的开源实现
Google 大数据"三驾马车"的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存 ...
- 大数据三驾马车,第一个上市的Hortonworks要翻车了?
脱胎雅虎,成立三年就上市 Hortonworks这个名字源自儿童书中一只叫Horton的大象.众所周知,Hadoop的名字取自一只毛绒玩具象.类似的取名方式说明Hortonworks围绕Hadoop展 ...
- 谷歌大数据的三驾马车
本文介绍大数据分析的鼻祖型论文"谷歌三驾马车".这包括处理分布式数据的mapreduce.存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三 ...
- “三驾马车”拉动大数据征信 行业格局突变
2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业 ...
- Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)
摘要:Google 在 2003 年到 2004 年公布了关于 GFS.MapReduce 和 BigTable 三篇技术论文(旧三驾马车),这也成为后来云计算发展的重要基石,如今 Google 在后 ...
- 疫情期各类数据图表背后的七个方法、三驾马车与一个工具
疫(zhái)情(jiā)期间,数据分析领域涌现出很多民间高手,数据玩家各显神通,或通过仿真程序调参,模拟病毒传播,强调不要出门对控制传播的重要贡献:或用自然语言处理工具+词云,直观展示每日新闻热词的 ...
- 独家:沪上三大律师解读“三驾马车”下的数据合规与上海数商体系创新
引 言 当下,数据已是继技术.劳动力.资本.土地之外的"第五要素".去年,美国数据交易量高达2700亿美元,我国则在545亿人民币左右.但不可忽视,全球20%的数据量由中国创造,数 ...
- 让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理
科技云报道原创. 由中国网络安全产业联盟(CCIA).科技云报道共同主办的"解码2022中国网安强星"活动正式拉开帷幕.本次活动以"网安力量 照见未来"为主题, ...
- “三驾马车“上演人事大挪移,京东靠什么复刻亚马逊的增长神话?
发展战略需要与组织架构的调整相匹配,无论何种规模的企业都是如此.大脑若有想法,四肢却无法支持,那战略自然也失去了有效支撑. 年关将至,一批互联网巨头都进行着新一轮的组织架构调整.阿里.美团.滴滴.快手 ...
最新文章
- 三角量测(Triangulation)之再学习
- 手把手教线性回归分析(附R语言实例)
- 清华大学计算机李雪,李雪 | 北京外国语大学国际商学院|International Business School,BFSU|本硕博,北外留学,来华留学Solbridge,EDP...
- firewall添加白名单_firewall的规则设置与命令(白名单设置)
- qchart 坐标轴设置_实战PyQt5: 156-QChart图表之更换图表主题
- Unity3D 渲染统计窗口
- 基于Android的智能家居手持终端系统开发(毕设开题报告)修改版
- 米筐量化不支持c语言_量化初级之量化选股
- 数据结构试题期中期末考试【含答案】
- 硬盘保护系统破解器下载、crdisk硬盘保护克星下载
- 51单片机开发板、usb写代码、pcb版
- MongoDB——聚合管道之$limit$skip$sort操作
- android root统计,《全球安卓手机 Root 数据报告》:学生党竟然是Root的骨灰级爱好者?...
- 回顾 2021,展望 2022
- Maven项目缺少Maven Dependencies新的解决方法
- Linux Signal信号详解
- 向下取整符号_22. 为什么 Python 中的整除是向下取整?
- Linux LKM suterusu代码分析(一)
- ISO认证体系有哪些
- 【高等数学】第 6 讲 积分