背景介绍

Google成立于1998年是全球最大的搜索引擎公司,主要业务为搜索、云计算、广告技术等,主要利润来自于广告等服务。在21世纪初互联网刚刚兴起,每个企业保存和生产的数据量并不大,已有的技术对数据的保存和处理完全满足业务上的需求。作为搜索引擎公司,google需要保存爬虫所获取的大量网页数据,还要对海量的数据进行快速的搜索、计算、排名等处理。由于海量数据对当时的技术构成了严峻的挑战,google内部研发出了对应的存储、搜索、计算的相关解决方案,并在2003年~2006年相继公布了对应的技术解决方案,也就是开启大数据工业时代的三驾马车。


一、三驾马车

Google针对海量数据处理给出来可行性的解决方案:
1.于2003年 发布《The Google File System》,用于处理海量网页的存储
2.于2004年 发布《MapReduce: Simplified Data Processing on Large Clusters》,可用于处理海量网页的索引计算问题
3.于2006年 发布《Bigtable: A Distributed Storage System for Structured Data》,用来处理海量结构化数据

二、hadoop起源

提到hadoop就不得不提Doug Cutting,作为Lucene的创作者,一直致力于搜索引擎的研发,2004年Doug Cutting在Lucene基础上开发一个款开源的搜索引擎Nutch。

1.Nutch

Nutch是一个基于Lucene基础上的网页搜索应用程序,功能跟Google类似。大批网站采用Nutch,随时时间推移,Nutch也遇到了和Google相同的海量数据的处理问题。
Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,命名为NDFS(Nutch Distributed File System)。
基于Google的MapReduce在Nutch实现了此功能。
2006年 Doug Cutting加入Yahoo后,将NDFS和MapReduce进行了改造并重新命名为Hadoop。后来又根据Bigtable实现了HBase。

2.hadoop

狭义上,hadoop指的就是hadoop这个软件,指包括HDFS和MapReduce。广义上,hadoop指的是大数据的一个生态圈,包括很多其他大数据相关软件。


大数据三驾马车与hadoop起源相关推荐

  1. 全面了解大数据“三驾马车”的开源实现

    Google 大数据"三驾马车"的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存 ...

  2. 大数据三驾马车,第一个上市的Hortonworks要翻车了?

    脱胎雅虎,成立三年就上市 Hortonworks这个名字源自儿童书中一只叫Horton的大象.众所周知,Hadoop的名字取自一只毛绒玩具象.类似的取名方式说明Hortonworks围绕Hadoop展 ...

  3. 谷歌大数据的三驾马车

    本文介绍大数据分析的鼻祖型论文"谷歌三驾马车".这包括处理分布式数据的mapreduce.存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三 ...

  4. “三驾马车”拉动大数据征信 行业格局突变

    2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业 ...

  5. Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)

    摘要:Google 在 2003 年到 2004 年公布了关于 GFS.MapReduce 和 BigTable 三篇技术论文(旧三驾马车),这也成为后来云计算发展的重要基石,如今 Google 在后 ...

  6. 疫情期各类数据图表背后的七个方法、三驾马车与一个工具

    疫(zhái)情(jiā)期间,数据分析领域涌现出很多民间高手,数据玩家各显神通,或通过仿真程序调参,模拟病毒传播,强调不要出门对控制传播的重要贡献:或用自然语言处理工具+词云,直观展示每日新闻热词的 ...

  7. 独家:沪上三大律师解读“三驾马车”下的数据合规与上海数商体系创新​

    引 言 当下,数据已是继技术.劳动力.资本.土地之外的"第五要素".去年,美国数据交易量高达2700亿美元,我国则在545亿人民币左右.但不可忽视,全球20%的数据量由中国创造,数 ...

  8. 让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理

    科技云报道原创. 由中国网络安全产业联盟(CCIA).科技云报道共同主办的"解码2022中国网安强星"活动正式拉开帷幕.本次活动以"网安力量 照见未来"为主题, ...

  9. “三驾马车“上演人事大挪移,京东靠什么复刻亚马逊的增长神话?

    发展战略需要与组织架构的调整相匹配,无论何种规模的企业都是如此.大脑若有想法,四肢却无法支持,那战略自然也失去了有效支撑. 年关将至,一批互联网巨头都进行着新一轮的组织架构调整.阿里.美团.滴滴.快手 ...

最新文章

  1. 三角量测(Triangulation)之再学习
  2. 手把手教线性回归分析(附R语言实例)
  3. 清华大学计算机李雪,李雪 | 北京外国语大学国际商学院|International Business School,BFSU|本硕博,北外留学,来华留学Solbridge,EDP...
  4. firewall添加白名单_firewall的规则设置与命令(白名单设置)
  5. qchart 坐标轴设置_实战PyQt5: 156-QChart图表之更换图表主题
  6. Unity3D 渲染统计窗口
  7. 基于Android的智能家居手持终端系统开发(毕设开题报告)修改版
  8. 米筐量化不支持c语言_量化初级之量化选股
  9. 数据结构试题期中期末考试【含答案】
  10. 硬盘保护系统破解器下载、crdisk硬盘保护克星下载
  11. 51单片机开发板、usb写代码、pcb版
  12. MongoDB——聚合管道之$limit$skip$sort操作
  13. android root统计,《全球安卓手机 Root 数据报告》:学生党竟然是Root的骨灰级爱好者?...
  14. 回顾 2021,展望 2022
  15. Maven项目缺少Maven Dependencies新的解决方法
  16. Linux Signal信号详解
  17. 向下取整符号_22. 为什么 Python 中的整除是向下取整?
  18. Linux LKM suterusu代码分析(一)
  19. ISO认证体系有哪些
  20. 【高等数学】第 6 讲 积分

热门文章

  1. Unity图形渲染学习资源
  2. TCPMP超级播放器Windows CE5.0(ARMV4)编译方法
  3. 大学英语计算机统考机考,大学英语四级考试机考
  4. 头条竞价php下单系统源码_php竞价页订单管理系统(caozha-order ) v1.7.7
  5. 从json提取数据,保存成txt格式
  6. 2021年,小灰都做了哪些事?
  7. BMZctfmisc
  8. AutoCAD2002-2021的官网下载地址汇总
  9. java新手上路(二):奥特曼打怪兽
  10. QLable中显示圆形边框