生活中,可能所有人都间接用过他的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普罗大众;还是他,打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者,他就是Doug Cutting。

从实习生做起

1985年,Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的,在大学时代的头两年,Cutting学习了诸如物理、地理等常规课程。因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用、有趣的技能。这样,一方面可以帮助自己还清贷款,另一方面,也是为自己未来的生活做打算。因为斯坦福大学座落在IT行业的“圣地”硅谷,所以学习软件对年轻人来说是再自然不过的事情了。

Cutting的第一份工作是在Xerox做实习生,Xerox当时的激光扫描仪上运行着三个不同的操作系统,其中的一个操作系统还没有屏幕保护程序。因此,Cutting就开始为这套系统开发屏幕保护程序。由于这套程序是基于系统底层开发的,所以 其他同事可以给这个程序添加不同的主题。这份工作给了Cutting一定的满足感,也是他最早的“平台”级的作品。

可以说,Xerox对 Cutting后来研究搜索技术起到了决定性的影响,除了短暂的在苏格兰工作的经历外,Cutting事业的起步阶段大部分都是在Xerox度过的,这段 时间让他在搜索技术的知识上有了很大提高。他花了四年的时间搞研发,这四年中,他阅读了大量的论文,同时,自己也发表了很多论文,用Cutting自己的 话说——“我的研究生是在Xerox读的。”

尽管Xerox让Cutting积累了不少技术知识,但他却认为,自己当时搞的这些研究只是纸 上谈兵,没有人试验过这些理论的可实践性。于是,他决定勇敢地迈出这一步,让搜索技术可以为更多人所用。1997年底,Cutting开始以每周两天的时间投入,在家里试着用Java把这个想法变成现实,不久之后,Lucene诞生了。作为第一个提供全文文本搜索的开源函数库,Lucene的伟大自不必多言。

Hadoop的诞生

之后,Cutting再接再厉,在 Lucene的基础上将开源的思想继续深化。2004年,Cutting和同为程序员出身的Mike Cafarella决定开发一款可以代替当时的主流搜索产品的开源搜索引擎,这个项目被命名为Nutch。在此之前,Cutting所在的公司 Architext(其主要产品为Excite搜索引擎)因没有顶住互联网经济泡沫的冲击而破产,那时的Cutting正处在Freelancer的生涯 中,所以他希望自己的项目能通过一种低开销的方式来构建网页中的大量算法。幸运的是,Google这时正好发布了一项研究报告,报告中介绍了两款 Google为支持自家的搜索引擎而开发的软件平台。这两个平台一个是GFS(Google File System),用于存储不同设备所产生的海量数据;另一个是MapReduce,它运行在GFS之上,负责分布式大规模数据。基于这两个平台,Cutting最引人瞩目的作品——Hadoop诞生了。谈到Google对他们的“帮助”,Cutting说:“我们开始设想用4~5台电脑来实现 这个项目,但在实际运行中牵涉了大量繁琐的步骤需要靠人工来完成。Google的平台让这些步骤得以自动化,为我们实现整体框架打下了良好的基础。”

说起Google,Cutting也是它成长的见证人之一,这里有一段鲜为人知的故事。早在Cutting供职于Architext期间,有两个年轻人曾去拜访这家公司,并向他们兜售自己的搜索技术,但当时他们的Demo只检索出几百万条网页,Excite的工程师们觉得他们的技术太小儿科,于是就在心里鄙 视一番,把他们给送走了。但故事并未到此结束,这两个年轻人回去之后痛定思痛,决定自己创业。于是,他们开了一家自己的搜索公司,取名为Google。这两个年轻人就是Larry Page和Sergey Brin。在Cutting看来,Google的成功主要取决于,反向排序之后再存储的设计和对自己技术的自信。

让“开源”影响世界

出于对时间成本的考虑,在从Architext离职四年后,Cutting决定结束这段Freelancer的生涯,找一家靠谱的公司,进一步完善 Hadoop的性能。他先后面试了几家公司,其中也包括IBM,但IBM似乎对他的早期项目Lucene更感兴趣,至于Hadoop则不置可否。就在此 时,Cutting接受了当时Yahoo!搜索项目负责人Raymie Stata的邀请,于2006年正式加入Yahoo!。在Yahoo!,有一支一百人的团队帮助他完善Hadoop项目,这期间开发工作进行得卓有成效。 不久之后,Yahoo!就宣布,将其旗下的搜索业务的架构迁移到Hadoop上来。两年后,Yahoo!便基于Hadoop启动了第一个应用项目 “webmap”——一个用来计算网页间链接关系的算法。Cutting的时任上司(后为Hortonworks CEO)Eric Baldeschwieler曾说:“在相同的硬件环境下,基于Hadoop的webmap的反应速度是之前系统的33倍。”

虽然 Hadoop的表现惊艳,但在当时并非所有公司都有条件使用,与此同时,用户需求却在日益增加。有些大公司(如银行、电信公司、大型零售商等)只关注于产品,却不想在技术工程和咨询服务上过多投入,它们需要一个可以帮助其解决问题的平台,这就是Cutting后来跳槽到Cloudera的初衷。从某种程度上说,Cloudera就是这么一个为那些在咨询和技术上有需求的公司提供服务的平台。它的客户大多来自于传统行业,希望通过Hadoop来处理之前只能 被直接抛弃的大规模数据。现在,除了这些传统行业之外,Yahoo!、Facebook、eBay、LinkedIn等公司都在使用Hadoop,用 Cutting的话说,他们的团队被“无形之中扩大了”。

目前,Cutting的目标是把Hadoop发展成云计算领域的RedHat。 “我从来没有想过,除了搜索引擎,Hadoop的作用还能在其他方面有所发挥,它今天所受到的关注程度,已超过了我之前的所有想象”。谈到成功,Cutting认为他的成功主要归功于两点,一是对自己工作的热情(Cutting在大学时就开始做Infrastracture类的程序,还用 Lisp为Emacs贡献过代码,他非常喜欢自己的程序被千万人使用的感觉);二是目标不要定得过大,要踏踏实实,一步一个脚印。

转载于:https://blog.51cto.com/zlfwmm/1695671

Hadoop之父Doug Cutting相关推荐

  1. Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路

    Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路 Doug Cutting,凭借自己对工作的热情和脚踏实地的态度,开创了Lucene和Nutch两个成功的开源搜索引擎项目 ...

  2. 请允许我介绍一下Hadoop之父Doug Cutting以及Hadoop历史版本

    Hadoop的介绍以及发展历史 Hadoop之父Doug Cutting : 咳咳,开始讲解Hadoop,各位同学请认真听讲 1. Hadoop最早起源于lucene下的Nutch. Nutch的设计 ...

  3. Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来

    上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝.最近CSDN和InfoQ都在制 ...

  4. Doug Cutting—搜索之父

    原文作者:时间的朋友 原文地址:Hadoop之父Doug Cutting Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫 hadoop,他灵光一闪,就把这技术命名为 Hado ...

  5. Doug Cutting (Lucene-Nutch-Hadoop 创始人简介)

    吃水不忘挖井人,介绍Doug Cutting大牛是十分有必要的. 最早,接触到搜索引擎,知道有个Nutch(开源搜索引擎),于是开始查看Nutch相关的资料,发现了Nutch的创始人Doug Cutt ...

  6. Hadoop 之父趣事:用儿子的大象玩偶为大数据项目命名

    作者 | 年素清 责编 | 王晓曼 出品 | 程序人生(ID:coder_life) 道格·卡廷(Doug Cutting)是公认的"Hadoop之父",也是大数据行业的奠基人.十 ...

  7. Hadoop 之父:普通程序员到顶级公司 CTO 的进阶之路

    来自:鸡仔说(微信号:jizaishuo) 做大数据开发的朋友一定用过 Hadoop 这个工具,它是一款支持数据密集型的分布式应用程序.Hadoop 基于分布式档案系统和 MapReduce 技术,通 ...

  8. Doug Cutting—访谈录

    原文作者:noCRUDer 原文地址:Doug Cutting (Lucene-Nutch-Hadoop 创始人简介) 1.请问你以何为生?你是如何开始从事搜索引擎开发的? 我主要在家从事两个与搜索有 ...

  9. 与Hadoop之父聊聊天

    作为关注大数据领域的编辑,小编一听说能采访到Hadoop创始人就激动不以.CSDN早在2013年已采访过Cloudera首席架构师Doug Cutting先生,时隔多年,我们在北京Strata Dat ...

最新文章

  1. GROMACS运行参数之nvt.mdp文件详解
  2. Azure中继摆脱了WCF的桎梏,走向跨平台
  3. 抖音测试心理是什么软件,实用心理测试大全抖音版-抖音实用心理测试大全小游戏官方版预约 v1.0-友情手机站...
  4. C#集合类(HashTable, Dictionary, ArrayList,List)与HashTable线程安全
  5. php ci提交表单验证,ci表单验证代码
  6. Unity(一)Unity脚本程序开发
  7. ReportViewer教程(8)-对报表作一些调整(格式和属性)
  8. 【机器学习】梯度下降中矩阵的迹的求导证明
  9. spring源码-自动注入
  10. 区块链中的POW是什么
  11. Android SO 加壳
  12. 简单又强大的联发科手机PhilZ Touch Recovery安装器,详细教程 - 本文出自高州吧
  13. iOS 12 - iOS 15,如何在iPhone上设置“早上好”功能
  14. js中向对象添加键值对, 如 var data={1:'a' } ,添加 { 2:'b' }
  15. Spark SQL 初识
  16. 开源 – “这是最好的时代,这是最坏的时代”
  17. mfc: 获取打印机列表
  18. 计算机网络毕业实训报告书,计算机网络实训报告书
  19. php实现tcp连接esp8266,【零知ESP8266教程】WIFI TCP协议通信 TCP客户端示例
  20. 【虹科】什么是网络钓鱼?如何避免?

热门文章

  1. MySQL 5.5 的COMPRESSED INNODB 表
  2. 测试整数(二进制)含1个数
  3. Dell R410/710 升级网卡驱动
  4. 《Framework Design Guidelines 2nd Edition》推荐
  5. 软件设计模式-7种设计原则总结
  6. IDEA下——Spring入门程序
  7. hitTest和pointInside如何响应用户点击事件
  8. 实现超长焦梦想的捷径——试用适马150-500毫米F5-6.3 OS镜头
  9. ECSHOP头部调用会员的消费积分
  10. 首战大吉:红帆科技参加第八届IT羽毛球赛