hadoop是什么?hadoop能有哪些应用?hadoop和大数据是什么关系?下面我们将围绕这几个问题详细阐述。

hadoop是什么?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

项目起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

发展历程

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。

目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。

Hadoop应用案例—全球著名企业应用案例

美国国会图书馆是全球最大的图书馆,自1800年设立至今,收藏了超过1.5亿个实体对象,包括书籍、影音、老地图、胶卷等,数字数据量也达到了235TB,但美国eBay拍卖网站,8千万名用户每天产生的数据量就有50TB,5天就相当于1座美国国会图书馆的容量。

在国外,不只eBay这种跨国电子商务业者感受到巨量数据的冲击,其他如美国连锁超市龙头Wal-Mart、发行信用卡的Visa公司等,在台湾如台湾集成电路(台积电)、中华电信等手上拥有大量顾客资料的企业,都纷纷感受到这股如海啸般来袭的Big Data巨量资料浪潮。这样的巨量数据并非是没有价值的数据,其中潜藏了许多使用者亲身经验的第一手原始数据,不少企业更是从中嗅到了商机。

这些企业纷纷向最早面临大数据挑战的搜索引擎业者Google、Yahoo取经,学习处理巨量数据的技术和经验,其中,最受这些企业青睐,用来解决巨量数据难题的技术就是Apache基金会的分布式计算技术Hadoop项目。

Hadoop应用案例1-全球最大超市业者 Wal-Mart

Wal-Mart分析顾客商品搜索行为,找出超越竞争对手的商机

全球最大连锁超市Wal-Mart利用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略,甚至打算分析顾客在Facebook、Twitter等社交网站上对商品的讨论,期望能比竞争对手提前一步发现顾客需求。

Wal-Mart虽然十年前就投入在线电子商务,但在线销售的营收远远落后于Amazon。后来,Wal-Mart决定采用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略。他们并进一步打算要分析顾客在Facebook、Twitter等社交网站上对商品的讨论,甚至Wal-Mart能比父亲更快知道女儿怀孕的消息,并且主动寄送相关商品的促销邮件,可说是比竞争对手提前一步发现顾客。

Hadoop应用案例2-全球最大拍卖网站 eBay

eBay用Hadoop拆解非结构性巨量数据,降低数据仓储负载

经营拍卖业务的eBay则是用Hadoop来分析买卖双方在网站上的行为。eBay拥有全世界最大的数据仓储系统,每天增加的数据量有50TB,光是储存就是一大挑战,更遑论要分析这些数据,而且更困难的挑战是这些数据报括了结构化的数据和非结构化的数据,如照片、影片、电子邮件、用户的网站浏览Log记录等。

eBay是全球最大的拍卖网站,8千万名用户每天产生的数据量就达到50TB,相当于五天就增加了1座美国国会图书馆的数据量。这些数据报括了结构化的数据,和非结构化的数据如照片、影片、电子邮件、用户的网站浏览Log记录等。eBay正是用Hadoop来解决同时要分析大量结构化数据和非结构化的难题。

eBay分析平台高级总监Oliver Ratzesberger也坦言,大数据分析最大的挑战就是要同时处理结构化以及非结构化的数据。

eBay在5年多前就另外建置了一个软硬件整合的平台Singularity,搭配压缩技术来解决结构化数据和半结构化数据分析问题,3年前更在这个平台整合了Hadoop来处理非结构化数据,透过Hadoop来进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,来加快分析速度,也减轻对数据仓储系统的分析负载。

Hadoop应用案例3-全球最大信用卡公司 Visa

Visa快速发现可疑交易,1个月分析时间缩短成13分钟

Visa公司则是拥有一个全球最大的付费网络系统VisaNet,作为信用卡付款验证之用。2009年时,每天就要处理1.3亿次授权交易和140万台ATM的联机存取。为了降低信用卡各种诈骗、盗领事件的损失,Visa公司得分析每一笔事务数据,来找出可疑的交易。虽然每笔交易的数据记录只有短短200位,但每天VisaNet要处理全球上亿笔交易,2年累积的资料多达36TB,过去光是要分析5亿个用户账号之间的关联,得等1个月才能得到结果,所以,Visa也在2009年时导入了Hadoop,建置了2套Hadoop丛集(每套不到50个节点),让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易。

这套被众多企业赖以解决大数据难题的分布式计算技术,并不是一项全新的技术,早在2006年就出现了,而且Hadoop的核心技术原理,更是源自Google打造搜索引擎的关键技术,后来由Yahoo支持的开源开发团队发展成一套Hadoop分布式计算平台,也成为Yahoo内部打造搜索引擎的关键技术。


开车啦! 开车啦!

今晚20:00    领略资深老司机 张洋  视频直播课程《一节课能听懂的大数据》系列课程之大数据生态圈

以下是大概内容  有你喜欢的速度进去聊骚了

1. 大数据、人工智能、区块链、物联网有什么关系?

2. 大数据开发学习难度、路径及生态体系

3. Hadoop、Spark、Storm、zookeeper、HBASE、ELK..等十余种框架应用场景

4. Linux虚拟机复制操作、免秘钥配置、Hadoop完全分布式集群搭建

5. 大数据生态圈底层基石Hadoop HDFS底层技术揭秘

6. 大数据生态圈底层基石Hadoop HDFS Client

7. 大数据生态圈底层基石Hadoop HDFS开发实战

8. 大数据生态圈底层基石Hadoop MapReduce wordcount

戳我进课堂https://ke.qq.com/course/215398?flowToken=1002412

Hadoop应用案例分析相关推荐

  1. Hadoop之企业案例分析

    Hadoop之企业案例分析 目录 海量日志数据,提取出某日访问百度次数最多的那个IP 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M.返回频数最高的100 个 ...

  2. Hadoop大数据平台开发与案例分析

    关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...

  3. 大型网站技术架构:核心原理与案例分析 mobi_阿里面试官:你会高并发技术吗?...

    前言 据有关数据统计,无论是游戏行业还是互联网行业,无论是软件开发公司还是大型网站,都对高并发技术人才有着巨大的需求.因此,无论为了是面试还是为了工作,学习高并发技术刻不容缓. 当然,高并发相关岗位的 ...

  4. 什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

    1. HADOOP背景介绍 1. 1.1 什么是HADOOP 1.        HADOOP是apache旗下的一套开源软件平台 2.        HADOOP提供的功能:利用服务器集群,根据用户 ...

  5. 一文讲透大型网站架构模式核心原理与案例分析

    什么是模式?每一个模式描述了一个在我们周围不断发生的问题及该问题解决方案的核心.这样,你就能一次又一次地使用该方案而不必做重复的工作. 也许互联网产品不是随便复制就能成功的,创新的产品更能为用户创造价 ...

  6. 案例分析 | 由Decimal操作计算引发的Spark数据丢失问题

    转载自  案例分析 | 由Decimal操作计算引发的Spark数据丢失问题 供稿 | Hadoop Team 编辑 | 顾欣怡 本文3058字,预计阅读时间10分钟 导读 eBay的Hadoop集群 ...

  7. 读书笔记:大型网站技术架构-核心原理与案例分析

    李智慧<大型网站技术架构-核心原理与案例分析> 性能 可用性 伸缩性 扩展性 安全性 总结 这本书组织的很不错,语言精练,篇幅也不长,对网站架构的要点讲的狠清楚透彻,思路清晰.主要围绕架构 ...

  8. 【系统分析师之路】2011年系统分析师下午案例分析真题

    [系统分析师之路]2011年系统分析师下午案例分析真题 系统分析师下午案例分析真题 [系统分析师之路]2011年系统分析师下午案例分析真题 2011年系统分析师下午案例分析第一题(软件架构) 我的解答 ...

  9. AI-Info-Micron-Insight:案例分析:美光使用数据和人工智能来发现、倾听和感觉

    ylbtech-AI-Info-Micron-Insight:案例分析:美光使用数据和人工智能来发现.倾听和感觉 1.返回顶部 1. 案例分析:美光使用数据和人工智能来发现.倾听和感觉 内存芯片制造商 ...

最新文章

  1. CF429D Tricky Function(求解公式、经分析转为求平面最近点对、思维)
  2. 昔日“东方神童”逝世,4岁读完初中课程,17岁中科院硕博连读,网友:湖南华容的传说...
  3. linux curl 命令 http请求、下载文件、ftp上传下载
  4. hdu 2795(线段树)
  5. python 字符串format使用
  6. 在 Sublime Text 中使用 SFTP 插件快速编辑远程服务器文件 Sublime-text with SFTP plugin ...
  7. annotatedClasses和component-scan冲突吗
  8. DesignPatterns-装饰器模式
  9. html图片自动剪裁,HTML canvas图像裁剪
  10. 详细的 Python 安装教程(windows)
  11. 考完试写一套新闻系统
  12. 获取GridView的EmptyDataTemplate中的控件
  13. GIMP为证件照更换背景颜色
  14. CSDN BLOG技术专家群工作平台发布公告
  15. Git error: cannot spawn ssh: No such file or directory的一个解决办法
  16. 如何给播放器增加倍速播放
  17. 数据地图绘制工具汇总
  18. PyCharm取消下划线
  19. 前面的号码不足为奇,后面的才是重点
  20. 360悬浮球-小贝常规样式

热门文章

  1. 僕が死のうと思ったのは——中岛美嘉
  2. iPhone手机 开发者模式 解读
  3. 小试mini210sGPIO驱动Led灯
  4. Linux粘滞位简析
  5. FMDB数据库的升级
  6. AI学习之路(14): 张量的平方计算
  7. 全球及中国纺织机械行业运营规划与十四五投资状况分析报告2022版
  8. 今日头条阅读量怎么刷_怎么刷今日头条阅读量?
  9. 计算机网络——(3)网络体系结构和协议
  10. 1-给出n阶方阵里所有数,求方阵里所有数的和(华为机试)