hadoop是什么?

What Is Apache Hadoop?
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
在ApacheHadoop项目开发开源软件,可靠,可扩展,分布式计算。

解决问题
海量数据的存储(HDFS)
海量数据的分析(MapReduce)
资源管理调度(YARN)

作者:Doug Cutting

受Google三篇论文的启发(GFS、MapReduce、BigTable)

hadoop具体能干什么?

hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

哪些公司使用hadoop

Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入

hadoop在淘宝

》从09年开始,用于对海量数据的离线处理,例如对日志的分析,交易记录的分析等
》规模从当初的3~4百台节点,增加到现在的一个集群有3000个节点,淘宝现在已经有2~3个这样的集群
》在支付宝的集群规模也有700台节点,使用Hbase对用户的消费记录可以实现毫秒级查询

hadoop在淘宝架构图

转载于:https://blog.51cto.com/gaijianwei/1626277

h1.1 hadoop简介相关推荐

  1. hadoop使用mapreduce统计词频_深圳嘉华学校之Hadoop简介(什么是Map-Reduce-Mapreduce-about云开发)...

    Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰 ...

  2. Hadoop简介(1):什么是Map/Reduce

    看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Red ...

  3. Hadoop简介与分布式安装

    Hadoop的基本概念和分布式安装: Hadoop 简介 Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hado ...

  4. 什么是Hadoop?大数据与Hadoop简介

    要了解什么是Hadoop,我们必须首先了解与大数据和传统处理系统有关的问题.前进,我们将讨论什么是Hadoop,以及Hadoop如何解决与大数据相关的问题.我们还将研究CERN案例研究,以突出使用Ha ...

  5. Hadoop简介和家族成员介绍

    本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/ 1. HDFS:分布式文件系统实现, ...

  6. hadoop基础一:Hadoop简介、安装

    你的点赞与评论是我最大的创作动力! hadoop简介: hadoop平台是一个可靠的.可扩展的.可分布式计算的开源软件. Apache Hadoop平台是一个框架,允许使用简单的编程模型.该平台被设计 ...

  7. Hadoop简介和体系架构

    目录 2.1 Hadoop简介 2.1.1 Hadoop由来 2.1.2 Hadoop发展历程 2.1.3 Hadoop生态系统 2.2 Hadoop的体系架构 2.2.1 分布式文件系统HDFS 2 ...

  8. Hadoop简介和集群搭建

    文章目录 Hadoop简介和集群搭建 Hadoop介绍 Hadoop的发行版本和三大公司 hadoop的架构 安装Hadoop 第一步:上传编译后的apache hadoop包并解压 第二步:修改配置 ...

  9. Hadoop详解(一):Hadoop简介

    1. Hadoop 起源 1.1 Hadoop的身世 首先我们介绍一下Nutch的发展情况,Nutch是一个以Lucene为基础实现的搜索引擎系统,Lucene为Nutch提供了文本检索和索引的API ...

最新文章

  1. 14-flutter Animation 动画
  2. 机器学习第7天:深入了解逻辑回归
  3. socket编程 及select poll epoll示例
  4. 关系数据库——sql基础1定义
  5. mount 安卓system只读_Android如何让system分区可读写(MTK安卓6.0)-阿里云开发者社区...
  6. 南抖音北快手,智障界的两泰斗
  7. CC2541蓝牙模块间通信设置 蓝牙透传 蓝牙通信程序
  8. 潘多拉固件设置ipv6_OpenWRT IPv6配置
  9. 微信小程序往数组中添加元素对象
  10. Directory Opus打不开除了zip的压缩包(打开错误)
  11. UE4 Sequencer的事件调用
  12. 罗大佑 光阴的故事 ZT 欧美经典歌曲100首(1-50)
  13. 杭州5.8万人面临饮水难 一村庄居民一月未沐浴
  14. 观国庆60周年庆典阅兵式有感
  15. 小米手机NFC复制门禁卡读取芯片信息失败,报错103解决办法。
  16. Swift_代码混淆
  17. 浅谈下二级域名做网站优化的利与弊!
  18. 超神学院德诺计算机,超神学院:扒一扒隐藏起来的人物,德诺星系的人有没有活下来的?...
  19. linux下查看mysql线程_linux-如何查看线程在哪个CPU内核中运行?
  20. SAP MM批次管理(2)批次主数据

热门文章

  1. 输入法项目-用delphi生成GBK 中文编码 GBK 扩充汉字编码表(3) GBK/3: $8140 —$A0FE(部分)...
  2. 基于Stripes框架进行Java Web开发
  3. 深入理解阿里分布式消息中间件
  4. Spring5源码解析-Spring中的异步事件
  5. windows文件名非法字符过滤检测-正则表达式
  6. yiStack平台维护
  7. ubuntu配置ipv6
  8. 《代码敲不队》第五次作业:项目需求分析改进与系统设计
  9. 你说你学不动啦,看 Redux 作者怎么说?
  10. javascript中的异步 macrotask 和 microtask 简介