国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。

淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。

Hadoop包括两类节点Master和Slave节点,

  • Master节点包括Jobtracker,Namenode, SecondName, Standby,

    • 硬件配置:16CPU*4核,96G内存。
  • Slave节点主要是TaskTracker和DataNode,
    • 硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存
    • (注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data locality)。
    • 每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map slots是19,643个,Reduce slots是15,273个

所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。

大数据1-淘宝Hadoop集群的概况(转)相关推荐

  1. 好程序员大数据笔记之:Hadoop集群搭建

    好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...

  2. 全国大学生大数据技能竞赛(Hadoop集群搭建)

    系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...

  3. 自学大数据第四天~hadoop集群的搭建(一)

    Hadoop集群安装配置 当hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,此时HDFS名称节点和数据节点位于不同的机器上; 数据就可以分布到多个节点,不同的数据节点上的数据计 ...

  4. 大数据讲课笔记3.3 Hadoop集群配置

    文章目录 零.学习目标 一.导入新课 二.新课讲解 (一)配置Hadoop集群 1.在master虚拟机上配置hadoop (1)编辑Hadoop环境配置文件 - hadoop-env.sh (2)编 ...

  5. 大数据平台分布式搭建-Hadoop集群配置

    Section 1: 文件清单 hadoop-2.8.4.tar.gz jdk-8u181-linux-x64.tar xshell 7家庭版 xftp 7家庭版 Section 2: 下载链接 [J ...

  6. CDH大数据平台搭建之SPARK集群搭建

    CDH大数据平台搭建之SPARK集群搭建 一.安装规划 二.下载 三.安装及配置 1.解压 2.修改配置文件 四.启动 五.JPS检查节点 一.安装规划 参考CHD大数据平台搭建之集群规划 二.下载 ...

  7. CDH大数据平台搭建之KAFKA集群搭建

    CDH大数据平台搭建之KAFKA集群搭建 一.安装规划 二.下载KAFKA 三.安装及配置 1.先安装zookeeper 2.解压 3.新建文件夹 4.修改config目录server.propert ...

  8. 数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践

    大数据平台不仅需要稳定地运行生产任务,还需要提供数据开发的能力.因此,不少大数据平台都会为每个任务区分开发模式与线上模式,可以通过提交上线的方式,将开发模式任务提交到线上,让其用于线上数据生产工作. ...

  9. 好程序员大数据技术分享:Zookeeper集群管理与选举

    为什么80%的码农都做不了架构师?>>>    大数据技术的学习,逐渐成为很多程序员的必修课,因为趋势也是因为自己的职业生涯.在各个技术社区分享交流成为很多人学习的方式,今天很荣幸找 ...

最新文章

  1. 初识IBM刀片服务器
  2. leetcode954. 二倍数对数组(treemap)
  3. 前端学习(418):京东制作页面26中间模块划分
  4. 四维空间和五维空间N维空间遐想
  5. pika集群水平扩展——让性能容量不再受限
  6. oracle12输出文件性能慢,输出选项 (Oracle Solaris Studio 12.2:性能分析器)
  7. PHP之数组元素的排序
  8. 【CodeForces】741 D. Arpa’s letter-marked tree and Mehrdad’s Dokhtar-kosh paths(dsu on tree)
  9. mac地址对应的厂商
  10. Java计算两点坐标之间的距离
  11. ElasticSearch教程——数据一致性
  12. 计算机硬件系统(一)—计算机硬件系统的组成
  13. 日本語 IME输入法(Microsoft 输入法)切换问题
  14. 的计算机基本操作知识,电脑的基本操作知识有哪些
  15. 【MySQL】5.7新特性之七
  16. java数据算法,验证身份证号码的合法性
  17. 洗地机排名前十的产品、洗地机品牌排行榜最新公布
  18. c语言期末复习专项——编程题
  19. mpv播放器键盘快捷键
  20. Python-进程池的阻塞式(不能体现多进程的优势)

热门文章

  1. 短视频无尽流前端开发指南
  2. 自上而下拆解Synchronized
  3. 血泪总结:如何从微信小程序的坑跳进支付宝小程序的大坑
  4. DOS命令格式化制作U盘
  5. JAVA面试、笔试题
  6. [RK3288][Android6.0] WiFi之cfg80211知识点小结
  7. c语言用除法求平均数,论C语言两整数平均值的4种算法
  8. 58 非常酷的单页网站设计灵感
  9. NDN命名网络工作机制和优点
  10. 谁会使用IEC61499