大数据1-淘宝Hadoop集群的概况(转)
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。
淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。
Hadoop包括两类节点Master和Slave节点,
- Master节点包括Jobtracker,Namenode, SecondName, Standby,
- 硬件配置:16CPU*4核,96G内存。
- Slave节点主要是TaskTracker和DataNode,
- 硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存
- (注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data locality)。
- 每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map slots是19,643个,Reduce slots是15,273个
所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。
大数据1-淘宝Hadoop集群的概况(转)相关推荐
- 好程序员大数据笔记之:Hadoop集群搭建
好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...
- 全国大学生大数据技能竞赛(Hadoop集群搭建)
系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...
- 自学大数据第四天~hadoop集群的搭建(一)
Hadoop集群安装配置 当hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,此时HDFS名称节点和数据节点位于不同的机器上; 数据就可以分布到多个节点,不同的数据节点上的数据计 ...
- 大数据讲课笔记3.3 Hadoop集群配置
文章目录 零.学习目标 一.导入新课 二.新课讲解 (一)配置Hadoop集群 1.在master虚拟机上配置hadoop (1)编辑Hadoop环境配置文件 - hadoop-env.sh (2)编 ...
- 大数据平台分布式搭建-Hadoop集群配置
Section 1: 文件清单 hadoop-2.8.4.tar.gz jdk-8u181-linux-x64.tar xshell 7家庭版 xftp 7家庭版 Section 2: 下载链接 [J ...
- CDH大数据平台搭建之SPARK集群搭建
CDH大数据平台搭建之SPARK集群搭建 一.安装规划 二.下载 三.安装及配置 1.解压 2.修改配置文件 四.启动 五.JPS检查节点 一.安装规划 参考CHD大数据平台搭建之集群规划 二.下载 ...
- CDH大数据平台搭建之KAFKA集群搭建
CDH大数据平台搭建之KAFKA集群搭建 一.安装规划 二.下载KAFKA 三.安装及配置 1.先安装zookeeper 2.解压 3.新建文件夹 4.修改config目录server.propert ...
- 数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践
大数据平台不仅需要稳定地运行生产任务,还需要提供数据开发的能力.因此,不少大数据平台都会为每个任务区分开发模式与线上模式,可以通过提交上线的方式,将开发模式任务提交到线上,让其用于线上数据生产工作. ...
- 好程序员大数据技术分享:Zookeeper集群管理与选举
为什么80%的码农都做不了架构师?>>> 大数据技术的学习,逐渐成为很多程序员的必修课,因为趋势也是因为自己的职业生涯.在各个技术社区分享交流成为很多人学习的方式,今天很荣幸找 ...
最新文章
- 初识IBM刀片服务器
- leetcode954. 二倍数对数组(treemap)
- 前端学习(418):京东制作页面26中间模块划分
- 四维空间和五维空间N维空间遐想
- pika集群水平扩展——让性能容量不再受限
- oracle12输出文件性能慢,输出选项 (Oracle Solaris Studio 12.2:性能分析器)
- PHP之数组元素的排序
- 【CodeForces】741 D. Arpa’s letter-marked tree and Mehrdad’s Dokhtar-kosh paths(dsu on tree)
- mac地址对应的厂商
- Java计算两点坐标之间的距离
- ElasticSearch教程——数据一致性
- 计算机硬件系统(一)—计算机硬件系统的组成
- 日本語 IME输入法(Microsoft 输入法)切换问题
- 的计算机基本操作知识,电脑的基本操作知识有哪些
- 【MySQL】5.7新特性之七
- java数据算法,验证身份证号码的合法性
- 洗地机排名前十的产品、洗地机品牌排行榜最新公布
- c语言期末复习专项——编程题
- mpv播放器键盘快捷键
- Python-进程池的阻塞式(不能体现多进程的优势)