Hadoop 参数配置优化
主要参照Hadoop官方给出的配置指南进行的
hadoop.tmp.dir
默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
fs.trash.interval
默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。
fs.inmemory.size.mb
默认值:
说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身硬件设备进行更改测试。
io.sort.factor
默认值:10
说明:排序文件的时候一次同时最多可并流的个数,这里设置100。新版本为mapreduce.task.io.sort.factor。
io.sort.mb
默认值:100
说明: 排序内存使用限制,这里设置200m。新版本看说明貌似改成了这个mapreduce.task.io.sort.mb。
io.file.buffer.size
默认值:4096
说明:SequenceFiles在读写中可以使用的缓存大小,这里设置为131072。貌似这个参数在新版本里变为了:file.stream-buffer-size,单位bytes 。
dfs.blocksize
默认值:67108864
说明: 这个就是hdfs里一个文件块的大小了,默认64M,这里设置134217728,即128M,太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。根据需要进行设置。
dfs.namenode.handler.count
默认值:10
说明:hadoop系统里启动的任务线程数,这里改为40,同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。
mapred.child.java.opts
默认值:-Xmx200m
说明:jvms启动的子线程可以使用的最大内存。改为-Xmx1024m,内存再大也可以继续增加。但是如果一般任务文件小,逻辑不复杂用不了那么多的话太大也浪费。
mapreduce.jobtracker.handler.count
默认值:10
说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。
mapreduce.reduce.shuffle.parallelcopies
默认值:5
说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。
mapreduce.tasktracker.http.threads
默认值:40
说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。
mapreduce.map.output.compress
默认值:false
说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽。配合mapreduce.map.output.compress.codec使用,默认是org.apache.hadoop.io.compress.DefaultCodec,可以根据需要设定数据压缩方式。
mapreduce.reduce.shuffle.merge.percent
默认值: 0.66
说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。
mapreduce.reduce.shuffle.memory.limit.percent
默认值: 0.25
说明:一个单一的shuffle的最大内存使用限制。
转载于:https://www.cnblogs.com/huhai/p/3245228.html
Hadoop 参数配置优化相关推荐
- MySQL参数配置优化
MySQL参数配置优化 max_connections Variable Scope: Global Dynamic Variable: Yes Default: ...
- 【深入理解Hadoop原理】Hadoop 参数配置 详解
Hadoop 参数配置 详解 一.常用端口 组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传 ...
- kafka java jvm 优化_kafka优化–JVM参数配置优化
主要是启动脚本和log4j基本参数的设置和优化,这些参数藏的比较深. 1.JVM参数配置优化 如果使用的CMS GC算法,建议JVM Heap不要太大,在4GB以内就可以.JVM太大,导致Major ...
- hadoop 参数配置
@(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓 ...
- 【presto】presto 参数配置优化
前言 之前公司的 presto 服务一直不是很稳定,随着资源组,配置优化,代码二次开发.presto 服务基本上已经趋于稳定了.这个记录下 presto 服务参数配置都做过哪些优化. 这边生产环境的 ...
- mysql my.cnf参数配置_MySQLmy.cnf参数配置优化详解
本配置文件针对Dell R710,双至强E5620.16G内存的硬件配置.CentOS 5.6 64位系统,MySQL 5.5.x 稳定版.适用于日IP 50-100w,PV 100-300w的站点, ...
- mysql cnf参数_系统运维|MySQL my.cnf参数配置优化详解
本配置文件针对Dell R710,双至强E5620.16G内存的硬件配置.CentOS 5.6 64位系统,MySQL 5.5.x 稳定版.适用于日IP 50-100w,PV 100-300w的站点, ...
- mysql 最大值7F_(总结)MySQL my.cnf参数配置优化详解
PS:本配置文件针对Dell R710,双至强E5620.16G内存的硬件配置.CentOS 5.6 64位系统,MySQL 5.5.x 稳定版.适用于日IP 50-100w,PV 100-300w的 ...
- php5.5参数配置优化,5个PHP性能优化的编程习惯
在网上搜索了一下编程优化我们都会看到大量的文章,但都是一样的内容,下面我来给各位整理了我觉得最有用的5个PHP性能优化的编程习惯分享给各位,希望文章能给各位带来帮助哦. 1. 不要随便就复制变量 有时 ...
- linux系统内核参数配置优化,Linux服务器内核参数优化
Linux内核参数调优主要是通过修改/proc伪文件系统和/etc/sysctl.conf配置文件的参数来实现的. /proc目录结构如下: /proc/driver 与驱动器相关的信息 ...
最新文章
- python字符串出栈方法_python字符串常用方法
- 竞赛人必备的100篇NLP论文
- c语言回文串判定代码_C语言编写一个程序,判断输入的一个字符串是否是回文。...
- matlab while循环
- 洽洽三只松鼠良品铺子,到底谁能笑傲“后坚果时代”?
- android背景图拉伸,Android使背景图像不拉伸它指定的视图_android_开发99编程知识库...
- 服务器返回一个无效的JSON string,处理
- BeetleX.WebFamily之Markdown编辑器
- Python abs函数 - Python零基础入门教程
- linux下C调用lua的第一个程序
- mysql正则表达式匹配非_MySQL的正则表达式
- Python中正则匹配使用findall时的注意事项
- spider_使用随机User-Agent库, 爬取笔趣阁万古天帝章节目录_(fake_useragent)
- 2018-2019-1 20165301 《信息安全系统设计基础》第六周学习总结
- 《善用佳软:高效能人士的软件应用之道》一2.6 小工具之计算器
- HDAO one error
- Win32基础学习笔记
- 打开outlook显示找不到outlook数据文件如何处理
- vs2015智能提示英文改为中文
- RS485方向切换的几种方案及优劣势分析
热门文章
- 关于暂停或终止更新的相关读书笔记
- linux 重定向命令
- 百亿级别数据量,又需要秒级响应的案例,需要什么系统支持呢?下面介绍下大数据实时分析工具Yonghong Z-Suite...
- Maven 项目添加jetty 插件
- 如果你用GitHub,可以这样提高效率
- javascript正则表达式---正向预查
- 微软职位内部推荐-Software Engineer II-Senior Software Engineer for Satori
- Virident:PCIe SSD更能发挥闪存的特长
- 7.RabbitMQ实战 --- warren和Shovel:故障转移和复制
- 15. POSIX 线程