hadoop tunning

选项	类型	默认值	描述
dfs.block.size	int	64M	有一个1T的文件，如果我的块size设置是默认的64M，那么在HDFS上产生的块将有1024000/64=16000块
dfs.replication	int	3	存放数据文件的份数








选项	类型	默认值	描述
io.sort.mb	int	100	缓存map中间结果的buffer大小(MB)
io.sort.record.percent	float	0.05	io.sort.mb中用来保存map output记录边界的百分比，其他缓存用来保存数据
io.sort.spill.percent	float	0.8	map开始做spill操作的阀值
io.sort.factor	int	10	做merge操作时同时操作的stream数上线
min.num.spill.for.combine	int	3	combine函数运行的最小spill数
mapred.compress.map.output	boolean	FALSE	map中间结果是否采用压缩
mapred.map.output.compression.codec	class name	org.apache.hadoop.io.compress.DefaultCodec	map中间结果的压缩方式
mapred.tasktracker.map.tasks.maximum	int	2	一个tasktracker最多可以同时运行的map任务数量
mapred.map.tasks	int	2	一个Job会使用task tracker的map任务槽数量，这个值 ≤ mapred.tasktracker.map.tasks.maximum







选项	类型	默认值	描述
mapred.reduce.parallel.copies	int	5	每个reduce并行下载map结果的最大线程数
mapred.reduce.copy.backoff	int	300	reduce下载线程最大等待时间(insec)
io.sort.factor	int	10	做merge操作时同时操作的stream数上线
mapred.job.shuffle.input.buffer.percent	float	0.7	用来缓存shuffle数据的reduce task heap百分比
mapred.job.shuffle.merge.percent	float	0.66	缓存的内存中多少百分比后开始做merge操作
mapred.job.reduce.input.buffer.percent	float	0	sort完成后reduce计算阶段用来缓存数据的百分比
mapred.tasktracker.reduce.tasks.maximum	int	2	一个task tracker最多可以同时运行的reduce任务数量
mapred.reduce.tasks	int	1	一个Job会使用task tracker的reduce任务槽数量

mapred.child.java.opts	int	200M	配置每个map或reduce使用的内存数量



修改项	修改值	路径	作用
HADOOP_OPTS	HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"	bin/hadoop	disable ipv6
Job的调度模式	FIFO
Job的调度模式	Fair

hadoop tunning相关推荐

Hadoop自学笔记(七)Hadoop环境配置和优化
概览 1. Hadoop Trouble Shooting 查看logs, 存储位置等 2. Hadoop Administration 常见Hadoop管理员面对的问题 3. Hadoop Opti ...
hadoop 添加删除机器以及设置免密登录
添加hadoop机器先在slaves中添加机器然后启动datanode $: ./usr/hadoop-0.20.2-cdh3u4/bin/hadoop-daemon.sh start datan ...
linux环境下快速配置hadoop集群免密登录
背景在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间操作假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...
hadoop问题小结
20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码访问验证 20220314 进入hive 高 ...
hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
2021年大数据Hadoop（三十）：Hadoop3.x的介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 Hadoop3.x的介绍介绍 Hadoop 3.0新特性 ...
2021年大数据Hadoop（二十九）：关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言关于yarn常用参数设置设置container分配最小内 ...
2021年大数据Hadoop（二十七）：YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录本系列历史文章前言 Yarn运行流程本系列历史文章 2021年大数据Hado ...

hadoop tunning

hadoop tunning相关推荐

最新文章

热门文章