hadoop tunning
选项 | 类型 | 默认值 | 描述 |
dfs.block.size | int | 64M | 有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块 |
dfs.replication | int | 3 | 存放数据文件的份数 |
选项 | 类型 | 默认值 | 描述 |
io.sort.mb | int | 100 | 缓存map中间结果的buffer大小(MB) |
io.sort.record.percent | float | 0.05 | io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据 |
io.sort.spill.percent | float | 0.8 | map开始做spill操作的阀值 |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
min.num.spill.for.combine | int | 3 | combine函数运行的最小spill数 |
mapred.compress.map.output | boolean | FALSE | map中间结果是否采用压缩 |
mapred.map.output.compression.codec | class name | org.apache.hadoop.io.compress.DefaultCodec | map中间结果的压缩方式 |
mapred.tasktracker.map.tasks.maximum | int | 2 | 一个tasktracker最多可以同时运行的map任务数量 |
mapred.map.tasks | int | 2 | 一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum |
选项 | 类型 | 默认值 | 描述 |
mapred.reduce.parallel.copies | int | 5 | 每个reduce并行下载map结果的最大线程数 |
mapred.reduce.copy.backoff | int | 300 | reduce下载线程最大等待时间(insec) |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
mapred.job.shuffle.input.buffer.percent | float | 0.7 | 用来缓存shuffle数据的reduce task heap百分比 |
mapred.job.shuffle.merge.percent | float | 0.66 | 缓存的内存中多少百分比后开始做merge操作 |
mapred.job.reduce.input.buffer.percent | float | 0 | sort完成后reduce计算阶段用来缓存数据的百分比 |
mapred.tasktracker.reduce.tasks.maximum | int | 2 | 一个task tracker最多可以同时运行的reduce任务数量 |
mapred.reduce.tasks | int | 1 | 一个Job会使用task tracker的reduce任务槽数量 |
mapred.child.java.opts | int | 200M | 配置每个map或reduce使用的内存数量 |
修改项 | 修改值 | 路径 | 作用 |
HADOOP_OPTS | HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true" | bin/hadoop | disable ipv6 |
Job的调度模式 | FIFO | ||
Fair |
hadoop tunning相关推荐
- Hadoop自学笔记(七)Hadoop环境配置和优化
概览 1. Hadoop Trouble Shooting 查看logs, 存储位置等 2. Hadoop Administration 常见Hadoop管理员面对的问题 3. Hadoop Opti ...
- hadoop 添加删除机器以及设置免密登录
添加hadoop机器 先在slaves中添加机器 然后启动datanode $: ./usr/hadoop-0.20.2-cdh3u4/bin/hadoop-daemon.sh start datan ...
- linux环境下快速配置hadoop集群免密登录
背景 在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间 操作 假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...
- hadoop问题小结
20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码 访问验证 20220314 进入hive 高 ...
- hadoop,spark,scala,flink 大数据分布式系统汇总
20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...
- spark,hadoop区别
https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...
- 2021年大数据Hadoop(三十):Hadoop3.x的介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...
- 2021年大数据Hadoop(二十九):关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...
- 2021年大数据Hadoop(二十七):YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...
最新文章
- 实验三-密码破解技术
- installation of igraph for python2.7
- hdu4994 博弈,按顺序拿球
- oracle建job
- linux内核之内存管理.doc,linux内核之内存管理.doc
- n个一位数字的数组中选取任意数目的数字,构成的3的最大倍数是多少?
- 【PostgreSQL-9.6.3】修改监听的IP和端口
- vue ui没反应如何解决?
- java后端技术有哪些_Java后端精选技术:什么是JVM?
- fast neural style transfer图像风格迁移基于tensorflow实现
- 查询SQLServer 服务器,执行过的SQL语句耗时!
- 【Gym-100837E】Optimal Rest【完全背包】
- 明基5560 win7 64驱动_这个Win7系统,稳定又纯净!
- Excel与用友ERP-U8的数据集成方法(一)
- 软件可维护性测试方法,软件可维护性
- dnf服务器维护充钱能到账吗,DNF付费服务器故障!上百万点券充值石沉大海,程序员别睡觉啦!...
- 信息收集--wmic命令
- 网络编程之TCP例子一(帅帅老师讲堂)
- UG二次开发自定义刀轨
- SWUST OJ533你的QQ多少级了?