选项 类型 默认值 描述
dfs.block.size int 64M 有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块
dfs.replication int 3 存放数据文件的份数
       
       
       
       
       
       
       
       
选项 类型 默认值 描述
io.sort.mb int 100 缓存map中间结果的buffer大小(MB)
io.sort.record.percent float 0.05 io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据
io.sort.spill.percent float 0.8 map开始做spill操作的阀值
io.sort.factor int 10 做merge操作时同时操作的stream数上线
min.num.spill.for.combine int 3 combine函数运行的最小spill数
mapred.compress.map.output boolean FALSE map中间结果是否采用压缩
mapred.map.output.compression.codec class name org.apache.hadoop.io.compress.DefaultCodec map中间结果的压缩方式
mapred.tasktracker.map.tasks.maximum int 2 一个tasktracker最多可以同时运行的map任务数量
mapred.map.tasks int 2 一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum
       
       
       
       
       
       
       
选项 类型 默认值 描述
mapred.reduce.parallel.copies int 5 每个reduce并行下载map结果的最大线程数
mapred.reduce.copy.backoff int 300 reduce下载线程最大等待时间(insec)
io.sort.factor int 10 做merge操作时同时操作的stream数上线
mapred.job.shuffle.input.buffer.percent float 0.7 用来缓存shuffle数据的reduce task heap百分比
mapred.job.shuffle.merge.percent float 0.66 缓存的内存中多少百分比后开始做merge操作
mapred.job.reduce.input.buffer.percent float 0 sort完成后reduce计算阶段用来缓存数据的百分比
mapred.tasktracker.reduce.tasks.maximum int 2 一个task tracker最多可以同时运行的reduce任务数量
mapred.reduce.tasks int 1 一个Job会使用task tracker的reduce任务槽数量
       
mapred.child.java.opts int 200M 配置每个map或reduce使用的内存数量
       
       
       
修改项 修改值 路径 作用
HADOOP_OPTS HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true" bin/hadoop disable ipv6
Job的调度模式 FIFO    
Fair    

hadoop tunning相关推荐

  1. Hadoop自学笔记(七)Hadoop环境配置和优化

    概览 1. Hadoop Trouble Shooting 查看logs, 存储位置等 2. Hadoop Administration 常见Hadoop管理员面对的问题 3. Hadoop Opti ...

  2. hadoop 添加删除机器以及设置免密登录

    添加hadoop机器 先在slaves中添加机器 然后启动datanode $: ./usr/hadoop-0.20.2-cdh3u4/bin/hadoop-daemon.sh start datan ...

  3. linux环境下快速配置hadoop集群免密登录

    背景 在hadoop的日常使用过程中经常需要登录某些机器,如何更好的免密登录呢?这将为我们节省大量的时间 操作 假设你需要在A机器上免密登录B机器,那么你首先要确定B机器下是有秘钥文件的.如何确定是否 ...

  4. hadoop问题小结

    20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码 访问验证 20220314 进入hive 高 ...

  5. hadoop,spark,scala,flink 大数据分布式系统汇总

    20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...

  6. spark,hadoop区别

    https://zhuanlan.zhihu.com/p/95016937 Spark和Hadoop的区别和比较: 1.原理比较: Hadoop和Spark都是并行计算,两者都是用MR模型进行计算 H ...

  7. 2021年大数据Hadoop(三十):Hadoop3.x的介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...

  8. 2021年大数据Hadoop(二十九):​​​​​​​关于YARN常用参数设置

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...

  9. 2021年大数据Hadoop(二十七):YARN运行流程

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...

最新文章

  1. 实验三-密码破解技术
  2. installation of igraph for python2.7
  3. hdu4994 博弈,按顺序拿球
  4. oracle建job
  5. linux内核之内存管理.doc,linux内核之内存管理.doc
  6. n个一位数字的数组中选取任意数目的数字,构成的3的最大倍数是多少?
  7. 【PostgreSQL-9.6.3】修改监听的IP和端口
  8. vue ui没反应如何解决?
  9. java后端技术有哪些_Java后端精选技术:什么是JVM?
  10. fast neural style transfer图像风格迁移基于tensorflow实现
  11. 查询SQLServer 服务器,执行过的SQL语句耗时!
  12. 【Gym-100837E】Optimal Rest【完全背包】
  13. 明基5560 win7 64驱动_这个Win7系统,稳定又纯净!
  14. Excel与用友ERP-U8的数据集成方法(一)
  15. 软件可维护性测试方法,软件可维护性
  16. dnf服务器维护充钱能到账吗,DNF付费服务器故障!上百万点券充值石沉大海,程序员别睡觉啦!...
  17. 信息收集--wmic命令
  18. 网络编程之TCP例子一(帅帅老师讲堂)
  19. UG二次开发自定义刀轨
  20. SWUST OJ533你的QQ多少级了?

热门文章

  1. 【渝粤教育】国家开放大学2019年春季 0024-22T建筑工程管理与实务 参考试题
  2. PL/SQL中的注释符
  3. 【深入理解JVM 七】JVM垃圾回收机制
  4. 2021最新 Maven之阿里云镜像仓库配置
  5. 电缆/管道/故障定位高密度聚乙烯盾型电子标识器技术特征与功能
  6. 重磅!US News2023世界大学排行榜出炉!
  7. luckySheet顶部信息栏图标更换或删除
  8. 埃航和737MAX坠毁:软件优先级问题
  9. 天猫皮草商家仓库起火 超6000万货被烧光
  10. 【Proteus仿真】【51单片机】K型热电偶测温系统设计