1、现象

数据存储倾斜现象如下所示:

2、解决办法

配置如下参数到[hdfs-site.xml]中,然后重启NameNode和DataNode。

需要设置参数:

dfs.datanode.balance.bandwidthPerSec=52428800
dfs.datanode.balance.max.concurrent.moves=100
dfs.balance.bandwidthPerSec=52428800
dfs.datanode.max.xcievers=16384

注意:修改完该参数后,将配置信息下发到集群中的每个节点,然后需要重启hdfs,滚动重启即可。

3、启动数据均衡

nohup hdfs balancer -threshold 10 > balancer.log &
nohup hdfs balancer -threshold 10 > balancer.log &

4、异常处理

20/07/27 17:26:56 WARN balancer.Dispatcher: Failed to move blk_1135077177_61336722 with size=46096019 from 172.16.32.10:4001:DISK to 172.16.32.9:4001:DISK through 172.16.32.13:4001
java.io.IOException: Got error, status=ERROR, status message Not able to receive block 1135077177 from /172.16.32.15:34634 because threads quota is exceeded., block move is failedat org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:121)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.receiveResponse(Dispatcher.java:431)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.dispatch(Dispatcher.java:372)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.access$3000(Dispatcher.java:230)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$1.run(Dispatcher.java:1056)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)at java.lang.Thread.run(Thread.java:748)

出现以上异常,就说明告警信息,是线程配置低。可以调大点参数【dfs.datanode.max.xcievers】即可

在本次处理中,将【dfs.datanode.max.xcievers】的值从小修改大,示例:

阿龙学堂-hdfs存储数据倾斜相关推荐

  1. 阿龙学堂-Spark 数据倾斜如何处理

    1.处理方式 数据倾斜的问题优先从数据源解决,以下方法是辅助缓解: spark-sql任务,可以尝试distribute by () 某个字段 参考文档调优: https://blog.csdn.ne ...

  2. 华为云FusionInsight MRS HDFS组件数据存储策略配置指导

    操作场景 默认情况下,HDFS NameNode自动选择DataNode保存数据的副本.在实际业务中,可能存在以下场景: DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存 ...

  3. 我与HDFS那些事儿(一)HDFS的数据存储

    我与HDFS那些事儿(一)HDFS的数据存储 闲话不多说,就来聊聊这些年与HDFS的那些事儿,我们首先来聊聊HDFS的数据存储.HDFS正是先有了数据的存储,才有后续的写入和管理等操作.数据存储包括两 ...

  4. Apache Durid 数据存储(Hadoop概述 安装 HDFS概述 数据存储遇到的问题)

    Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...

  5. sqoop数据倾斜_北京卓越讯通大数据岗位面试题分享

    北京卓越讯通面试题 学长1 1)笔试 (1)JAVA支持的数据类型有哪些?什么是自动拆装箱? (2)AtomicInteger和Volatile等线程安全操作的关键字的理解个使用 (3)创建线程有几种 ...

  6. Spark数据倾斜解决方案(转)

    本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势  发表于 2017 ...

  7. 解决Spark数据倾斜(Data Skew)的 N 种姿势 与 问题定位

    Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势 本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自 ...

  8. 【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数(用户自定义函数)、UDAF函数、性能调优、SparkSQL解决数据倾斜

    文章目录 一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务 二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...

  9. Hive 性能优化(全面)解决数据倾斜等问题

    Hive性能优化(全面) 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几 ...

最新文章

  1. HttpServletResponse,HttpServletRequest详解
  2. nodemailer实现node发送邮件
  3. 文献学习(part34)
  4. python函数名与变量名可以一样吗_python--第一类对象,函数名,变量名
  5. php处理结果集,php中mysqli 处理查询结果集的几个方法
  6. 如何在SQL Server中索引外键列
  7. mysql 主从不同步处理--数据库初始化
  8. 只需三种手段,将传统的网站的性能提高 24%!
  9. BZOJ3757 苹果树
  10. 前端——HTML百度首页制作
  11. Unity3D设置天空盒skybox
  12. doom3 源代码基本情况
  13. java 操作word宏_java调用microsoft office(如word、excel)的宏 | 学步园
  14. Allegro使用技巧(2)----Allegro 覆铜显示与隐藏
  15. VBS:UBound()函数
  16. 上班族用哪个邮箱好用,如何正确使用邮件工作?
  17. pdf在线翻译_如何在线翻译整篇PDF论文?
  18. 哼唱识别(query by humming)
  19. 微信视频号标题怎么写吸引眼球
  20. Aliyun短信服务集成

热门文章

  1. 积分竟然比微分早了1300年!一文讲清积分的历史
  2. android模拟器转方向,android开发 使用夜神模拟器 屏幕旋转问题
  3. 团队作业五之旅游行业手机APP分析
  4. 党校报告称中国使用互联网每年需向美国付5000亿
  5. 【Redis】Redis入门篇(1)
  6. win10系统可禁用的服务器,window10哪些服务可以禁止
  7. 网络摄像头Rtsp直播方案(二)
  8. 视频剪辑技巧,教你视频画面用图片进行遮挡的方法
  9. tensorRT在yolo上的使用
  10. 文献管理软件--zotero基本使用