1、现象

数据存储倾斜现象如下所示：

2、解决办法

配置如下参数到[hdfs-site.xml]中，然后重启NameNode和DataNode。

需要设置参数：

dfs.datanode.balance.bandwidthPerSec=52428800
dfs.datanode.balance.max.concurrent.moves=100
dfs.balance.bandwidthPerSec=52428800
dfs.datanode.max.xcievers=16384

注意：修改完该参数后，将配置信息下发到集群中的每个节点，然后需要重启hdfs，滚动重启即可。

3、启动数据均衡

nohup hdfs balancer -threshold 10 > balancer.log &
nohup hdfs balancer -threshold 10 > balancer.log &

4、异常处理

20/07/27 17:26:56 WARN balancer.Dispatcher: Failed to move blk_1135077177_61336722 with size=46096019 from 172.16.32.10:4001:DISK to 172.16.32.9:4001:DISK through 172.16.32.13:4001
java.io.IOException: Got error, status=ERROR, status message Not able to receive block 1135077177 from /172.16.32.15:34634 because threads quota is exceeded., block move is failedat org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:121)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.receiveResponse(Dispatcher.java:431)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.dispatch(Dispatcher.java:372)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.access$3000(Dispatcher.java:230)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$1.run(Dispatcher.java:1056)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)at java.lang.Thread.run(Thread.java:748)

出现以上异常，就说明告警信息，是线程配置低。可以调大点参数【dfs.datanode.max.xcievers】即可

在本次处理中，将【dfs.datanode.max.xcievers】的值从小修改大，示例：

阿龙学堂-hdfs存储数据倾斜相关推荐

阿龙学堂-Spark 数据倾斜如何处理
1.处理方式数据倾斜的问题优先从数据源解决,以下方法是辅助缓解: spark-sql任务,可以尝试distribute by () 某个字段参考文档调优: https://blog.csdn.ne ...
华为云FusionInsight MRS HDFS组件数据存储策略配置指导
操作场景默认情况下,HDFS NameNode自动选择DataNode保存数据的副本.在实际业务中,可能存在以下场景: DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存 ...
我与HDFS那些事儿(一)HDFS的数据存储
我与HDFS那些事儿(一)HDFS的数据存储闲话不多说,就来聊聊这些年与HDFS的那些事儿,我们首先来聊聊HDFS的数据存储.HDFS正是先有了数据的存储,才有后续的写入和管理等操作.数据存储包括两 ...
Apache Durid 数据存储(Hadoop概述安装 HDFS概述数据存储遇到的问题)
Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...
sqoop数据倾斜_北京卓越讯通大数据岗位面试题分享
北京卓越讯通面试题学长1 1)笔试 (1)JAVA支持的数据类型有哪些?什么是自动拆装箱? (2)AtomicInteger和Volatile等线程安全操作的关键字的理解个使用 (3)创建线程有几种 ...
Spark数据倾斜解决方案（转）
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势发表于 2017 ...
解决Spark数据倾斜（Data Skew）的 N 种姿势与问题定位
Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自 ...
【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数（用户自定义函数）、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
Hive 性能优化（全面）解决数据倾斜等问题
Hive性能优化(全面) 1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几 ...

阿龙学堂-hdfs存储数据倾斜

1、现象

2、解决办法

3、启动数据均衡

4、异常处理

阿龙学堂-hdfs存储数据倾斜相关推荐

最新文章

热门文章