阿龙学堂-hdfs存储数据倾斜
1、现象
数据存储倾斜现象如下所示:
2、解决办法
配置如下参数到[hdfs-site.xml]中,然后重启NameNode和DataNode。
需要设置参数:
dfs.datanode.balance.bandwidthPerSec=52428800
dfs.datanode.balance.max.concurrent.moves=100
dfs.balance.bandwidthPerSec=52428800
dfs.datanode.max.xcievers=16384
注意:修改完该参数后,将配置信息下发到集群中的每个节点,然后需要重启hdfs,滚动重启即可。
3、启动数据均衡
nohup hdfs balancer -threshold 10 > balancer.log &
nohup hdfs balancer -threshold 10 > balancer.log &
4、异常处理
20/07/27 17:26:56 WARN balancer.Dispatcher: Failed to move blk_1135077177_61336722 with size=46096019 from 172.16.32.10:4001:DISK to 172.16.32.9:4001:DISK through 172.16.32.13:4001
java.io.IOException: Got error, status=ERROR, status message Not able to receive block 1135077177 from /172.16.32.15:34634 because threads quota is exceeded., block move is failedat org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:121)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.receiveResponse(Dispatcher.java:431)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.dispatch(Dispatcher.java:372)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$PendingMove.access$3000(Dispatcher.java:230)at org.apache.hadoop.hdfs.server.balancer.Dispatcher$1.run(Dispatcher.java:1056)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)at java.lang.Thread.run(Thread.java:748)
出现以上异常,就说明告警信息,是线程配置低。可以调大点参数【dfs.datanode.max.xcievers】即可
在本次处理中,将【dfs.datanode.max.xcievers】的值从小修改大,示例:
阿龙学堂-hdfs存储数据倾斜相关推荐
- 阿龙学堂-Spark 数据倾斜如何处理
1.处理方式 数据倾斜的问题优先从数据源解决,以下方法是辅助缓解: spark-sql任务,可以尝试distribute by () 某个字段 参考文档调优: https://blog.csdn.ne ...
- 华为云FusionInsight MRS HDFS组件数据存储策略配置指导
操作场景 默认情况下,HDFS NameNode自动选择DataNode保存数据的副本.在实际业务中,可能存在以下场景: DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存 ...
- 我与HDFS那些事儿(一)HDFS的数据存储
我与HDFS那些事儿(一)HDFS的数据存储 闲话不多说,就来聊聊这些年与HDFS的那些事儿,我们首先来聊聊HDFS的数据存储.HDFS正是先有了数据的存储,才有后续的写入和管理等操作.数据存储包括两 ...
- Apache Durid 数据存储(Hadoop概述 安装 HDFS概述 数据存储遇到的问题)
Apache Durid 数据存储 Apache Durid 数据存储 1. 分布式技术 1.1 为什么需要分布式 1.1.1 计算问题 1.1.2 存储问题 1.2 分布式系统概述 1.3 分布式实 ...
- sqoop数据倾斜_北京卓越讯通大数据岗位面试题分享
北京卓越讯通面试题 学长1 1)笔试 (1)JAVA支持的数据类型有哪些?什么是自动拆装箱? (2)AtomicInteger和Volatile等线程安全操作的关键字的理解个使用 (3)创建线程有几种 ...
- Spark数据倾斜解决方案(转)
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势 发表于 2017 ...
- 解决Spark数据倾斜(Data Skew)的 N 种姿势 与 问题定位
Spark性能优化之道--解决Spark数据倾斜(Data Skew)的N种姿势 本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自 ...
- 【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数(用户自定义函数)、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录 一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务 二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
- Hive 性能优化(全面)解决数据倾斜等问题
Hive性能优化(全面) 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几 ...
最新文章
- HttpServletResponse,HttpServletRequest详解
- nodemailer实现node发送邮件
- 文献学习(part34)
- python函数名与变量名可以一样吗_python--第一类对象,函数名,变量名
- php处理结果集,php中mysqli 处理查询结果集的几个方法
- 如何在SQL Server中索引外键列
- mysql 主从不同步处理--数据库初始化
- 只需三种手段,将传统的网站的性能提高 24%!
- BZOJ3757 苹果树
- 前端——HTML百度首页制作
- Unity3D设置天空盒skybox
- doom3 源代码基本情况
- java 操作word宏_java调用microsoft office(如word、excel)的宏 | 学步园
- Allegro使用技巧(2)----Allegro 覆铜显示与隐藏
- VBS:UBound()函数
- 上班族用哪个邮箱好用,如何正确使用邮件工作?
- pdf在线翻译_如何在线翻译整篇PDF论文?
- 哼唱识别(query by humming)
- 微信视频号标题怎么写吸引眼球
- Aliyun短信服务集成