1.产生原因

1.使用Hue的界面工具执行Hive-sql。Hue会自动保存sql执行结果方便用户能够查看历史执行记录,所以会在相应目录下生成hive-staging文件;

2.Hive-sql任务执行过程中出现异常,导致hive-staging文件未删除,未出现异常时,hive会自行删除hive-staging文件;

3.使用spark-sql on yarn 跑sql 程序生成的hive-staging文件不会被删除

2.解决方案

1.配置hive-site.xml文件

<property><name>hive.insert.into.multilevel.dirs</name><value>true</value><description>允许生成多级目录</description>
</property>
<property><name>hive.exec.stagingdir</name><value>/tmp/hive/staging/.hive-staging</value><description>临时文件暂放目录</description>
</property>

CDH环境配置

2.使用shell脚本定时删除临时文件

#! /bin/bash#hive-staging文件夹位置
param=$1#获取前一天时间
time=`date +%F -d "-1 days"`#获取待删除的文件
echo 'get files------'
regexp="*{0,}hive-staging_hive_""${time}*"
echo "regexp---""${regexp}"
arr=(`hdfs dfs -ls ${param} | awk '{print $8}' | egrep "${regexp}" | tr '\n' ' '`)
echo ${arr[0]}
for i in "${arr[@]}"
dofile="$i"`hdfs dfs -rm -r "${file}"`
done

3.将shell脚本加入linux定时任务就可以了

vi /etc/crontab
#加入下面命令
01 0 * * * /usr/bin/sh /home/shell-file/test.sh ${你的hive-staging目录} >>${你的日志存放路径}/`date +%F`.log 2>&1

3.参考资料

1.【大数据】hive 删除临时文件 .hive-staging_hive - TurboWay - 博客园 (cnblogs.com)

2.占用_06535.16.1Hive Staging目录占用大量HDFS空间问题分析_weixin_39604819的博客-CSDN博客

hive-staging文件问题——DataX同步数据重复相关推荐

  1. DATAX工具同步数据从hdfs到drds性能优化

    问题描述 在客户现场运维过程中,使用datax同步数据从hdfs到drds速度极其缓慢,因此希望进行datax的json文件进行优化,提升速度,同步缓慢及报错如下: 问题分析 对于datax的使用问题 ...

  2. 使用datax同步cassandra数据

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现各种异构数据源之间高效的数据同步功能.最近,阿里云cassandra团队为datax提供了cassandra读写插件,进一步丰富了d ...

  3. datax 导入数据中文乱码_浅谈数据同步之道

    数据同步,顾名思义就是不同系统的数据进行同步处理.而业务系统所涉及的数据库同步是重中之重,虽然大部分数据库都提供了导入导出的工具,但是数据存储到各个地方,Hive.Hbase.MySQL.Oracle ...

  4. DataX离线数据同步

    目录 1 DataX 2 ODPS同步数据到HDFS HA 配置 Kerberos 配置 域外访问配置 3 HDFS同步数据到另一个HDFS 4 MongoDB同步数据到HDFS 5 带 Kerber ...

  5. 使用 DataX 实现数据同步(高效的同步工具)

    DataX 使用介绍 前言 一.DataX 简介 1.DataX3.0 框架设计 2.DataX3.0 核心架构 二.使用 DataX 实现数据同步 1.Linux 上安装 DataX 软件 2.Da ...

  6. DataX离线数据同步工具/平台

    DataX离线数据同步工具/平台 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.SQL Server.Oracle.PostgreSQL.HDFS.Hive.O ...

  7. datax 持续数据同步_DataX数据同步

    因为选择了ElasticSearch做全文检索,需要把数据从数据库同步到es,此处选择开源方案DataX作为数据同步工具. 官方文档很详细,可以直接参考. DataXDataX 是一个异构数据源离线同 ...

  8. 基于dataX的数据同步平台搭建

    前言 基于Java和DataX工具实现数据同步的后台管理,包括数据同步任务的生成,任务的管理,查看任务的执行日志,解析任务的执行结果等功能. 内含一些技术实现方案.心得体会和填坑经验等干货. 阅读本文 ...

  9. SparkSQL overwrite插入Hive表数据重复问题

    问题描述: 使用Spark SQL采用overwrite写法写入Hive(非分区表,),全量覆盖,因为人为原因脚本定时设置重复,SparkSql计算任务被短时间内调起两次,结果发现任务正常运行,造成写 ...

最新文章

  1. C++ 复数类运算符重载
  2. RocketMQ源码分析之RocketMQ事务消息实现原理上篇(二阶段提交)
  3. [BUUCTF-pwn]——pwnable_echo2
  4. 马云都退休20天了,2019年剩下不到100天了:你还没掌握Python 编程思维吗?
  5. 聊聊 Java8 以后各个版本的新特性
  6. vue项目职责_进大厂兼职的机会来了!腾讯微校项目招人了!
  7. 【Kafka】Kafka InvalidReceiveException: Invalid receive (size = 369296128 larger than 104857600)
  8. 美国国家标准技术局发布应用容器安全指南
  9. java 27 - 7 反射之 通过反射越过泛型检查
  10. linux opera java,Ubuntu Linux下的 Opera 安装
  11. 程序员面试指南python_程序员代码面试指南:IT名企算法与数据结构题目最优解 PDF...
  12. mimics能导出什么格式_Mimics到底支持怎样的图像格式(修正版) – MATLAB中文论坛...
  13. 【MATLAB】MATLAB三维曲面绘制【详细教程】
  14. 第一台数控机床专用计算机采用什么元件,数控技术试题库(含答案)
  15. 微型计算机 介绍 gtx980m,卡皇GTX980M的横空出世_笔记本评测-中关村在线
  16. dw读取access中的图片_DreamWeaver入门必看:ACCESS数据库(三)
  17. QT5实现职工工资信息管理系统(文件读写)
  18. 手机锁屏密码忘了怎么办
  19. matlab自带的VAD检测程序
  20. RL 实践(3)—— 悬崖漫步【QLearning Sarsa 各种变体】

热门文章

  1. 记录一个有意思的cpu逻辑cpu核数问题(已解决)
  2. JAVA删除字符串固定下标的字串
  3. 遥感与GIS在滑坡、泥石流风险普查中的实践技术应用
  4. 使用 Electron 给前端项目 打包成exe
  5. 外链自动转内链html,一个简单的HTML实现外链转内链
  6. android camera 动画,android高仿小米时钟(使用Camera和Matrix实现3D效果)
  7. 本科生学深度学习-史上最容易懂的RNN文章
  8. 部署项目报错 清一色的cannot be resolved to a type
  9. YDOOK: Python3 IPC 进程间通信方法分类总结
  10. 为王菲写的第十首《雄心永在》