flume系列之:清理HDFS上的tmp文件,把.gz.tmp文件变为.gz文件

  • 一、查找hdfs指定目录下的tmp文件
  • 二、把所有的.gz.tmp文件变为.gz文件
  • flume出现异常,hdfs上生成的gz.tmp文件没有正常关闭,需要把这些gz.tmp格式的文件转变为gz文件。
  • 思路是:可以写一个脚本找出所有的tmp文件,然后再批量执行hadoop fs -mv命令把所有的.gz.tmp文件变为.gz文件。

一、查找hdfs指定目录下的tmp文件

  • 查找hdfs指定目录下的tmp文件
  • 生成hadoop fs -mv filename.gz.tmp filename.gz命令存放到脚本cleanTemp.sh中
  • 执行sh cleanTemp.sh把所有的.gz.tmp文件变为.gz文件

查找gz.tmp文件的脚本findTempFile.sh

vim findTempFile.shset -xDAY=$1
HOUR

flume系列之:清理HDFS上的tmp文件,把.gz.tmp文件变为.gz文件相关推荐

  1. flume系列之:hdfs.timeZone设置中国北京或上海时区

    flume系列之:hdfs.timeZone设置中国北京或上海时区 查看服务器时间 flume设置中国时区 查看服务器时间 date 2021年 12月 23日 星期四 10:09:49 CST hd ...

  2. Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件

    摘要 flume打到hdfs上时,按照文件大小生成文件,在达到指定大小之前数据都是以.tmp文件形式保存在hdfs上,hive外部表也会加载这些文件,但是当文件完成后.tmp会消失,这时候hive会报 ...

  3. flume系列之:监控flume上个小时生成的HDFS文件是否有损毁,并发送告警信息

    flume系列之:监控flume上个小时生成的HDFS文件是否有损毁,并发送告警信息 一.查看HDFS文件状态背景知识 二.登陆远程服务器代码 三.获取当前时间和上个小时时间 四.访问hdfs执行ke ...

  4. Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)

    参考网址:hdfs sinks %t Unix 时间戳,毫秒 %{host} 替换名为"host"的事件 header 的值.支持任意标题名称. %a 星期几的短名,即 Mon, ...

  5. Java在hdfs上创建新文件夹遇错误:Permission denied: user=atguigu, access=READ_EXECUTE, inode=“/tmp“:root:supe

    在IDEA里编写测试代码用于在HDFS上创建新文件夹遇到以下错误: Permission denied: user=atguigu, access=READ_EXECUTE, inode=" ...

  6. [hbase]Hbase 在HDFS上的目录树结构

    自从学习了HDFS之后,再学习HBASE之后,我了解到HBASE是架设在HDFS上的,数据存储在HDFS上,哪HBASE在HDFS上的目录树是怎样的呢? 一.0.94-cdh4.2.1版本 系统级别的 ...

  7. 删除hdfs上的内容报错:rm: Cannot delete /wxcm/ Name node is in safe mode.

    问题:在执行删除hdfs上的内容时(hdfs dfs -rm -f -r -skipTrash /wxcm)报错:rm: Cannot delete /wxcm/ Name node is in sa ...

  8. flume系列之:flume基于kafka.topics和kafka.topics.regex两种方式匹配Kafka Topic

    flume系列之:flume基于kafka.topics和kafka.topics.regex两种方式匹配Kafka Topic 一.flume基于kafka.topics匹配Kafka Topic ...

  9. flume采集数据到hdfs

    说明:flume1.5,hadoop2.2 1.配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动 ...

  10. 【Flume】【源码分析】flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?

    本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1 ...

最新文章

  1. 张书源:大数据能力助力我实现化工智能制造 | 提升之路系列(十)
  2. pyautogui 打包 运行 窗口_试试动态窗口管理器 dwm 吧
  3. Linux加密框架 crypto 哈希算法举例 MD5
  4. 长文解析:作为容器底层技术的半壁江山, cgroup如何突破并发创建瓶颈?
  5. java调用 restapi 乱码_Java HttpURLConnection模拟请求Rest接口解决中文乱码问题
  6. mongo 唯一约束索引_Java:MySQL 基础知识+索引相关
  7. OJ1033: 五级制成绩
  8. MSN再次出现大面积瘫痪 微软称尚未查明原因
  9. python游戏开发框架_2018年Python主流框架有哪些?最流行的Python框架
  10. 温故之.NET 任务并行
  11. Shell脚本编程之(一)Shell脚本简介
  12. 工业基础类IFC—EXPRESS语言
  13. 大篆汉字对照表_篆书隶书千字对照表(一)
  14. Informatic学习总结_day02
  15. 关于考研复习数学分析和高等代数
  16. mac上好用的chm阅读器
  17. WordPress站点被挂马,如何预防、检测和应对?
  18. etoken显示连接服务器失败,etoken
  19. 初学者学习深度学习,不得不会的Google Colab基本操作
  20. Shader 如何表现攻击范围

热门文章

  1. 机器学习8-误差逆传播算法BP的认识
  2. ReactNative 导航栏Navigator的使用及参数navigator的传递
  3. django 1.8 mysql_mysql - 升级1.7.4到django 1.8 south.db.mysql错误,不使用南 - 堆栈内存溢出...
  4. LCD 调试方法及问题汇总
  5. playframework 简介
  6. JIRA带来的管理思路
  7. 概率Probability的本质是什么?[附概率基础知识,文末可下载28页PDF]
  8. 2022版Maven教程 - 第八章 微服务架构案例
  9. 无法启动程序因为计算机中丢失msvcr100,Win7系统计算机中Msvcr100.dll丢失的解决办法(两种方法)...
  10. 企业微信第三方服务商和钉钉ISV开发对比