flume系列之:清理HDFS上的tmp文件,把.gz.tmp文件变为.gz文件
flume系列之:清理HDFS上的tmp文件,把.gz.tmp文件变为.gz文件
- 一、查找hdfs指定目录下的tmp文件
- 二、把所有的.gz.tmp文件变为.gz文件
- flume出现异常,hdfs上生成的gz.tmp文件没有正常关闭,需要把这些gz.tmp格式的文件转变为gz文件。
- 思路是:可以写一个脚本找出所有的tmp文件,然后再批量执行hadoop fs -mv命令把所有的.gz.tmp文件变为.gz文件。
一、查找hdfs指定目录下的tmp文件
- 查找hdfs指定目录下的tmp文件
- 生成hadoop fs -mv filename.gz.tmp filename.gz命令存放到脚本cleanTemp.sh中
- 执行sh cleanTemp.sh把所有的.gz.tmp文件变为.gz文件
查找gz.tmp文件的脚本findTempFile.sh
vim findTempFile.shset -xDAY=$1
HOUR
flume系列之:清理HDFS上的tmp文件,把.gz.tmp文件变为.gz文件相关推荐
- flume系列之:hdfs.timeZone设置中国北京或上海时区
flume系列之:hdfs.timeZone设置中国北京或上海时区 查看服务器时间 flume设置中国时区 查看服务器时间 date 2021年 12月 23日 星期四 10:09:49 CST hd ...
- Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
摘要 flume打到hdfs上时,按照文件大小生成文件,在达到指定大小之前数据都是以.tmp文件形式保存在hdfs上,hive外部表也会加载这些文件,但是当文件完成后.tmp会消失,这时候hive会报 ...
- flume系列之:监控flume上个小时生成的HDFS文件是否有损毁,并发送告警信息
flume系列之:监控flume上个小时生成的HDFS文件是否有损毁,并发送告警信息 一.查看HDFS文件状态背景知识 二.登陆远程服务器代码 三.获取当前时间和上个小时时间 四.访问hdfs执行ke ...
- Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)
参考网址:hdfs sinks %t Unix 时间戳,毫秒 %{host} 替换名为"host"的事件 header 的值.支持任意标题名称. %a 星期几的短名,即 Mon, ...
- Java在hdfs上创建新文件夹遇错误:Permission denied: user=atguigu, access=READ_EXECUTE, inode=“/tmp“:root:supe
在IDEA里编写测试代码用于在HDFS上创建新文件夹遇到以下错误: Permission denied: user=atguigu, access=READ_EXECUTE, inode=" ...
- [hbase]Hbase 在HDFS上的目录树结构
自从学习了HDFS之后,再学习HBASE之后,我了解到HBASE是架设在HDFS上的,数据存储在HDFS上,哪HBASE在HDFS上的目录树是怎样的呢? 一.0.94-cdh4.2.1版本 系统级别的 ...
- 删除hdfs上的内容报错:rm: Cannot delete /wxcm/ Name node is in safe mode.
问题:在执行删除hdfs上的内容时(hdfs dfs -rm -f -r -skipTrash /wxcm)报错:rm: Cannot delete /wxcm/ Name node is in sa ...
- flume系列之:flume基于kafka.topics和kafka.topics.regex两种方式匹配Kafka Topic
flume系列之:flume基于kafka.topics和kafka.topics.regex两种方式匹配Kafka Topic 一.flume基于kafka.topics匹配Kafka Topic ...
- flume采集数据到hdfs
说明:flume1.5,hadoop2.2 1.配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动 ...
- 【Flume】【源码分析】flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?
本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1 ...
最新文章
- 张书源:大数据能力助力我实现化工智能制造 | 提升之路系列(十)
- pyautogui 打包 运行 窗口_试试动态窗口管理器 dwm 吧
- Linux加密框架 crypto 哈希算法举例 MD5
- 长文解析:作为容器底层技术的半壁江山, cgroup如何突破并发创建瓶颈?
- java调用 restapi 乱码_Java HttpURLConnection模拟请求Rest接口解决中文乱码问题
- mongo 唯一约束索引_Java:MySQL 基础知识+索引相关
- OJ1033: 五级制成绩
- MSN再次出现大面积瘫痪 微软称尚未查明原因
- python游戏开发框架_2018年Python主流框架有哪些?最流行的Python框架
- 温故之.NET 任务并行
- Shell脚本编程之(一)Shell脚本简介
- 工业基础类IFC—EXPRESS语言
- 大篆汉字对照表_篆书隶书千字对照表(一)
- Informatic学习总结_day02
- 关于考研复习数学分析和高等代数
- mac上好用的chm阅读器
- WordPress站点被挂马,如何预防、检测和应对?
- etoken显示连接服务器失败,etoken
- 初学者学习深度学习,不得不会的Google Colab基本操作
- Shader 如何表现攻击范围
热门文章
- 机器学习8-误差逆传播算法BP的认识
- ReactNative 导航栏Navigator的使用及参数navigator的传递
- django 1.8 mysql_mysql - 升级1.7.4到django 1.8 south.db.mysql错误,不使用南 - 堆栈内存溢出...
- LCD 调试方法及问题汇总
- playframework 简介
- JIRA带来的管理思路
- 概率Probability的本质是什么?[附概率基础知识,文末可下载28页PDF]
- 2022版Maven教程 - 第八章 微服务架构案例
- 无法启动程序因为计算机中丢失msvcr100,Win7系统计算机中Msvcr100.dll丢失的解决办法(两种方法)...
- 企业微信第三方服务商和钉钉ISV开发对比