flume采集数据报错问题解决
在一次实验过程中,使用flume 1.7采集本地的数据到hdfs文件系统时,由于配置文件不合理,导致出错。错误如下:
[WARN - org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:611)] Caught exception
java.lang.InterruptedException
at java.lang.Object.wait(Native Method)
at java.lang.Thread.join(Thread.java:1281)
at java.lang.Thread.join(Thread.java:1355)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:609)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.endBlock(DFSOutputStream.java:370)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:546)
Flume配置文件如下:
a1.sources=r1
a1.sinks=k1
a1.channels=c1
## describe sources
a1.sources.r1.type=spooldir
a1.sources.r1.spoolDir=/home/hadoop/data/flumeData
a1.sources.r1.fileHeader = false
a1.sources.r1.deserializer.maxLineLength=10240
## describe channel
a1.channels.c1.type=memory
##describe sinks
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/hadoopProject01/%y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = beicai
a1.sinks.k1.hdfs.fileType=DataStream
#每个批次刷新到hdfs的events的数据
a1.sinks.k1.hdfs.batchSize =10
#如果设置为0,则表示不根据events数据来滚动文件
a1.sinks.k1.hdfs.rollCount= 0
#当临时文件达到该大小的时候(单位为bytes)时,滚动成目标文件
a1.sinks.k1.hdfs.rollSize=52428800
#如果设置为0,则表示不根据时间来滚动文件
a1.sinks.k1.hdfs.rollInterval=0
#是否启用时间上的"舍弃"
a1.sinks.k1.hdfs.round = false
#5分钟后滚动为一个文件
a1.sinks.k1.hdfs.roundValue = 5
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp=true
#bind
a1.sources.r1.channels =c1
a1.sinks.k1.channel=c1
本次采用的是直接监控目录下文件的变化,如果有新文件上传到此目录就采集。
处理结果:
因为channel是Memory 类型,所以如果文件很大,就必须保证内存足够,否则发生错误很正常。
还有就是重新调整一下,a1.sinks.k1.hdfs.rollSize=52428800
rollSize可以调小一些。
转载于:https://www.cnblogs.com/xiaohu2011/p/7595858.html
flume采集数据报错问题解决相关推荐
- Extra Data after Last Expected Column:hawq建外表load数据报错
背景:使用sqoop import 才oracle抽数据入HDFS后,通过pxf建立hawq外表,查询数据报错 解决思路:1.从报错上看应该是数据源分割后字段数比目标表字段多,且pgadmin3里报错 ...
- 【Linux】logrotate切割Tomcat日志并轮转(Flume采集准备工作适用)
[Linux]logrotate切割Tomcat日志并轮转(Flume采集准备工作适用) 背景及使用场景 系统及软件环境 解决方案及具体操作 logrotate配置文件编辑 logrotate全部配置 ...
- redisson get()数据报错,missing type id property ‘@class’
redisson get()数据报错: com.fasterxml.jackson.databind.exc.InvalidTypeIdException: Missing type id when ...
- python response.json()报错_Django JsonResponse json格式报错 解决Django响应JsonResponse返回json格式数据报错问题...
想了解解决Django响应JsonResponse返回json格式数据报错问题的相关内容吗,彭世瑜在本文为您仔细讲解Django JsonResponse json格式报错的相关知识和一些Code实例 ...
- 【iOS工具】rvm、Ruby环境和CocoaPods安装使用及相关报错问题解决(2016 12 15 更新)...
〇.前言 在iOS开发中 [CocoaPods](https://github.com/CocoaPods/CocoaPods) 作为库依赖管理工具就是一把利器. 有了 CocoaPods 则无需再通 ...
- django 使用json.dumps转换queryset的datatime报错问题解决
django 使用json.dumps转换queryset的datatime报错问题解决 参考文章: (1)django 使用json.dumps转换queryset的datatime报错问题解决 ( ...
- ECharts问题--柱状图和折线图中xAxis.data为空时报错问题解决
ECharts问题--柱状图和折线图中xAxis.data为空时报错问题解决 参考文章: (1)ECharts问题--柱状图和折线图中xAxis.data为空时报错问题解决 (2)https://ww ...
- python3的urllib2报错问题解决方法
python3的urllib2报错问题解决方法 参考文章: (1)python3的urllib2报错问题解决方法 (2)https://www.cnblogs.com/marsggbo/p/66229 ...
- 基于PLSQL的数据库备份方法及如何解决导出clob和blob类型数据报错的问题
基于PLSQL的数据库备份方法及如何解决导出clob和blob类型数据报错的问题 参考文章: (1)基于PLSQL的数据库备份方法及如何解决导出clob和blob类型数据报错的问题 (2)https: ...
最新文章
- 虚拟机linux 8.04汉化,在虚拟机中快速安装 Ubuntu 18.04
- Prism V2之旅(1)
- tcpip详解--端口号
- Mono.Android 基础
- 学Ruby开发的几个好网站
- python统计字符串中字母个数字母无视大小写_判断一个字符串中字母的个数(无视大小写)...
- MongoDB Query 的几个方法
- Android Arcface人脸识别sdk使用工具类
- html5 session 缓存,关于HTML5中的sessionStorage的会话级缓存使用
- 知产新观察 | 商家要敢于向知产流氓及恶意投诉说不!
- js面向对象写法及栈的实现
- c语言课后作业,C语言练习题
- Raucous Rockers_usaco3.4.4
- go与python的前景_为什么说GO语言是未来前景看好的编程语言
- 下载英文图书的几个网站
- IDEA Springboot docker 构建项目
- 使用 NGINX 搭建 RTMP 流媒体服务器实现直播功能
- wsdl和soap协议详细解析
- 快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本
- mysql创建应用账号
热门文章
- Sql Server 2008 精简版(Express)和管理工具的安装以及必须重新启动计算机才能安装 SQLServer的问题和第一次使用sqlexpress的连接问题
- ASPNet_Compiler学习总结
- ArcGIS Engine 项目10.1升级10.2
- Java 取得文件名的后缀
- 关于我之前写的修改Windows系统Dos下显示的用户名之再修改测试
- Vue2.0 入门 安装Vue-cli
- 51Nod 1007 正整数分组 | DP (01背包)
- Flash学习笔记(01)
- 现在已经不喜欢注释而喜欢直接看代码了
- python乘法表左下变右上_vc++乘法表变换形式怎么变就是变成左上、右上三角形 左下、右下、等腰三角形 还有倒三角形,...