flume采集数据易出现的bug
1.内存不足
修改文件内容 <文件根目录>/bin/flume-ng
JAVA_OPTS="-Xms100m -Xmx4096m -Dcom.sun.management.jmxremote" 内存调大
2.采集kafka数据或者生产kafka数据的的时候默认数据大小是1M,所以使用flume工具导数据如果大于1M,需要添加配置参数
配置文件 <文件根目录>/bin/conf/启动第对应配置文件
采集kafka数据配置source agent.sources.r1.kafka.consumer.max.partition.fetch.bytes = 10240000
导入kafka数据配置sink agent.sinks.k1.kafka.producer.max.request.size = 10240000
3.导一条数据的大小超过默认大下2048字节,这一条数据会被拆成两条数据,导致数据格式异常
修改默认的一条数据最大值
源码包 flume-ng-core-1.8.0.jar ,重新放入lib中修改的类位置 org.apache.flume.serialization.LineDeserializer修改参数 public static final int MAXLINE_DFLT = 1048576 ; //调大
4.使用flume数据源为kafka,sink也为kafka,导致数据传输无响应问题
自定义sink ,默认数据能走到sink,只是在sink发送到kafka的时候失败了,这一块儿需要用java自定义发送数据到kafka
flume采集目录数据
a1.sources = yuan
a1.sinks = zhong
a1.channels = cuna1.sources.yuan.type = spooldir
a1.sources.yuan.spoolDir = /home/shell/test/
a1.sources.yuan.fileHeader = true
a1.sources.yuan.includePattern = (^[0-9]{20}\\_CDSS\\_[0-9]{14}\\.TXT$) #文件正则匹配
a1.sources.yuan.recursiveDirectorySearch = true # 表示递归采集
#a1.sources.yuan.ignorePattern = .*log$a1.sinks.zhong.type = org.ncmsa.cmpdcs.common.sink.mongdb.LinkDataMongoDBSink
a1.sinks.zhong.mongo.url = 127.0.0.1:17
a1.sinks.zhong.mongo.batch = 200
a1.sinks.zhong.end.symbol = ::
a1.sinks.zhong.database.name = db
a1.sinks.zhong.collection.name = aqjk_rt_sensormonitor
a1.sinks.zhong.mongo.thread = 1a1.channels.cun.type = memory
a1.channels.cun.capacity = 10000
a1.channels.cun.transactionCapacity = 5000a1.sources.yuan.channels = cun
a1.sinks.zhong.channel = cun
flume启动方式
<home>/bin/flume-ng agent --name a1 --conf<home>/conf --conf-file <home>/conf/sink.dir-mongodb.conf -Dflume.root.logger=INFO,console
flume采集数据易出现的bug相关推荐
- 【大数据入门核心技术-Flume】(四)使用Flume采集数据到Hive
[大数据入门核心技术-Kafka](七)Ka 录 一.准备工作 1.Hadoop环境安装 2.Flume安装部署 二.采集数据到HDFS 1.配置任务文件 2.启动传输 3.查看是否同步成功 三.常见 ...
- Flume采集数据利器
一.什么是Flume Apache Flume 是一个分布式.高可靠.高可用的用来收集.聚合.转移不同来源的大量日志数据到中央数据仓库的工具.Flume 可以做离线也可以做实时分析. 二.Flume架 ...
- flume采集数据到hdfs
说明:flume1.5,hadoop2.2 1.配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动 ...
- Flume采集日志数据
一.为什么选用Flume? Flume vs Logstash vs Filebeat 当时选择数据采集工具时,我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat,据目前 ...
- flume+kafka整合采集数据案例
一.flume简介 1.1.1 概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume可以采集文件,socket数据包.文件.文件夹.kafka等各种形式源数据,又 ...
- Flume安装部署,采集方案配置文件编写案例,启动agent采集数据
1.2 Flume实战案例 1.2.1 Flume的安装部署 1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf ...
- Matlab 打开 Gige 工业相机连续采集数据 Bug解决
电脑配置:Windows 10:Matlab 2021b 相机型号:DMK 33GP1300 一.下载相机驱动: 官网链接:https://www.theimagingsource.com/zh-ha ...
- 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据
使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...
- 神策数据易向文:打造券商上层数据应用的坚实基础
本文根据神策数据解决方案顾问易向文<打造券商上层数据应用的坚实基础>直播整理而成,本文的主要内容如下: 浅析券商数据采集 常见的埋点方式介绍 如何做好用户数据关联 数据管理与数据校验 注: ...
最新文章
- 百度DisConf分布式配置框架源码试读(一)HttpClient 长连接
- 转:iFire:玩聚 SRBacks 自定义脚本及样式表
- macOS上实现Qt应用程序做文件关联打开
- Linux 技巧:让进程在后台可靠执行的几种方法
- 前端预览word文件_2020国开形考计算机练习题Word练习
- 腾讯Angel成世界顶级AI项目!中国首个从LF AI基金会的毕业项目
- 2.24 js处理内嵌div滚动条
- pandas数据切片
- 信息抽取:SPO三元组知识
- ubuntu测量机器的温度
- RejectedExecutionException 分析
- java+selenium实现web多系统登录
- windows7 nmap 命令行版本
- 计算机网络之TCP中11种状态
- pdf转换成jpg python_Python 将pdf转成图片
- 自动驾驶两大路线对决,渐进式玩家为何更容易得人心?
- 程序员必备的量子力学知识
- 第四届橙瓜网络文学奖《元尊》的排行竟然比《剑来》低?
- 测量频率和占空比的几种方法
- dns遭到劫持_被域名劫持了怎么办 域名劫持的几个解决办法域名给别人劫持怎么办...
热门文章
- 开始Python的新手教程
- JavaWebJavaEE重要基础知识
- JDK1.8版本linux、Windows64下载
- python 声音强度检测_python检测音频中的静音
- Android源码目录结构,以Android2.1为例
- 【C++ Caffe】ubuntu下MNIST训练结果
- 如何基于微信开放接口开发企业的微信CRM
- springboot中使用poi-tl导出word(包含表格合并单元格)实例
- u盘电视测试软件,智能电视无法识别U盘里的APK文件?当贝市场教你搞定
- ThreadLocal使用时因线程复用导致数据混乱分析