flume采集数据易出现的bug

1.内存不足

修改文件内容 <文件根目录>/bin/flume-ng

JAVA_OPTS="-Xms100m -Xmx4096m -Dcom.sun.management.jmxremote"  内存调大

2.采集kafka数据或者生产kafka数据的的时候默认数据大小是1M,所以使用flume工具导数据如果大于1M,需要添加配置参数

配置文件 <文件根目录>/bin/conf/启动第对应配置文件

采集kafka数据配置source  agent.sources.r1.kafka.consumer.max.partition.fetch.bytes = 10240000
导入kafka数据配置sink      agent.sinks.k1.kafka.producer.max.request.size = 10240000

3.导一条数据的大小超过默认大下2048字节,这一条数据会被拆成两条数据,导致数据格式异常

修改默认的一条数据最大值

源码包             flume-ng-core-1.8.0.jar ,重新放入lib中修改的类位置  org.apache.flume.serialization.LineDeserializer修改参数         public static final int MAXLINE_DFLT = 1048576 ;  //调大

4.使用flume数据源为kafka,sink也为kafka,导致数据传输无响应问题

自定义sink ,默认数据能走到sink,只是在sink发送到kafka的时候失败了,这一块儿需要用java自定义发送数据到kafka

flume采集目录数据

a1.sources = yuan
a1.sinks = zhong
a1.channels = cuna1.sources.yuan.type = spooldir
a1.sources.yuan.spoolDir = /home/shell/test/
a1.sources.yuan.fileHeader = true
a1.sources.yuan.includePattern = (^[0-9]{20}\\_CDSS\\_[0-9]{14}\\.TXT$) #文件正则匹配
a1.sources.yuan.recursiveDirectorySearch = true # 表示递归采集
#a1.sources.yuan.ignorePattern = .*log$a1.sinks.zhong.type = org.ncmsa.cmpdcs.common.sink.mongdb.LinkDataMongoDBSink
a1.sinks.zhong.mongo.url = 127.0.0.1:17
a1.sinks.zhong.mongo.batch = 200
a1.sinks.zhong.end.symbol = ::
a1.sinks.zhong.database.name = db
a1.sinks.zhong.collection.name = aqjk_rt_sensormonitor
a1.sinks.zhong.mongo.thread = 1a1.channels.cun.type = memory
a1.channels.cun.capacity = 10000
a1.channels.cun.transactionCapacity = 5000a1.sources.yuan.channels = cun
a1.sinks.zhong.channel = cun

flume启动方式

<home>/bin/flume-ng  agent --name a1 --conf<home>/conf --conf-file <home>/conf/sink.dir-mongodb.conf -Dflume.root.logger=INFO,console

flume采集数据易出现的bug相关推荐

【大数据入门核心技术-Flume】（四）使用Flume采集数据到Hive
[大数据入门核心技术-Kafka](七)Ka 录一.准备工作 1.Hadoop环境安装 2.Flume安装部署二.采集数据到HDFS 1.配置任务文件 2.启动传输 3.查看是否同步成功三.常见 ...
Flume采集数据利器
一.什么是Flume Apache Flume 是一个分布式.高可靠.高可用的用来收集.聚合.转移不同来源的大量日志数据到中央数据仓库的工具.Flume 可以做离线也可以做实时分析. 二.Flume架 ...
flume采集数据到hdfs
说明:flume1.5,hadoop2.2 1.配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动 ...
Flume采集日志数据
一.为什么选用Flume? Flume vs Logstash vs Filebeat 当时选择数据采集工具时,我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat,据目前 ...
flume+kafka整合采集数据案例
一.flume简介 1.1.1 概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume可以采集文件,socket数据包.文件.文件夹.kafka等各种形式源数据,又 ...
Flume安装部署，采集方案配置文件编写案例，启动agent采集数据
1.2 Flume实战案例 1.2.1 Flume的安装部署 1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvf ...
Matlab 打开 Gige 工业相机连续采集数据 Bug解决
电脑配置:Windows 10:Matlab 2021b 相机型号:DMK 33GP1300 一.下载相机驱动: 官网链接:https://www.theimagingsource.com/zh-ha ...
最大化参数火车头_火车头采集器教程：使用正则匹配模式采集数据
使用正则匹配模式采集数据正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等．可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来 ...
神策数据易向文：打造券商上层数据应用的坚实基础
本文根据神策数据解决方案顾问易向文<打造券商上层数据应用的坚实基础>直播整理而成,本文的主要内容如下: 浅析券商数据采集常见的埋点方式介绍如何做好用户数据关联数据管理与数据校验注: ...

flume采集数据易出现的bug

flume采集数据易出现的bug相关推荐

最新文章

热门文章