1.内存不足

修改文件内容    <文件根目录>/bin/flume-ng

JAVA_OPTS="-Xms100m -Xmx4096m -Dcom.sun.management.jmxremote"  内存调大

2.采集kafka数据或者生产kafka数据的的时候默认数据大小是1M,所以使用flume工具导数据如果大于1M,需要添加配置参数

配置文件  <文件根目录>/bin/conf/启动第对应配置文件

采集kafka数据配置source  agent.sources.r1.kafka.consumer.max.partition.fetch.bytes = 10240000
导入kafka数据配置sink      agent.sinks.k1.kafka.producer.max.request.size = 10240000

3.导一条数据的大小超过默认大下2048字节,这一条数据会被拆成两条数据,导致数据格式异常

修改默认的一条数据最大值

源码包             flume-ng-core-1.8.0.jar ,重新放入lib中修改的类位置  org.apache.flume.serialization.LineDeserializer修改参数         public static final int MAXLINE_DFLT = 1048576 ;  //调大

4.使用flume数据源为kafka,sink也为kafka,导致数据传输无响应问题

自定义sink ,默认数据能走到sink,只是在sink发送到kafka的时候失败了,这一块儿需要用java自定义发送数据到kafka

flume采集目录数据

a1.sources = yuan
a1.sinks = zhong
a1.channels = cuna1.sources.yuan.type = spooldir
a1.sources.yuan.spoolDir = /home/shell/test/
a1.sources.yuan.fileHeader = true
a1.sources.yuan.includePattern = (^[0-9]{20}\\_CDSS\\_[0-9]{14}\\.TXT$) #文件正则匹配
a1.sources.yuan.recursiveDirectorySearch = true # 表示递归采集
#a1.sources.yuan.ignorePattern = .*log$a1.sinks.zhong.type = org.ncmsa.cmpdcs.common.sink.mongdb.LinkDataMongoDBSink
a1.sinks.zhong.mongo.url = 127.0.0.1:17
a1.sinks.zhong.mongo.batch = 200
a1.sinks.zhong.end.symbol = ::
a1.sinks.zhong.database.name = db
a1.sinks.zhong.collection.name = aqjk_rt_sensormonitor
a1.sinks.zhong.mongo.thread = 1a1.channels.cun.type = memory
a1.channels.cun.capacity = 10000
a1.channels.cun.transactionCapacity = 5000a1.sources.yuan.channels = cun
a1.sinks.zhong.channel = cun

flume启动方式

<home>/bin/flume-ng  agent --name a1 --conf<home>/conf --conf-file <home>/conf/sink.dir-mongodb.conf -Dflume.root.logger=INFO,console

flume采集数据易出现的bug相关推荐

  1. 【大数据入门核心技术-Flume】(四)使用Flume采集数据到Hive

    [大数据入门核心技术-Kafka](七)Ka 录 一.准备工作 1.Hadoop环境安装 2.Flume安装部署 二.采集数据到HDFS 1.配置任务文件 2.启动传输 3.查看是否同步成功 三.常见 ...

  2. Flume采集数据利器

    一.什么是Flume Apache Flume 是一个分布式.高可靠.高可用的用来收集.聚合.转移不同来源的大量日志数据到中央数据仓库的工具.Flume 可以做离线也可以做实时分析. 二.Flume架 ...

  3. flume采集数据到hdfs

    说明:flume1.5,hadoop2.2 1.配置JAVA_HOME和HADOOP_HOME 说明:HADOOP_HOME用于获取flume操作hdfs所需的jar和配置文件,如果不配置,也可以手动 ...

  4. Flume采集日志数据

    一.为什么选用Flume? Flume vs Logstash vs Filebeat 当时选择数据采集工具时,我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat,据目前 ...

  5. flume+kafka整合采集数据案例

    一.flume简介 1.1.1 概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume可以采集文件,socket数据包.文件.文件夹.kafka等各种形式源数据,又 ...

  6. Flume安装部署,采集方案配置文件编写案例,启动agent采集数据

    1.2 Flume实战案例 1.2.1 Flume的安装部署 1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf ...

  7. Matlab 打开 Gige 工业相机连续采集数据 Bug解决

    电脑配置:Windows 10:Matlab 2021b 相机型号:DMK 33GP1300 一.下载相机驱动: 官网链接:https://www.theimagingsource.com/zh-ha ...

  8. 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据

    使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...

  9. 神策数据易向文:打造券商上层数据应用的坚实基础

    本文根据神策数据解决方案顾问易向文<打造券商上层数据应用的坚实基础>直播整理而成,本文的主要内容如下: 浅析券商数据采集 常见的埋点方式介绍 如何做好用户数据关联 数据管理与数据校验 注: ...

最新文章

  1. 百度DisConf分布式配置框架源码试读(一)HttpClient 长连接
  2. 转:iFire:玩聚 SRBacks 自定义脚本及样式表
  3. macOS上实现Qt应用程序做文件关联打开
  4. Linux 技巧:让进程在后台可靠执行的几种方法
  5. 前端预览word文件_2020国开形考计算机练习题Word练习
  6. 腾讯Angel成世界顶级AI项目!中国首个从LF AI基金会的毕业项目
  7. 2.24 js处理内嵌div滚动条
  8. pandas数据切片
  9. 信息抽取:SPO三元组知识
  10. ubuntu测量机器的温度
  11. RejectedExecutionException 分析
  12. java+selenium实现web多系统登录
  13. windows7 nmap 命令行版本
  14. 计算机网络之TCP中11种状态
  15. pdf转换成jpg python_Python 将pdf转成图片
  16. 自动驾驶两大路线对决,渐进式玩家为何更容易得人心?
  17. 程序员必备的量子力学知识
  18. 第四届橙瓜网络文学奖《元尊》的排行竟然比《剑来》低?
  19. 测量频率和占空比的几种方法
  20. dns遭到劫持_被域名劫持了怎么办 域名劫持的几个解决办法域名给别人劫持怎么办...

热门文章

  1. 开始Python的新手教程
  2. JavaWebJavaEE重要基础知识
  3. JDK1.8版本linux、Windows64下载
  4. python 声音强度检测_python检测音频中的静音
  5. Android源码目录结构,以Android2.1为例
  6. 【C++ Caffe】ubuntu下MNIST训练结果
  7. 如何基于微信开放接口开发企业的微信CRM
  8. springboot中使用poi-tl导出word(包含表格合并单元格)实例
  9. u盘电视测试软件,智能电视无法识别U盘里的APK文件?当贝市场教你搞定
  10. ThreadLocal使用时因线程复用导致数据混乱分析