官网:http://flume.apache.org/

对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。

官方上提供的已有的拦截器有:

Timestamp Interceptor

Host Interceptor

Static Interceptor

Regex Filtering Interceptor

Regex Extractor Interceptor

像很多java的开源项目如springmvc中的拦截器一样,flume的拦截器也是chain形式的,可以对一个source指定多个拦截器,按先后顺序依次处理。

Timestamp Interceptor :在event的header中添加一个key叫:timestamp,value为当前的时间戳。这个拦截器在sink为hdfs 时很有用,后面会举例说到

Host Interceptor:在event的header中添加一个key叫:host,value为当前机器的hostname或者ip。

Static Interceptor:可以在event的header中添加自定义的key和value。

Regex Filtering Interceptor:通过正则来清洗或包含匹配的events。

Regex Extractor Interceptor:通过正则表达式来在header中添加指定的key,value则为正则匹配的部分

下面举例说明这些拦截器的用法,首先我们调整一下第一篇文章中的那个WriteLog类:
[java] view plaincopy
  1. public class WriteLog {
  2. protected static final Log logger = LogFactory.getLog(WriteLog.class);
  3. /**
  4. * @param args
  5. * @throws InterruptedException
  6. */
  7. public static void main(String[] args) throws InterruptedException {
  8. // TODO Auto-generated method stub
  9. while (true) {
  10. logger.info(new Date().getTime());
  11. logger.info("{\"requestTime\":"
  12. + System.currentTimeMillis()
  13. + ",\"requestParams\":{\"timestamp\":1405499314238,\"phone\":\"02038824941\",\"cardName\":\"测试商家名称\",\"provinceCode\":\"440000\",\"cityCode\":\"440106\"},\"requestUrl\":\"/reporter-api/reporter/reporter12/init.do\"}");
  14. Thread.sleep(2000);
  15. }
  16. }
  17. }

又多输出了一行日志信息,现在每次循环都会输出两行日志信息,第一行是一个时间戳信息,第二行是一行JSON格式的字符串信息。

接下来我们用regex_filter和 timestamp这两个拦截器来实现这样一个功能:
1 过滤掉LOG4J输出的第一行那个时间戳日志信息,只收集JSON格式的日志信息
2 将收集的日志信息保存到HDFS上,每天的日志保存到以该天命名的目录下面,如2014-7-25号的日志,保存到/flume/events/14-07-25目录下面。
修改后的flume.conf如下:

[plain] view plaincopy
  1. tier1.sources=source1
  2. tier1.channels=channel1
  3. tier1.sinks=sink1
  4. tier1.sources.source1.type=avro
  5. tier1.sources.source1.bind=0.0.0.0
  6. tier1.sources.source1.port=44444
  7. tier1.sources.source1.channels=channel1
  8. tier1.sources.source1.interceptors=i1 i2
  9. tier1.sources.source1.interceptors.i1.type=regex_filter
  10. tier1.sources.source1.interceptors.i1.regex=\\{.*\\}
  11. tier1.sources.source1.interceptors.i2.type=timestamp
  12. tier1.channels.channel1.type=memory
  13. tier1.channels.channel1.capacity=10000
  14. tier1.channels.channel1.transactionCapacity=1000
  15. tier1.channels.channel1.keep-alive=30
  16. tier1.sinks.sink1.type=hdfs
  17. tier1.sinks.sink1.channel=channel1
  18. tier1.sinks.sink1.hdfs.path=hdfs://master68:8020/flume/events/%y-%m-%d
  19. tier1.sinks.sink1.hdfs.fileType=DataStream
  20. tier1.sinks.sink1.hdfs.writeFormat=Text
  21. tier1.sinks.sink1.hdfs.rollInterval=0
  22. tier1.sinks.sink1.hdfs.rollSize=10240
  23. tier1.sinks.sink1.hdfs.rollCount=0
  24. tier1.sinks.sink1.hdfs.idleTimeout=60

我们对source1添加了两个拦截器i1和i2,i1为regex_filter,过滤的正则为\\{.*\\},注意正则的写法用到了转义字符,不然source1无法启动,会报错。

i2为timestamp,在header中添加了一个timestamp的key,然后我们修改了sink1.hdfs.path在后面加上了/%y-%m-%d这一串字符,这一串字符要求event的header中必须有timestamp这个key,这就是为什么我们需要添加一个timestamp拦截器的原因,如果不添加这个拦截器,无法使用这样的占位符,会报错。还有很多占位符,请参考官方文档。
然后运行WriteLog,去hdfs上查看对应目录下面的文件,会发现内容只有JSON字符串的日志,与我们的功能描述一致。

flume学习(三):Flume Interceptors的使用相关推荐

  1. Hadoop学习之Flume日志采集

    目录 一.Flume简介 二.Flume的安装配置 1.下载并上传 2.解压 3.配置 4.配置环境变量 5.使环境变量起作用 三.Flume入门 1.配置采集方案 2.指定采集方案启动Flume 3 ...

  2. flume学习-含安装

    1.Flume是什么:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. Flume组成架构 下面我们来详细介绍一下F ...

  3. 大数据学习--kafka+flume++sqoop+hadoop+zookeeper+spark+flink

    大数据工程师 学习指南 一必备技能 Zookeeper.Hadoop.Hive.HBase.Flume.Sqoop.Flink 等等 1定义(from百度百科) 1.1Zookeeper 百度百科-验 ...

  4. Hadoop学习之-Flume

    Apache Flume 关于Flume 1.安装Flume 2.Flume样例 3.事务和可靠性 4.HDFS sink 4-1.分区和拦截器 4-2.文件格式 关于Flume Hadoop的宗旨是 ...

  5. Flume基础及Flume高质量博客合集

    最近在学习Flume基础,Flume适用场景,及将源码修改为按文件读取数据,Flume监控目录文件夹,监控文件的原理: Flume基础 1. Flume简介 2. Flume 3要素 3. 适用场景 ...

  6. 统计学习三要素 模型+策略+算法

    统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法 模型 统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...

  7. 深度学习三巨头也成了大眼萌,这个一键转换动画电影形象的网站竟因「太火」而下线...

    机器之心报道 作者:魔王.杜伟 想不想在动画电影中拥有自己的角色?这个网站一键满足你的需求,不过竟因流量太大成本过高而下线. 近期热映的电影<花木兰>总是让人回想起 1998 年上映的同名 ...

  8. 2020届 AAAI Fellow名单新鲜出炉!!!深度学习三巨头终于齐聚

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 AAAI 是国际人工智能领域最权威的学术组织,Fellow 是该学会给予会员的最高荣誉 ...

  9. HTTP学习三:HTTPS

    HTTP学习三:HTTPS 1 HTTP安全问题 HTTP1.0/1.1在网络中是明文传输的,因此会被黑客进行攻击. 1.1 窃取数据 因为HTTP1.0/1.1是明文的,黑客很容易获得用户的重要数据 ...

  10. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

最新文章

  1. 【转载】Linux常用命令1
  2. java为什么要初始化_JAVA中到底要怎么样初始化
  3. 音视频技术开发周刊 82期
  4. 简单介绍Java中Comparable和Comparator
  5. ecshop 收货人信息电话必填改为手机必填
  6. Eclipse MySql之登录
  7. js对象取值的两种方式及区别
  8. linux用户名和密码6,Linux系统中(CentOS 7)的用户和权限管理
  9. 【LOJ2127】「HAOI2015」按位或
  10. 对 String 字符串的理解
  11. 【解决方案】完全修改Windows用户名
  12. 耳机插入电脑的,耳机接口,却没有声音的 解决方法
  13. 访存模式分析实验思路(毕设笔记9)
  14. 计算机安全监察word,全国计算机统考押题计算机安全
  15. 公众号头条文章数据接口 API
  16. Qt5.12+VS2017环境下编译QtAV视频库
  17. 快递管理系统 V2.0
  18. 就同一个Service类中,一个事务方法调用另外一个有事务的方法
  19. 2023华中科技大学计算机考研信息汇总
  20. vue+js 从一个数组中删除在另一个数组中已存在对象;

热门文章

  1. 阶段3 2.Spring_02.程序间耦合_6 工厂模式解耦
  2. 音视频重新封装的流程
  3. Vue开源项目库汇总-转
  4. 自然语言处理要解决的问题
  5. PAT1018. Public Bike Management (30)
  6. js点击a链接弹出alert对话框
  7. 【bzoj 1087】[SCOI2005]互不侵犯King(状压dp)
  8. O365 打开或关闭脚本功能
  9. work of 1/5/2016
  10. 1-4-05:整数大小比较