为什么会发生零点漂移?

比如2021-10-10 23:59:59生成的日志文件,然后数据经过第一层的flume采集,加上kafka的缓冲,然后到 集群的另一台上的第二层的flume的时候,时间肯定就会到2020-10-11 00:00:XX了,这样一来,如果采用当前系统时间作为timestamp的话,2020-10-10 的日志数据就会上传到hdfs上的2020-10-11 的目录下。因为Kafka Source会为其加上该header,value为当前系统的时间戳Kafka Source会为其加上该header,value为当前系统的时间戳

所以我们需要再第二层flume里面写这么一个加时间戳的拦截器,把日志文件里面的时间添加到event的header里面

public class TimestampInterceptor implements Interceptor {@Overridepublic void initialize() {}@Overridepublic Event intercept(Event event) {//获取Event中的body,并转为String字符串byte[] body = event.getBody();String log = new String(body, StandardCharsets.UTF_8);//解析日志,得到json对象JSONObject jsonObject = JSON.parseObject(log);if(jsonObject.containsKey("ts")){//获取json对象中的ts字段,即为日志的时间戳String ts = jsonObject.getString("ts");//为event加入timestamp的headerevent.getHeaders().put("timestamp",ts);}return event;}@Overridepublic List<Event> intercept(List<Event> list) {for (Event event : list) {intercept(event);}return list;}@Overridepublic void close() {}public static class Builder implements Interceptor.Builder{@Overridepublic Interceptor build() {return new TimestampInterceptor();}@Overridepublic void configure(Context context) {}}
}

采集数据零点漂移问题解析相关推荐

  1. 数据仓库:如何解决ODS数据零点漂移问题

    本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS) 一.数据零点漂移概 ...

  2. 业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)

    最近做了一个业务数据采集,总体架构就是 Flume-taildir source + kafka channel => Kafka => Flume-kafka source + memo ...

  3. 压力传感器零点漂移与零点漂移补偿

    压力传感器零点漂移是指在规定的测试条件下,当输入压力为零时,输出值随时间正向.负向或上.下跳动超过规定指标.为了防潮.防雨水.防有害气体的侵蚀,压力传感器的电路板是按密封结构设计和制造的.如果没有把表 ...

  4. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  5. C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

    [转]C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流 ...

  6. 数据采集:如何自动化采集数据

    数据采集:如何自动化采集数据 一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构 数据源分四类:开放数据源(政府.企业.高校).爬虫抓取(网 ...

  7. 抓取得物数据出现验证码的解析思路

    原创来自本人的公众号:阿嚏个技术 公众号文章地址:得物采集数据出现geetest验证码的解析方式 本文仅提供反爬技术的分析思路,勿做商业用途,如有侵权,请联系删除. 之前写过一篇爬得物数据的文章< ...

  8. 运维实操——日志分析系统ELK(中)之logstash采集数据、伪装rsyslog、多行过滤、grok切片

    日志分析系统ELK(中)之logstash 1.什么是logstash? 2.Logstash安装 3.logstash简单命令行测试 4.logstash文件测试 (1)命令行输入,输出到文件 (2 ...

  9. 自动驾驶仿真时如何采集数据做地图

    分类:   我们大致分为两类来介绍,采集真实场景数据和采集虚拟环境数据来制作地图. 采集真实场景数据   采集真实场景的GPS数据,需要有车,自己不会采集可以找其他工程师支持,最终的数据是经纬度和高度 ...

最新文章

  1. 如何转载CSDN的博客
  2. boost::geometry::strategy::distance::haversine用法的测试程序
  3. EXP的flashback_scn和flashback_time
  4. 【转】C/C++的64位整型 不同编译器间的比较
  5. [Python2] List-comprehensions 列表推导式
  6. ylb:SQL 视图(View)基础
  7. 从零开始的LaTex生活
  8. linux python mysqldb安装包,linux环境下python中MySQLdb模块的安装方法
  9. OsmocomBB编译及GSM嗅探问题(转)
  10. Builder(生成器)
  11. mybatis 插入insert对象
  12. 对话即平台,一场对长尾理论的逆向革命
  13. mysql 怎样解锁表_mysql一键解锁表
  14. 白鹭小游戏-成语挑战-资源放置
  15. ●●●观世音菩萨●●●
  16. OSS云文件列举分页功能的解决方法
  17. magic版本和android版本,荣耀Magic2的6G版和8G版差什么? 荣耀Magic2版本对比
  18. PB编辑器里怎么查看代码行数
  19. 真的了解Cookie吗 - Cookie详解
  20. 宜春学院计算机分数,宜春学院2019录取分数线预测

热门文章

  1. Oracle11g限制ip访问数据库,ORACLE 限制特定IP访问数据库
  2. matlab学习(1)-------matlab介绍及基本语法
  3. android 分析boot.img,Android bootimg的详细分析.pdf
  4. 一下科技助力短视频行业移动视频生态发展
  5. 每日蓝桥-基础练习 字母图形
  6. 关于用eclipse无法出现相关内容提示的问题
  7. linux有线网卡驱动
  8. ubuntu16.04安装fcl库出现的问题
  9. 暴力破解登录密码(登录批量发包)
  10. NFC 行业应用,一卡通,支付