采集数据零点漂移问题解析
为什么会发生零点漂移?
比如2021-10-10 23:59:59生成的日志文件,然后数据经过第一层的flume采集,加上kafka的缓冲,然后到 集群的另一台上的第二层的flume的时候,时间肯定就会到2020-10-11 00:00:XX了,这样一来,如果采用当前系统时间作为timestamp的话,2020-10-10 的日志数据就会上传到hdfs上的2020-10-11 的目录下。因为Kafka Source会为其加上该header,value为当前系统的时间戳Kafka Source会为其加上该header,value为当前系统的时间戳
所以我们需要再第二层flume里面写这么一个加时间戳的拦截器,把日志文件里面的时间添加到event的header里面
public class TimestampInterceptor implements Interceptor {@Overridepublic void initialize() {}@Overridepublic Event intercept(Event event) {//获取Event中的body,并转为String字符串byte[] body = event.getBody();String log = new String(body, StandardCharsets.UTF_8);//解析日志,得到json对象JSONObject jsonObject = JSON.parseObject(log);if(jsonObject.containsKey("ts")){//获取json对象中的ts字段,即为日志的时间戳String ts = jsonObject.getString("ts");//为event加入timestamp的headerevent.getHeaders().put("timestamp",ts);}return event;}@Overridepublic List<Event> intercept(List<Event> list) {for (Event event : list) {intercept(event);}return list;}@Overridepublic void close() {}public static class Builder implements Interceptor.Builder{@Overridepublic Interceptor build() {return new TimestampInterceptor();}@Overridepublic void configure(Context context) {}}
}
采集数据零点漂移问题解析相关推荐
- 数据仓库:如何解决ODS数据零点漂移问题
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS) 一.数据零点漂移概 ...
- 业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)
最近做了一个业务数据采集,总体架构就是 Flume-taildir source + kafka channel => Kafka => Flume-kafka source + memo ...
- 压力传感器零点漂移与零点漂移补偿
压力传感器零点漂移是指在规定的测试条件下,当输入压力为零时,输出值随时间正向.负向或上.下跳动超过规定指标.为了防潮.防雨水.防有害气体的侵蚀,压力传感器的电路板是按密封结构设计和制造的.如果没有把表 ...
- java爬取网页数据_如何使用爬虫工具采集数据
网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...
- C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
[转]C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流 ...
- 数据采集:如何自动化采集数据
数据采集:如何自动化采集数据 一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构 数据源分四类:开放数据源(政府.企业.高校).爬虫抓取(网 ...
- 抓取得物数据出现验证码的解析思路
原创来自本人的公众号:阿嚏个技术 公众号文章地址:得物采集数据出现geetest验证码的解析方式 本文仅提供反爬技术的分析思路,勿做商业用途,如有侵权,请联系删除. 之前写过一篇爬得物数据的文章< ...
- 运维实操——日志分析系统ELK(中)之logstash采集数据、伪装rsyslog、多行过滤、grok切片
日志分析系统ELK(中)之logstash 1.什么是logstash? 2.Logstash安装 3.logstash简单命令行测试 4.logstash文件测试 (1)命令行输入,输出到文件 (2 ...
- 自动驾驶仿真时如何采集数据做地图
分类: 我们大致分为两类来介绍,采集真实场景数据和采集虚拟环境数据来制作地图. 采集真实场景数据 采集真实场景的GPS数据,需要有车,自己不会采集可以找其他工程师支持,最终的数据是经纬度和高度 ...
最新文章
- 如何转载CSDN的博客
- boost::geometry::strategy::distance::haversine用法的测试程序
- EXP的flashback_scn和flashback_time
- 【转】C/C++的64位整型 不同编译器间的比较
- [Python2] List-comprehensions 列表推导式
- ylb:SQL 视图(View)基础
- 从零开始的LaTex生活
- linux python mysqldb安装包,linux环境下python中MySQLdb模块的安装方法
- OsmocomBB编译及GSM嗅探问题(转)
- Builder(生成器)
- mybatis 插入insert对象
- 对话即平台,一场对长尾理论的逆向革命
- mysql 怎样解锁表_mysql一键解锁表
- 白鹭小游戏-成语挑战-资源放置
- ●●●观世音菩萨●●●
- OSS云文件列举分页功能的解决方法
- magic版本和android版本,荣耀Magic2的6G版和8G版差什么? 荣耀Magic2版本对比
- PB编辑器里怎么查看代码行数
- 真的了解Cookie吗 - Cookie详解
- 宜春学院计算机分数,宜春学院2019录取分数线预测