elasticsearch做如何进行日志采集

首先elasticsearch应理解为日志的存储介质,由于其查询的便利,尤其结合kibana进行可视化查询,很多项目采用elasticsearch来存储收集的日志,至于如何进行日志采集,下面列举了项目中常用的一些采集手段

ElasticsearchAppender

lockback日志组件,集成 ElasticsearchAppender 插件的方式采集,具体操作如下
1,引入pom依赖

    <dependency><groupId>com.internetitem</groupId><artifactId>logback-elasticsearch-appender</artifactId><version>1.6</version></dependency>

2, lockback.xml中新增appender

  <appender name="ELASTIC" class="com.internetitem.logback.elasticsearch.ElasticsearchAppender"><url>http://elastic:elastic@127.0.0.1:9200/_bulk</url><index>log-%d{yyyy-MM}</index> <connectTimeout>30000</connectTimeout> <errorsToStderr>false</errorsToStderr> <includeCallerData>false</includeCallerData> <logsToStderr>false</logsToStderr> <maxQueueSize>104857600</maxQueueSize> <maxRetries>3</maxRetries> <readTimeout>30000</readTimeout> <sleepTime>250</sleepTime> <rawJsonMessage>false</rawJsonMessage> <includeMdc>false</includeMdc> <maxMessageSize>-1</maxMessageSize> <authentication class="com.internetitem.logback.elasticsearch.config.BasicAuthentication"/> <!-- optional --><properties><property><name>host</name><value>${HOSTNAME}</value><allowEmpty>false</allowEmpty></property><property><name>ip</name><value>%ip</value></property><property><name>@timestamp</name><value>%d{yyyy-MM-dd}</value></property><property><name>level</name><value>%level</value></property><property><name>thread</name><value>%thread</value></property><property><name>stacktrace</name><value>%ex</value></property><property><name>logger</name><value>%logger</value></property><property><name>env</name><value>${active}</value></property></properties><headers><header><name>Content-Type</name><value>application/json</value></header></headers>
</appender>

ps: 此配置包含两部分,一部分为连接信息,主要是账号,密码,超时时间等连接配置,另一部分为日志内容信息,比如主机名,ip,日志level等,这些信息最终会自动同步到es中,建议同步之前先建立好索引(es的特性是可以自动建立索引,可能有些字段类型,分词器未必满足需求),或者使用索引模板,事先定义好mapping

ELK

由于 ElasticsearchAppender 是一个非常轻量的插件,功能很单一,只能简单的进行日志采集,对于一些复杂性的需求,比如对传输过来的日志进行清洗,过滤等需求就显得无能为力,而且与项目的集成度过高,如果项目吞吐量很大,比如每秒上万条日志,会造成日志积压(很好理解,单机总会有瓶颈),严重点会影响应用本身的吞吐量,所以稍微大点的项目一般会采用elk
所谓elk 实际上是 elasticsearch+logstash+kibana, elasticsearch和kibana上面都有提过,是用来存储和可视化查询的,最重要的采集工作是logstash去做的,本文只讲实战,理论东西如有兴趣,朋友们可以留言后续会更新
logstash的标准格式为

input {     从哪个地方读取,输入数据。}filter {    依据grok模式对数据进行分析结构化}output {    将分析好的数据输出存储到哪些地方}

1,新增一个配置conf

input {file {     读取日志文件path => ["/tmp/log"]   日志文件路径type => "web log"    文件类型,这个是日志类型,后面filter 可根据类型进行区分start_position => "beginning"    从最开始取数据}
}filter {grok {match => { "message" => "%{IP:clientip} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }}
}output {# 一般通过模板的方式,达到自动创建,比如每天创建新的索引elasticsearch {hosts => ["http://localhost:9200""]user => "test"password => "test"index => "log-%{+YYYY.MM.dd}"template_overwrite => "false"}

ELK + filebeat + kafka

1,上面的elk logstash是直接部署在应用服务器的,对于中小型项目足够,对于一些大型项目,依然会有些不妥,还是上面说的和项目的耦合度太大,理论上还是会出现单点瓶颈,而且logstash使用Java语言写的,大家都知道jvm是很吃资源的,所以大型项目一般会在elk的基础上,采集端使用 filebeat 进行采集,采集到的日志传输到kafka,logstash对接kafka的topic,后续的操作和之前一样.
1, 配置filebeat

filebeat.inputs:
- type: logenabled: trueencoding: utf-8paths:- /tmp/logfields_under_root: trueoutput.kafka:enabled: truehosts: ["127.0.0.1:9092"]topic: "log"username: "test"password: "test"

2,配置logstash

input就变成了kafka
input {kafka{bootstrap_servers => "127.0.0.1:9092"client_id => "consumer_id"group_id => "consumer_group"auto_offset_reset => "latest" consumer_threads => 1decorate_events => true topics => ["log"]}
}filter {grok {match => { "message" => "%{IP:clientip} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }}
}output {# 一般通过模板的方式,达到自动创建,比如每天创建索引elasticsearch {hosts => ["http://localhost:9200""]user => "test"password => "test"index => "log-%{+YYYY.MM.dd}"template_overwrite => "false"}

总结

以上的几种方式大家可以简单理解为,项目从小到大的过程,如果只是一个简单的小项目,比如一个用户量不大的管理系统,或者是资源申请比较紧张,那就不妨使用第一种方案,如果是中小型的项目,比如两三个集群节点,可以考虑使用第二种,对于大型项目,或者开发阶段没法准确预估用户量的情况下,用第三种方案准没错

elasticsearch做如何进行日志采集相关推荐

  1. Springboot/Springcloud整合ELK平台,(Filebeat方式)日志采集及管理(Elasticsearch+Logstash+Filebeat+Kibana)

    前言 最近在搞一套完整的云原生框架,详见 spring-cloud-alibaba专栏,目前已经整合的log4j2,但是想要一套可以实时观察日志的系统,就想到了ELK,然后上一篇文章是socket异步 ...

  2. 【转】Filebeat+Kafka+Logstash+ElasticSearch+Kibana 日志采集方案

    前言 Elastic Stack 提供 Beats 和 Logstash 套件来采集任何来源.任何格式的数据.其实Beats 和 Logstash的功能差不多,都能够与 Elasticsearch 产 ...

  3. 用Grafana为Elasticsearch做日志分析

    用Grafana为Elasticsearch做日志分析 作者:chszs,未经博主允许不得转载.经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs Grafana是 ...

  4. 容器日志采集利器Log-Pilot

    容器时代越来越多的传统应用将会逐渐容器化,而日志又是应用的一个关键环节,那么在应用容器化过程中,如何方便快捷高效地来自动发现和采集应用的日志,如何与日志存储系统协同来高效存储和搜索应用日志.本文将主要 ...

  5. golang 日志分析_容器日志采集利器:Filebeat深度剖析与实践

    在云原生时代和容器化浪潮中,容器的日志采集是一个看起来不起眼却又无法忽视的重要议题.对于容器日志采集我们常用的工具有filebeat和fluentd,两者对比各有优劣,相比基于ruby的fluentd ...

  6. LC3视角:Kubernetes下日志采集、存储与处理技术实践

    摘要: 在Kubernetes服务化.日志处理实时化以及日志集中式存储趋势下,Kubernetes日志处理上也遇到的新挑战,包括:容器动态采集.大流量性能瓶颈.日志路由管理等问题.本文介绍了" ...

  7. Rancher体系下容器日志采集

    引言 一个完整的容器平台,容器日志都是很重要的一环.尤其在微服务架构大行其道状况下,程序的访问监控健康状态很多都依赖日志信息的收集,由于Docker的存在,让容器平台中的日志收集和传统方式很多不一样, ...

  8. KubeSphere 多行日志采集方案深度探索

    作者:大飞哥,视源电子运维工程师,KubeSphere 用户委员会广州站站长 采集落盘日志 日志采集,通常使用 EFK 架构,即 ElasticSearch,Filebeat,Kibana,这是在主机 ...

  9. 基于Flink的日志采集

    目前基于ELK架构的日志系统,通过filebeat收集上来的日志都会发送到同一个kafka topic中,然后再由Logstash消费处理写入Elasticsearch中,这种方式导致该topic包含 ...

最新文章

  1. setitimer 创建两个定时器_JavaScript第二十四篇 高级定时器(下)
  2. SQL Server 2005系列教学(2) SQL 服务及创建数据库
  3. 认识DOM的三大节点:元素节点,文本节点,属性节点以及nodeName,nodeType,nodeValue的区别
  4. 20175221 MyCP(课下作业,必做)
  5. JQuery常用选择器总结
  6. MOXy的对象图– XML和JSON的输入/输出局部模型
  7. MATLAB中BP神经网络用于回归拟合算法实现(另附GRNN代码)
  8. web前端基础(02html表格)
  9. 西门子for循环例子_理解JavaScript中的循环缺陷和迭代协议
  10. jquery click点击事件重复执行多次
  11. buntu12.10 64位 + android-ndk-r9 编译ffmpeg遇到的问题
  12. 【渝粤教育】电大中专测量学 (4)作业 题库
  13. excel处置4000行数据卡_Python自动获取当日所有股票数据
  14. Pascal------第三方库
  15. 计算机怎么连接手机网络,电脑怎么连接手机的热点上网?
  16. 小卡机器人积木教程_这个会动的智能积木机器人分分钟让孩子爱不释手!秒杀家中99%的益智玩具!| 团...
  17. vue全家桶都包括哪些 vue全家桶都有什么 vue全家桶详细介绍
  18. 如何绘制最美的鱼骨图?
  19. 操作系统实验五:用户进程管理(详细分析)
  20. mysql创建自增字段

热门文章

  1. java es 数据批量导入_elasticsearch批量数据导入和导出
  2. 刘强东暴露资本家的本性:需要时才是兄弟,不需要时谁认你是兄弟
  3. Android屏幕适配AndroidAutoSize的使用
  4. 记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库(备以后查阅)
  5. html中初始化css样式,css样式初始化 normalize
  6. 基于 GPL-2.0的mysql的项目是否可以用于商业销售?
  7. U盘被写保护的处理办法
  8. Windows 主机连接校园网时,VMware 虚拟机使用 NAT 模式
  9. SteamVR_Skeleton_Poser的理解
  10. UML组件视图、部署图、包图简要说明