前言:

笔者看来, 监控不应该只是监控,除了及时有效的报警,更应该”好看”,因为视觉上的感受更能给我们直观的感受,更能从绚丽的走势中发现异常, 如果你觉得监控就应该像老牌监控nagios,cacti一样,我想也没什么不对的,因为也许那是你们最适合的,但,你还是可以瞧瞧这个监控能给你带来什么。

文章目录:

效果图

Prometheus架构

安装

配置

可视化

可视化自定义

报警

其他exporter

自定义exporter

效果图

为了你能有更多的动力看下去,这里放一部分通过Prometheus + grafana打造出来的监控平台,效果图如下。




如果你觉得不错可以继续看下去,上面主要是kvm宿主机, ceph集群, 物理机监控,以及ping, 最后一张的监控图没有展开是为了让你可以瞥一眼所能监控的指标条目。

Prometheus架构图


参考:https://prometheus.io/docs/introduction/overview/

如果你对Prometheus没有接触过,也许会看不懂上面说什么,但是没关系,如果你看完之后,在回过头来瞧瞧,也许就了解这个架构了,也会对Prometheus有一个更深的认识。
这里简单说一下Prometheus的各个部分。
Prometheus Server: Prometheus服务端,由于存储及收集数据,提供相关api对外查询用。
Exporter: 类似传统意义上的被监控端的agent,有区别的是,它不会主动推送监控数据到server端,而是等待server端定时来手机数据,即所谓的主动监控。
Pushagateway: 用于网络不可直达而居于exporter与server端的中转站。
Alertmanager: 报警组件,将报警的功能单独剥离出来放在alertmanager。
Web UI: Prometheus的web接口,可用于简单可视化,及语句执行或者服务状态监控。

安装

由于Prometheus是go语言写的,所以不需要编译,安装的过程非常简单,仅需要解压然后运行。
Prometheus官方下载地址:https://prometheus.io/download/

注:为了演示方便,这里node_exporter, Prometheus server, grafana都安装再同一台机器,系统环境Ubuntu14.04

安装Prometheus server

解压

1
tar xf prometheus-2.0.0-rc.2.linux-amd64.tar.gz


运行

1
2
cd prometheus-2.0.0-rc.2.linux-amd64
./prometheus  --config.file=prometheus.yml

然后我们可以访问 http://<服务器IP地址>:9090,验证Prometheus是否已安装成功,web显示应该如下

通过点击下拉栏选取指标,点击”Excute” 我们能够看到Prometheus的性能指标。

点击”status”可以查看相关状态。

但是光安装Prometheus server意义不大,下面我们再安装node_exporter以及grafana

node_exporter安装

解压

1
tar xf node_exporter-0.15.0.linux-amd64.tar.gz

运行

cd node_exporter-0.15.0.linux-amd64
./node_exporter

验证node_exporter是否安装成功

1
curl 127.0.0.1:9100


1
curl 127.0.0.1:9100/metrics

返回一大堆性能指标。

grafana安装

下载deb安装

wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana_4.5.2_amd64.deb
dpkg -i grafana_4.5.2_amd64.deb

安装依赖

1
sudo apt-get install -y adduser libfontconfig

启动grafana

1
sudo service grafana-server start

加入自启动

1
sudo update-rc.d grafana-server defaults

注:其他系统安装参考:http://docs.grafana.org/installation/

启动grafana并查看状态

systemctl daemon-reload
systemctl start grafana-serversystemctl status grafana-server

访问grafana, http://<服务器IP>:3000
默认用户名密码:admin/admin

为grafana添加Prometheus数据源

至此所有安装已完成
但是还存在以下问题
一:Prometheus server并没有配置被监控端的IP地址,即没有取指定的机器取数据
二:启动的方式太不人性化了,没有启动脚本。
三:grafana没有可用的dashboard用于展示
这些问题我们放在下面的配置,可视化段落处理。

配置

关闭之前之间运行的node_exporter及prometheus

增加一个被监控端配置项

创建目录/etc/prometheus/

1
mkdir /etc/prometheus/

创建配置文件

1
vi /etc/prometheus/prometheus.yml

修改如下(在有配置文件基础上增加红色区域)

# my global configglobal:scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.# scrape_timeout is set to the global default (10s).# Attach these labels to any time series or alerts when communicating with# external systems (federation, remote storage, Alertmanager).external_labels:monitor: 'codelab-monitor'# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.rule_files:  # - "first.rules"# - "second.rules"# A scrape configuration containing exactly one endpoint to scrape:# Here it's Prometheus itself.scrape_configs:  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: 'prometheus'# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ['localhost:9090']

注意:缩进是必须的

添加启动脚本
下载地址:https://github.com/youerning/blog/tree/master/prometheus

cp node-exporter.service /etc/init.d/node-exporter
cp prometheus.service /etc/init.d/prometheuschmod +x /etc/init.d/node-exporterchmod +x /etc/init.d/prometheus

将上面的可执行二进制文件移到/usr/local/bin

cp prometheus-2.0.0-rc.2.linux-amd64/prometheus /usr/local/bin/prometheus
mv node_exporter-0.15.0.linux-amd64/node_exporter /usr/local/bin/node_exporter

然后启动Prometheus,node-exporter
创建工作目录(Prometheus的数据会存在这,启动脚本里面我写的是/data)

mkdir /data
service prometheus startservice node-exporter start

在Prometheus的web页面能看到被监控端

然后grafana导入dashboard
下载地址:https://grafana.com/dashboards/1860

注:https://grafana.com/dashboards还有很多的dashboard可以下载

按照以下步骤导入

点击import以后grafana就会多一个dashboard

至此一个系统层面性能指标监控已经全部完成。

可视化自定义
由于grafana的界面配置都是页面点击,需要截图标注,如果截太多图就文章太冗长了,这里就不进一步说明了,相关配置参考
http://docs.grafana.org/features/panels/
通过上面的安装配置发现,其实整个监控的流程还缺少了报警的环节,如果不能及时通报异常情况再好看也白搭。

报警

解压

1
tar xf alertmanager-0.11.0.linux-amd64.tar.gz

规则配置

1
cat /etc/prometheus/alert.rules

groups:

  • name: uptime
    rules:

    Alert for any instance that is unreachable for >1 minutes.

  • - alert: InstanceDown
    expr: up == 0
    for: 1m
    labels:
    severity: page
    annotations:
    summary: "Instance {{ $labels.instance }} down"
    description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."

prometheus.yml增加以下内容

  • 1
    <br data-filtered="filtered">
1
2
3
4
5
6
7
8
9
rule_files:
   "/etc/prometheus/alert.rules"
  
alerting:
  alertmanagers:
  - scheme: http
    static_configs:
    - targets:
      "localhost:9093"

详细配置参考: https://github.com/youerning/blog/blob/master/prometheus/prometheus-alertmanager.yml

启动alertmanager

1
./alertmanager --config.file=/etc/prometheus/alertmanager.yml

查看监控状态

不过Prometheus的报警操作真的很扯淡。
支持的接受操作如下

<email_config>

<hipchat_config>

<pagerduty_config>

<pushover_config>

<slack_config>

<opsgenie_config>

<victorops_config>

<webhook_config>

而email报警有个扯淡的地方就是如果邮件服务器必须tls认证且ssl是自签名的话就会starttls failed: x509: certificate signed by unknown authority
而且没有一个in_secure:true的选项。

所以需要邮件报警的话有两种方法,
一:再报警服务器里面植入自己的证书,
参考:http://blog.amigapallo.org/2016/04/14/alertmanager-docker-container-self-signed-smtp-server-certificate/
二:允许smtp不使用tls

其实上面两种方法都不太优雅,观法推荐的是使用web_hook
但是又得保证web_hook的服务是运行的,这就很扯淡了,不过,如果是全部跑在docker管理平台,如k8s,倒是不错的。

下面是一个简单的实现。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
from __future__ import print_function
import falcon
from wsgiref import simple_server
from email.mime.text import MIMEText
import smtplib
import json
smtpServer = "mx.example.com"
smtpUser = "sender@example.com"
smtpPass = "password"
sender = "sender@example.com"
reciver = "reciver@example.com"
tpl = """
status: {status}
alerts: {alerts}
"""
def sendMail(reciver, subject, message):
    server = smtplib.SMTP(smtpServer, 587)
    server.ehlo()
    server.starttls()
    server.ehlo()
    server.login(smtpUser, smtpPass)
    server.set_debuglevel(1)
    msg = MIMEText(message, "plain""utf8")
    msg["Subject"= subject
    server.sendmail(sender, [reciver], msg.as_string())
    server.quit()
class WebHook(object):
    def on_post(self, req, resp):
        """Handles GET requests"""
        body = req.stream.read()
        postData = json.loads(body.decode('utf-8'))
        msg = tpl.format(**postData)
        print(msg)
        sendMail(reciver, "alert", msg)
        resp.status = falcon.HTTP_200  # This is the default status
        resp.body = "OK"
app = falcon.API()
app.add_route('/', WebHook())
if __name__ == '__main__':
    httpd = simple_server.make_server('0.0.0.0'80, app)
    httpd.serve_forever()

源码:https://github.com/youerning/blog/blob/master/prometheus/webhookmail.py

注意:有falcon的依赖,需要pip install falcon

效果如下

注:由于我没有进一步处理post过来的json数据,所以显得不是很直观,大家可以根据自己的需要编排数据

其他exporter
除了基本的node_exporter,Prometheus官方还提供其他的exporter,如mysql, memcache,haproxy等
除了官方提供的,也还有很多第三方的expoter,参考:https://prometheus.io/docs/instrumenting/exporters/

自定义exporter
本文太长了, 直接看官方example吧。
参考:https://github.com/prometheus/client_golang/blob/master/examples/random/main.go

后记:个人认为,其实你不一定知道你要监控什么的,但是足够多的监控数据,能够支撑你对异常的全面审查及追溯。
其实Prometheus的很多细节没有说,比如监控规则编写,Prometheus的查询语法,不过本文太长了,如果有机会在详细说明吧。

本文转自 youerning 51CTO博客,原文链接:http://blog.51cto.com/youerning/2050543

使用Prometheus+grafana打造高逼格监控平台相关推荐

  1. 基于 RocketMQ Prometheus Exporter 打造定制化 DevOps 平台

    作者 | 陈厚道  冯庆 来源 | 阿里巴巴云原生公众号 导读:本文将对 RocketMQ-Exporter 的设计实现做一个简单的介绍,读者可通过本文了解到 RocketMQ-Exporter 的实 ...

  2. 视频教程-Prometheus+Grafana搭建全方位的监控告警系统-Linux

    Prometheus+Grafana搭建全方位的监控告警系统 高级运维工程师.资深DevOps工程师,精通kubernetes容器编排工具,熟练使用linux操作系统,多年线上线下教学经验 韩先超 ¥ ...

  3. (四) prometheus + grafana + alertmanager 配置Kafka监控

    安装请看https://blog.51cto.com/liuqs/2027365 ,最好是对应的版本组件,否则可能会有差别. (一)prometheus + grafana + alertmanage ...

  4. python朋友圈图片_教你用python将图片变成九宫格,打造高逼格朋友圈九宫格图片...

    python的出现,使很多困难的东西都简单化了,有时你在朋友圈看到朋友发的九宫格朋友圈,你会觉得很厉害,下面小编教你用python将一张图片变成九宫格,帮你打造高逼格朋友圈发文. 这个项目主要分为三个 ...

  5. SpringBoot + Prometheus + Grafana 打造可视化监控一条龙!

    1.背景 SpringBoot的应用监控方案比较多,SpringBoot+Prometheus+Grafana是目前比较常用的方案之一.它们三者之间的关系大概如下图: 关系图 2.开发SpringBo ...

  6. 【Flink 监控系列】Flink on yarn 任务实时监控最佳实践(Prometheus + Grafana)打造企业级监控方案

    我们都知道 Flink 任务是一个 7*24 小时不停运行的任务,所以对于任务的实时监控就显得尤为重要,因为任务运行的状态对于我们来说是一个黑盒,比如任务是否挂掉,是否存在反压,使用的内存,CPU 等 ...

  7. Prometheus+Grafana 搭建全方位的监控告警系统

    一.Prometheus介绍 Prometheus是一个最初在SoundCloud上构建的监控系统.自2012年成为社区开源项目,拥有非常活跃的开发人员和用户社区.为强调开源及独立维护,Prometh ...

  8. 基于InfluxDB+Grafana打造大数据监控利器--转

    这是一个大数据爆发的时代.面对信息的激流.多元化数据的涌现,我们在获取.存储.传输.理解.分析.应用.维护大数据时,无疑需要一种便捷的信息交流通道,以便快速.有效.准确地理解和驾驭这个过程.本文将通过 ...

  9. 打造高逼格的开发利器,让你的代码敲出打字机的效果,甚至更……

    作为程序员编程是非常重要的,但是在编程之余更为重要,更为好玩的一件事就是:打造自己敲代码的编辑器.我相信很多人都给自己的代码编辑器,查看器,IDE 等打造过各种风格,各种样式的主题,以显得自己敲代码的 ...

最新文章

  1. DeepMind提出「心智神经网络ToMnet」,训练机器的「理解」能力
  2. 为博客园添加github跳转链接
  3. JavaScriptjQuery.document对象属性和方法
  4. WinForm------TextEdit只能输入数字
  5. ImportError: cannot import name ‘moving_averages‘
  6. .NET开源MSSQL、Redis监控产品Opserver之安全配置
  7. 胎压监测 (10 分)
  8. VSCode Debug
  9. 机械臂手眼标定原理及代码
  10. mybatis3-中文文档
  11. sso单点登录系统(精华篇)
  12. sqlite3用法详解
  13. 图的遍历:BFS算法学习
  14. 保险与赌博的差异,航延险是赌博吗?
  15. 登录安全----双重MD5加密实现安全登录
  16. java面向对象基础
  17. 荣耀发布标志性旗舰智能手机Magic3系列;环旭电子为小型物联网设备推出双核蓝牙5.0天线封装模块 | 全球TMT...
  18. 2018传智黑马前端视频教程36期视频与源码完整版
  19. Python基础---文件
  20. folly库安装(4)folly依赖的重要组件安装:double-conversion, google-gflags, glog, fmt, googletest, boost等

热门文章

  1. Developer Express 之 XtraReport如何动态绑定数据
  2. firefox扩展开发(八) :控件激活
  3. 我们活在世界上,不是为了求人们原谅。
  4. 接口测试--获取动态参数进阶
  5. 接口测试文件上传(python+requests)
  6. jenkins pipeline之语法篇
  7. php gzip 关闭,php能否在当前脚本页关闭nginx的gzip输出
  8. mysql2008使用教程_sqlserver2008简单使用教程
  9. JavaScript面向对象编程理解
  10. acl 允许同网段访问_ENSP模拟交换环境中调用高级ACL限制不同网段之间互访