版本:7.0.0

简介

告警是基于指标数据驱动的,告警在 config/alarm-settings.yml里面配置,主要包含三种告警配置:

告警规则:声明指标的阈值和条件,当达到阈值时,将触发告警。

WebHooks:web服务列表,当告警规则触发时回调。

gRPCHook:远程gRPC方法的IP和端口,当告警规则触发时回调。

规则

告警规则组成关键字段如下:

Rule name:具有唯一性,展示在告警信息里面,必须以_rule结尾。

Metrics name:oal脚本里面的指标名称,支持long, double, int 类型。

Include names:规则里包含的实体名称,例如:服务名字,端点名字。

Excluse names:规则里排除的实体名称,例如:服务名字,端点名字。

Threshold:目标值(阈值)。对于多值指标(如:百分位),这个阈值是一个数组,格式如:value1,value2,value3,value4,value5。与指标格式一一对应。当不想其中某些指标触发告警时,阈值设置为横杠(-)

OP:操作,目前支持 >,>=,

Period:周期。一个时间窗口,表示告警规则应当被检测多长时间。

Count:在期限窗口时间段内,如果统计次数达到阈值,将触发告警。

Silence Period:静默时间,表示在多长时间内只会触发一次告警。默认值和Period相同,即在一个周期内,只会触发一次告警。rules:

# Rule unique name, must be ended with `_rule`.

endpoint_percent_rule:

# Metrics value need to be long, double or int

metrics-name: endpoint_percent

threshold: 75

op: <

# The length of time to evaluate the metrics

period: 10

# How many times after the metrics match the condition, will trigger alarm

count: 3

# How many times of checks, the alarm keeps silence after alarm triggered, default as same as period.

silence-period: 10

service_percent_rule:

metrics-name: service_percent

# [Optional] Default, match all services in this metrics

include-names:

- service_a

- service_b

exclude-names:

- service_c

# Single value metrics threshold.

threshold: 85

op: <

period: 10

count: 4

service_resp_time_percentile_rule:

# Metrics value need to be long, double or int

metrics-name: service_percentile

op: ">"

# Multiple value metrics threshold. Thresholds for P50, P75, P90, P95, P99.

threshold: 1000,1000,1000,1000,1000

period: 10

count: 3

silence-period: 5

message: Percentile response time of service {name} alarm in 3 minutes of last 10 minutes, due to more than one condition of p50 > 1000, p75 > 1000, p90 > 1000, p95 > 1000, p99 > 1000

默认规则

在发行版中提供了默认的alarm-setting.yml,其中包括以下规则:

最近3分钟内服务平均响应时间超过1秒。

最近2分钟的服务成功率低于80%。

最近3分钟的服务响应时间百分比超过1s。

最近2分钟内服务实例的平均响应时间超过1秒。

最近2分钟内端点平均响应时间超过1秒。

所有默认指标名称的列表

指标名称是在正式的OAL脚本中定义的,可以在Alarm中使用来自Service,Service Instance,Endpoint范围的指标。

Webhook

Webhook要求配置的时一个web容器,告警消息将以application/json格式通过http请求发送,消息格式声明为:List

字段如下:

scopeId, scope: 所有的scope实体在 org.apache.skywalking.oap.server.core.source.DefaultScopeDefine 里面声明。

name. 目标scope实体名称。

id0: scope实体ID,匹配名称。

id1: 不使用。

ruleName: 配置在 alarm-settings.yml 里面的规则名称.

alarmMessage: 告警信息.

startTime:触发告警的时间 示例:[{

"scopeId": 1,

"scope": "SERVICE",

"name": "serviceA",

"id0": 12,

"id1": 0,

"ruleName": "service_resp_time_rule",

"alarmMessage": "alarmMessage xxxx",

"startTime": 1560524171000

}, {

"scopeId": 1,

"scope": "SERVICE",

"name": "serviceB",

"id0": 23,

"id1": 0,

"ruleName": "service_resp_time_rule",

"alarmMessage": "alarmMessage yyy",

"startTime": 1560524171000

}]

gRPCHook

告警消息将以Protobuf类型通过远程方法发送,消息格式被声明在oap-server/server-alarm-plugin/src/main/proto/alarm-hook.proto里面。 示例:

message AlarmMessage {

int64 scopeId = 1;

string scope = 2;

string name = 3;

int64 id0 = 4;

int64 id1 = 5;

string ruleName = 6;

string alarmMessage = 7;

int64 startTime = 8;

}

动态配置

6.5.0版本以后,告警规则支持通过配置中心进行动态配置,动态配置将会覆盖alarm-setting.yml文件里面的配置。

告警规则是否被触发的顺序,SkyWalking将缓存每一个告警规则的指标信息一个时间窗口,当规则的任何属性改变的时候,静默窗口将被销毁并重建,从新开始这个特殊规则的告警统计。

来源:oschina

链接:https://my.oschina.net/u/2344188/blog/4318985

怎么停止skywalking_SkyWalking 告警设置相关推荐

  1. TStack运维笔记(04)- 配置VPC网络及告警设置

    文章目录 01 VPC配置 1.1 说明 1.2 操作步骤 02 告警设置 2.1 说明 2.2 操作步骤 01 VPC配置 1.1 说明 用户可以通过创建 虚拟私有网络(VPC) 为云主机构建隔离的 ...

  2. zabbix告警设置,自动发现,自动注册

    1.告警设置 1.声音告警 这种告警会根据不同情况,发出声音 2.触发器 添加链接数,发生报警 当小于等于2时恢复 3.邮件告警 测试 4.微信报警 注册并登录企业微信 添加部门-->添加成员 ...

  3. cacti邮件告警设置

    功能说明 对指定流量图形(指定接口)设置最高或最低流量阀值,当流量出现异常偏高或偏低触发阀值,系统自动将异常信息以邮件形式通知指定收件人.如果收件人邮箱是139邮箱,还可以增设短信通知功能. 设置前准 ...

  4. 怎么停止skywalking_SkyWalking安装和使用

    image Skywalking中OAP的概念:OAP(Observability Analysis Platform)可观测性分析平台是一个新的概念,始于skywalking6.X.OAP可以从多种 ...

  5. zabbix邮件告警设置外部邮箱或企业内部邮箱

    1.安装邮件发送工具mailx yum install mailx 2.配置Zabbix服务端外部邮箱或企业内部邮箱 vi /etc/mail.rc set from=xxx@163.com set ...

  6. DolphinScheduler 邮件告警设置

    分布式易扩展的可视化工作流任务调度平台 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台.致力于解决数据处理流程中错综复杂的依赖关系,使调度系 ...

  7. 怎么停止skywalking_Skywalking部署常见问题以及注意事项

    Skywalking部署常见问题以及注意事项 Intro SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performanc ...

  8. 梦幻西游进入游戏显示服务器程序停止工作,win10系统提示“梦幻西游已停止工作”的设置教程...

    有关win10系统提示"梦幻西游已停止工作的操作方法想必大家有所耳闻.但是能够对win10系统提示"梦幻西游已停止工作进行实际操作的人却不多.其实解决win10系统提示" ...

  9. stm32f103停止模式低功耗设置(最低5.7ua)

    刚开始进入STOPMode后,整机功耗有300uA的,此时外围其他硬件电路电流已经可以肯定漏电流在nA级,因此调试方向在主芯片,经过实际测试,都是GPIO配置的问题,比如某个GPIO为中断输入,闲置为 ...

  10. 怎么停止skywalking_如何设置 SkyWalking 中 Trace 记录的保留时间(过期时间)?

    之前配置 SkyWalking 时没有注意,导致请求的详细信息在记录不久之后(2个小时不到)就查不到了. 查到在官方文档 [TTL](https://github.com/apache/skywalk ...

最新文章

  1. 眉目传情之匠心独运的kfifo【转】
  2. [笔试题]交换两个数不使用第三方变量 深入理解按位异或运算符
  3. 20145201 《Java程序设计》第六周学习总结
  4. Happy Week
  5. 【Java后台开发规范】--- Null值处理
  6. 关于计算流体力学,你知道多少?
  7. 吴忌寒联姻500.COM的背后秘密
  8. Linux的磁盘配额设置
  9. 浏览器劫持定义及危害、处理浏览器被劫持自动跳转到某个网页的修复教程
  10. R语言和RStudio开发环境的下载与安装
  11. ajax读取文件的小总结
  12. 如何在 Windows 上查看 HEIC 格式照片
  13. Springboot 实现将文件压缩,然后下载
  14. 007需求分析中的重要知识点(马斯洛需求层次理论+KANO优先级筛选模型+金字塔模型)
  15. trac mysql_无法加载MySQL的Python绑定 – Trac
  16. 手机自动拨号软件_手机自动拨号是灵异事件?我信你个鬼
  17. 四溴-2,3-萘酞菁铅[PbNcBr4],酞菁铅PbN,齐岳生物提供多多种定制材料
  18. html 用户输入成绩,程序输出相应的成绩等级
  19. 高级网页抓取:如何绕过雷区,抓取成功
  20. git --- git tag用法

热门文章

  1. 走向.NET架构设计---第二章:设计 测试 代码
  2. 基础篇:深入解析JAVA注解机制
  3. 版式设计怎么做对比?有哪些形式!
  4. 多多自走棋服务器不稳定,多多自走棋突然宣布停服,数据将全部转移到腾讯服务器中...
  5. 如何在手机上压缩图片?两种免费方法了解一下
  6. rabbitmq消息队列--restTemplate实现跨域请求--获取JSON字符串
  7. 绿米开关如何重置_绿米智能开关评测
  8. 程序员风格的修真小说 —— 《码师》
  9. Pandas 之DataFrame二维表基础操作及演示
  10. iqooneo5桌面原子组件教程分享