企业怎样可以进行应用的可视化管理,随时感知应用交付态势,随时了解在线业务的运行情况,及时发现业务运营中的问题,并帮助运维部门用财务数字显现整体运营情况,以保障安全的应用交付,实现企业投资回报最大化?“ F5 ELK ”解决方案及其如何被实现。

方法思路

iRule通过HSL输出必要的解析日志数据至elk

Dashboard与可视图分析
 

在整个dashboard中,划分了这样几个功能区域:

1.最上面的解析来源地理热力图,可以清晰的看出哪些地方是热点解析区域。热点解析区域,结合DNS TTL参考,可以意味着这个地方业务量较高,也可能意味着这个地方的DNS缓存存在问题。而同样的,如果此地理热力图所显示的业务真实热门的地方反而解析最不热门,也可能变相的说明该区域的DNS TTL存在问题。此外地理热力图也可以帮助揭示DNS攻击的区域

2.上部分右侧有总解析数,这里的总解析数也可以理解为实际的响应数(不管response是什么),所以与通过dns logging profile方式处理的不一样,这里没有统计那些request进来但被丢弃的请求,当然一般这也不需要统计,往往在外围DNS DDOS/Protocol火墙上就被过滤了。 总解析数意味着你统计时间段内的解析数量,在进行月度等报告撰写方面可以作为参考,是业务发展的一种指标。可以分不同域名(业务)来统计则会更有业务层面的价值

3.右侧的热点城市Top10,以及热点LDNS Top10 用于揭示热门的区域或LDNS IP。这是一个侧面的业务访问量大小的指标,当然也可以用于识别DNS DDOS。与第一条道理相同,过度热门的LDNS、城市在排除业务正常的因素前提下可能是衡量TTL的一个指标,即TTL在该地区/LDNS的是否被恶意不遵守。而业务本来应该热门的城市,但是解析却很不热门,那么也值得怀疑该地区的相关LDNS是否存在TTL恶意改大的情况

4.在地理图下的各线路实时解析统计可以帮助实时观察每个NS上实时的解析请求统计,一般来说应该各个NS上的总解析数应该比较接近,过度偏离的话,可以进一步跟踪该线路上的热门城市/LDNS,这些热门的LDNS里或许存在NS缓存不正确问题,或不能正确轮询NS问题

5.DNS成功率饼图显示成功与失败解析占比,成功是指的解析状态为NOERROR的,其它状态如NXDOMAIN,REFUSED等都归为解析失败。需要注意,解析失败不代表业务解析出了问题,比如客户端解析一个不存在的域名,那么理所当然不能回复为NOERROR。所以这里可以理解为有效解析与无效解析的占比。如果无效解析占比很高,那么说明你的环境下存在太多DNS探测、攻击尝试等。有必要对此开启DNS firewall(方法找sales,哦不对找F5工程师)。同时这也是日常基线的一种衡量,如果突然无效占比高了,你要考虑是否存在攻击了,或者业务层面代码里那里写错了域名。
  6.再接下来是所有线路的实时解析响应与智能解析的曲线图,这个可以帮助总览所有NS下的合并统计,作为日常基线、月度等报表内容。也可以宏观的看出整体的DNS解析量状态。过度的偏离都属于异常情况。这里的非智能解析是指的所有非GTM智能模块响应的解析,也就是说包含了非wideip的域名解析,wideip LB算法失效导致的BIND解析。所以如果将dashboard切换为某个wideip的域名视角的话,则可以看出该域名智能解析算法失效的统计,如果你的算法是topology算法的话,那么可能是你的topology兜底规则存在问题,使得解析进入了BIND。注意这里我们没有提最优解析(即解析的结果确实是规则设定的)统计,对于最优解析统计是一个比较复杂的工作,如果你确实有这么方面需求,请在部署了这个标准的可视化后联系sales(哦不,联系SE)来帮助你提出具体的解决方法,由于方法涉及的irule每个客户都需要定制化,所以没有包含在此通用的irule方法里。

7.在实时智能与总解析图右侧是 智能与非智能解析的占比环图,理论上智能解析占比越高越好,如果你的智能解析占比很低,你有必要将更多的域名部署为wideip解析(F5 DNS V12版本后可以对更多的解析类型使用wideip智能解析配置,使用wideip的解析性能要远高于非wideip解析),而对于依旧不能使用wideip进行解析配置的域名,则建议启用DNS express来优化你的DNS架构及性能。非智能解析占比越高,意味着你的DNS系统遭受DNS DDOS攻击时候系越脆弱。

8.再接下来的视图是各条线路的实时智能解析与非智能解析构成图,这个可以进一步的帮助从每条线路的视角来实时观察分析各条线路上的智能与非智能解析,如果某一条线路的非智能解析占比突然变高,你需要考虑是否是该线路上的DNS设备出现了攻击尝试的可能性,或者是否有因iquery跨线路问题导致的健康检查不稳定性所导致的该线路上动态算法失效的问题(结合具体实际判断,一般如果你是F5厂商推荐的第二代DNS架构体系,理论上不用怀疑iquery问题,可以直接优先怀疑攻击问题)

9.再接下来是各条线路的实时响应状态构成,可以帮助判断各条线路上有效解析与无效解析的分布情况,如果REFUSED或者NXDOMAIN明显多,有必要启用DNSX或者使用DNS firewall进行DNS防护。而如果通过钻取分析后,发现这些无效解析与某些固定的IP有关系,且这些固定的IP基本有效解析很少,则可以比较安全的封禁这些LDNS ip, 这些地址可能为攻击地址。当然业务如果在程序里调用了过时废弃的域名或者写错了域名等也会导致这样的结果,可以反馈给业务部门

10.接下来的一排三个饼图,分别是热门域名top10,解析类型占比,响应状态占比。 热门域名可以侧面衡量业务热门程度,特别是临时活动类域名(结合该域名的地理热力图)。也是日常的一个基线,如果突然某个域名变得很热门,抛开业务因素,可能需要怀疑攻击,或者TTL问题。 DNS解析类型占比,可以直观看出目前有哪些解析类型请求过,对于明显我们不存在的解析类型,或者某个我们并没有配置的解析类型占比很高,说明存在攻击意图,可以通过DNS firewall进行过滤。

11.最后两行视图主要是分NS线路的总解析数量以及各个响应状态的总统计,可以作为月度报表,或者在钻取显示某个LDNS、城市、某个域名时的关联统计值,方便进一步确认问题。更多有意义的用法,可能在实际使用中能发现更多。

12.DDOS 攻击,水滴攻击 等场景分析请参考https://www.myf5.net/post/2504.htm

13.缓存投毒攻击的判断,在正常情况下,一个城市或者DNS的解析是相对稳定的解析态势。一般来说投毒着为了使得投毒效果最佳,投放的TTL都会很大,因此直接效果就是一个LDNS不再发送请求过来。所以如果一个稳定解析的地区/LDNS的解析数量突然大幅度下降变得很少,可能就需要怀疑为缓存投毒了(当然该LDNS出现故障也有可能,但是辅以人工解析验证可以很快判定。

更多F5 ELK可视化方案相关信息,请关注“F5Networks”微信公众号。

F5 ELK可视化方案如何做到DNS运维更安全更高效相关推荐

  1. ELK学习笔记之F5 DNS可视化让DNS运维更安全更高效-F5 ELK可视化方案系列(3)

    0x00 概述 此文力求比较详细的解释DNS可视化所能带来的场景意义,无论是运维.还是DNS安全.建议仔细看完下图之后的大篇文字段落,希望能引发您的一些思考. 在"F5利用Elastic s ...

  2. Linux操作系统——Linux可视化管理-webmin 和 bt 运维工具

    文章目录 25 Linux 可视化管理-webmin 和 bt 运维工具 25.1 webmin 25.1.1 基本介绍 25.1.2 安装webmin&配置 25.1.3 简单使用演示 25 ...

  3. Linux 可视化管理-webmin 和 bt 运维工具

    Linux 可视化管理-webmin 和 bt 运维工具 webmin Webmin 是功能强大的基于 Web 的 Unix/linux 系统管理工具.管理员通过浏览器访问 Webmin 的各种管理功 ...

  4. 云原生时代,阿里云联手博睿数据让IT运维可观测更智能

    随着全球信息产业的变革,企业信息化的建设步伐不断加快,企业 IT 系统建设趋于完善,随之而来的是IT 系统日益庞大与复杂化,企业 IT 需求逐渐维护上往 IT 维护倾斜.据中商产业研究院发布的< ...

  5. 发布国内首个无服务器容器服务,运维效率从未如此高效

    近年来,随着越来越多的企业基于微服务架构构建自身核心业务平台后,微服务已获得越来越多技术人员的肯定,同时,微服务也承载着企业数字化转型的重任.但微服务架构的落地给企业的运维团队带来了不少的挑战,原有的 ...

  6. 智和信通:立足数字化、智能化、可视化,打造一站式制造业网络运维平台

    新时代下,云.大.物.移.智等新一代信息技术得到快速发展与大范围应用,一方面推动传统制造业改造升级向智能工厂转型,促进海量信息互通共享,但另一方面,也产生了一系列网络运维及安全难题.在"云制 ...

  7. 高效运维的本质:可视化的服务交付和可视化的服务度量

    没有比"可视化"更好的一个词能概括运维的本质,而"可视化"又应该分成两部分:可视化的服务交付和可视化的服务度量! 第一部分:可视化的服务交付 早期的运维是从IT ...

  8. 北京智和信通一站式运维方案,助力双网隔离环境实现安全运维

    随着互联网技术日新月异的飞速发展,信息产业的发展速度不断升级,政府.金融.电子商务.教育.制造.能源行业等信息化进程的加快,越来越多的企事业单位选择建立内网,将内网与外网隔离开来,采用双网隔离网络环境 ...

  9. 一目了然“之IT运维可视化,让运维不再说难!

    前言 可视化,就是把复杂抽象的数据信息,以合适的视觉元素及视角去呈现,方便大家理解.记忆.传递!这里,我们来聊聊IT运维可视化. 关于IT运维可视化,我认为是将整个运维过程的关键环节或重要环节,比如运 ...

最新文章

  1. 深度丨机器学习的理论局限性与因果推理的七大特性zhuan'z
  2. Maven-学习笔记01【基础-Maven基本概念】
  3. tf报错之raise TypeError(“pred must not be a Python bool“)
  4. 《Linux多线程服务端编程——使用muduo C++网络库》读书笔记
  5. linux c之gcc -g file.c -o file提示warning: no newline at end of file
  6. 函数计算搭建 Serverless Web 应用(三)- 三分钟搭建 Web 应用
  7. python字符串变量s的值是python网络爬虫_【Python爬虫作业】-字符串
  8. mie散射粒子消光系数 matlab代码,一种球形粒子GMie散射效率极值的算法
  9. python格式化输入_python-格式化(%,format,f-string)输出+输入
  10. 通达信里的统计函数及区块背景函数
  11. 030-sysctl
  12. Atitit 文件存储标准化api 总结 目录 1. 操作系统,进行操作 1 1.1. FileUtils类的应用 1 1.2. 各大api 比较 2 2. Java。Io用apache的commo
  13. ai人工智能电话机器人应用市场分析
  14. 【高频电子线路】[笔记]第1章 绪论
  15. Android之黄油刀(butterknife)
  16. ViewBag和ViewData的用法和区别
  17. 贪心算法--最小耗费生成树(Prim算法)
  18. 对抗博弈搜索——吃豆人
  19. mysql服务重启和关闭
  20. 鼠标经过下划线 css3,详解css3和伪元素实现鼠标移入时下划线向两边展开

热门文章

  1. 基于FastICA的声源分离实例(matlab代码)
  2. 苹果审核规则研究,实时更新
  3. 射频识别技术原理分析
  4. c语言printf显示变量,零基础学C语言 笔记一 变量 printf
  5. 通过CSS代码判断浏览器方法大全
  6. 为Exynos4412移植U-Boot-2017.11的步骤(一)——让U-Boot跑起来
  7. 015:Scrapy获取淘车网十七万二手车数据
  8. android安装sdk时,failed read或者write可能是权限问题
  9. odbc建oracle dsn,Linux平台配置Oracle ODBC DSN的方法
  10. 微信公众号--开发模式之用户关注后自动回复(Java实现)