戳蓝字“CSDN云计算”关注我们哦!


文章摘自 | 《OpenStack架构分析与实践》

谈到OpenStack,一个难以避免的话题就是运维,对于OpenStack的运维而言,随着其项目的不断增多,传统的“人肉运维”方式显然不能满足当下及以后的需求。目前,社区中已有与运维相关的组件,或是单独完成(如:Datadog),或是多个组件共同完成(如:Mistral+Vitrage),许多厂商也都结合容器竞相开发自己的运维模块,由于容器比较轻量级,启动速度比较快,可以快速影响系统变化。

容器技术可以实现将OpenStack虚拟机数量增加到四倍以上,微服务和SDDC(软件定义数据中心)又将进一步增加运维人员所要管理的IT资源的数量及分析问题、定位问题的难度。使用AI的方式对OpenStack系统进行监控、调试和纠错的方案仍处于初级阶段,面对强大的AI,在OpenStack中似乎没有发挥其拥有的功能。

不同厂商的智能运维框架都不尽相同。如宜信开源的AIOps三大利器:UAVStack、Wormhole、DBus。它开发的UAVStack是一个智能服务技术栈,是研发运维一体化的解决方案,开源系列包括全维监控(UAV.Monitor)、应用性能管理(UAV.APM)、服务治理(UAV.ServiceGovern)、微服务计算(UAV.MSCP)。其中,UAV.Monitor+APM为智能运维采集全维监控数据,是一站式的全维监控+应用运维解决方案。

提示:在社区中出现了一个基于容器进行OpenStack部署的解决方案,从运维的角度来看,这样可以极大的简化OpenStack中运维出现的问题,借助容器轻量化的实现及快速启动的特点,完全可以使用容器的高可用替代Pacemaker+Crosync提供的高可用方案。

一、 可视化的Dynatrace

早在巴塞罗那峰会时,就出现了出几款可以提供运维可视化、智能化的解决方案。先来看一款名为Dynatrace的产品。这是一个可视化的资源管控平台,包含了对各种资源的监控和监控数据的采集,并且分了不同的层面。对于应用层数据,支持用户提供关键字,从而实现对应用所涉及到的所有资源的查询与关联;对于OpenStack来说,有针对OpenStack集群的分析管理,例如:可以管理集群下面运行了多少虚拟机、多少磁盘、多少网络等,也可以实现对网络带宽的监控,监控当前网络是否处于饱和状态,通过对资源的分级,可以方便用户对问题进行分层定位与处理。

图1是Dynatrace官网给出一张示例图,图中展示了部分监控项的可视化图形。

图1 Dynatrace图形界面

从图1 可以实时的监控当前网卡的吞吐率、IOPS、时延及磁盘的剩余空间等。在其官方给出的介绍中,可以看出,它除了支持可图形可视化外,还提供了基于AI的数据分析功能、全栈搜索功能、自动修复功能等。

它可以实现对不同云平台的监控与运维自动化,以数据中心为例,在它提供的监控方案中,它将数据中心一共分为了五层:

第一层,数据中心

第二层,物理主机

第三层,物理机上运行的虚拟机或某些进程

第四层,基于进程对不同的服务进行分类

第五层,将不同的服务进行整合,从而形成一整个“应用”

二、 VirtTool Networks

从它的名字上可以很清楚的看到,它是一个专注于网络问题的相关产品。它使得对分析OpenStack中的网络问题更加方便快捷。

首先,通过它提供的图形界面,可以清晰的看到整个系统中的网络实时图,如图2所示:

图2 实时网络连接

其次,它也可以获取某一时刻,系统中网络设备上的流量热点,可以方便用户查看当前系统中,那个节点上的网络流量比较大或已达到峰值。

图3   网络流量热点监控

通过选中某个虚拟机或网络,可以查看相关资源的局部细节,如图4所示:

图4  云平台资源详细信息

除上述功能外,它还可以监控云平台中任意节点处的流量及流量包的传输路径,这样可以方便跟踪与查询网络中的丢包现象。

无论面对多么复杂的平台系统,也不管内部运行多么复杂的业务,要想在针对此平台做到快速故障定位,可以从以下两点入手:

平台中数据可视化展示

平台中数据资源的关联

前者可以提供更加友好、更加人性化的交互体验,这一点可以从Zabbix中得到较好的认证。它是一个专注于监控的产品,但它还是提供了较为简单的图形化界面,从界面上可以清晰的看出模板、被监控的主要、监控项、Action及Mediatype之间的关联关系。而对于像Mysql这样的产品而言,在可视化方面做还是相对逊色了许多。

后者一方面可以更好的为前者服务,但更重要的一点,它可以将云平台中相对比较零散的数据进行收集然后做聚合处理,将原先看似孤立的数据整合成一张大大的数据网,有了这张数据的关系网,那么我们再去进行故障分析与定位就相对容易多了。

三、 智能运维Vitrage

Vitrage是社区中的一个对系统进行RCA的项目,那么下面将从运维应用的角度来分析其在OpenStack智能运维中的应用。

提示:在多次OpenStack峰会上,Nokia都展示了其自己通过Mistral和Vitrage实现自动运维和故障修复的案例。

我们先来看这样一个简单场景,即当系统中CPU负载过高时,Vitrage将会如何去感知这一变化,继而感知后如何去将系统恢复到正常状态。从感知到状态恢复可以归结为以下四步:

1.产生告警


当Zabbix监控到某个主机上CPU负载过高时,Vitrage将会产生一个聚合的告警信息,此告警信息会与该主机上的虚拟机相关联,然后将虚拟机的状态设置为suboptimal。如图5所示:

图5 产生告警

这一过程可以通过模板来表示为:


2.RCA


当CPU过高的主机上有虚拟机,并且此虚拟机上CPU的负载也在持续升高,Vitrage负责分析产生告警的原因,并建立这三者之间的因果关系。如图6所示:

图6 RCA

同样可以用模板表示为:


3.设置主机的状态


当该主机上的CPU过高时,将主机的状态设置为suboptimal。

图7 设置主机状态

相应的模板为:


4.触发状态恢复


关于其状态恢复的过程,可以通过与Mistral结合来实现。Mistral是一个工作流组件,可以实现对长流程业务的合理管控。针对本示例中的问题,Vitrage与Mistral结合时的工作流程如图8所示:

图8  状态恢复流程

Vitrage接收到CPU负载过高的消息会,会通过Mistarl类型的Notifier将此消息发送到Mistral组件上,Mistral收到Vitrage发送的事件通知后,会调用相应的模板,继而调用heatclient实现AutoScaling及负载的均衡处理,从而可以将一台虚拟机的负载分配到其的虚拟机上,从而达到降低负载的作用。

提示:在运维中,比较重要的方面就是如何对故障进行预测,预测完成后,如何基于预测的结果实现相应操作的制定与资源的编排。谈到资源编排,不仅云平台中有这个概念,容器中也会有类似的概念,比如K8S就是可以看作是一种提供编排(不仅限于编排)服务的项目。

云技术书籍,免费送!

《OpenStack架构分析与实践》本书以实战开发为原则,以关键模块架构分析及项目开发为主线,通过OpenStack开发中常用的8个典型组件和若干典型项目案例,详细介绍了云平台中的计算、网络、存储、服务编排、智能运维等模块,并针对OpenStack中通用的关键技术进行了详细介绍。

 

仅限 5本 数量有限!

参与方式


在本文下方留言:

 

谈谈关于OpenStack架构分析与实践相关的话题内容

活动信息

1、活动时间:2019年2月25日~27日18:00

2、中奖(共5名)规则:

a.留言评论区点赞前3名

b.留言评论区中字数最多的2名用户(最走心);

最后感谢中国铁道出版社的对活动的大力支持!

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • 全面剖析企业私有云

  • 30 秒?!Chrome 插件带你速成编程学习 | 程序员硬核评测

  • 为什么程序员下班后只关显示器从不关电脑?

  • 算法警告!该图片涉嫌违规不予显示

  • 交易机器人春天已来?先看完这篇再说吧

  • 2019年中国IT市场趋势热点

  • 2019年最值得关注的五大微服务发展趋势

喜欢就点击“好看”吧

云评测 | OpenStack智能运维解决方案 @文末有福利!相关推荐

  1. 富士康服务器linux运维,【2019IT运维十大样板工程】富士康云桌面及智能运维项目...

    富士康科技集团是专业从事计算机.通信.消费类电子等3C产品研发制造,广泛涉足数字内容.汽车零组件.云计算服务和新能源.新材料开发应用的高新科技企业.富士康在制造行业已经有30多年的历史. 随着业务规模 ...

  2. 阿里云日志服务SLS,打造云原生时代智能运维

    2021年10月21日,阿里云针对企业运维难题,在云栖大会为大家带来了一场<智能运维论坛>的主题演讲.在会上,阿里云资深技术专家.日志服务技术负责人简志提出"云原生时代,企业业务 ...

  3. C. 智能运维解决方案 --- 微众银行

    C. 智能运维解决方案 - 微众银行 概述 IT 运维的价值体现在对业务稳定.运行安全和提效降本三个方面的保障与控制 发展阶段 手动运维 背景 信息化发展初期缺少运维工具和操作指南 依赖个人知识.技术 ...

  4. 一站式智能运维解决方案,企业系统的隐形守护者

    时有爆发的疫情,加速引导着用户观影方式的改变.越来越多的用户习惯将观影模式从线下转移到线下. 疫情作为电影行业的"黑天鹅",让线下影院陷入沉寂,但是却让网络视频平台焕发新生.多家视 ...

  5. 华三服务器装运维系统,H3C华三U-Center智能运维解决方案

    新IT转型趋势下,为支撑业务敏捷.稳定.创新发展,IT运维的重要性已日益凸显.伴随着IT运维管理目标.管理范围.管理深度的转变,IT运维平台建设呈现管理一体化.操作自动化.运维智能化.业务可视化及端到 ...

  6. 人工智能+智能运维解决方案_如何建立对人工智能解决方案的信任

    人工智能+智能运维解决方案 I interviewed Marisa Tschopp who is an organizational psychologist conducting research ...

  7. 云呐统一运维一体机,智能运维解决方案

    运维业务灵活适配,可根据企业实际需要选择企业资产盘点管家.维保工单管家.运行监控盒子(动力环境监控.IT网络监控.IT系统监控.数据库专家监控等).智能运维专家(统一智能告警.统一智能日志).自动化运 ...

  8. 乔安监控云存储_智能运维丨全栈监控,护航云上业务

    自2006年至今,云计算商用领域已经历了十余载的发展.云也从概念普及进入到广泛应用阶段,云服务变成了像水电一样的基础服务,已经是行业共识. 云发展速度快.成长空间大,监控场景复杂 最新Gartner的 ...

  9. 云时代的智能运维平台,助力企业创新迭代

    简介:智能的运维平台,帮助企业业务平稳.智能.高效地运行. 每一起严重事故背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患.-- 海恩法则(Heinrich's Law) 随着云计算 ...

最新文章

  1. 【翻译 windbg - 1】Getting started with windbg - part I (第一部分 1)
  2. 到底应该用3*3的卷积核还是5*5的卷积核
  3. mysql 注入用例_mysql-常用注入渗透手法
  4. Vue.js 从 Vue Router 0.7.x 迁移
  5. Crawler:基于splinter.browser库实现爬取12306网站来实现快速抢票
  6. Leaflet中使用Leaflet.MagnifyingGlass实现放大镜效果
  7. 修改某个appointment已经存在的opportunity relation
  8. 使用Java EE安全性和JBoss AS 7.x保护JSF应用程序的安全
  9. Vue 中的组件缓存
  10. [转载] --- 让线程按顺序执行8种方法
  11. Kotlin入门(22)适配器的简单优化
  12. 201632位matlab下载_Matlab 2016a下载
  13. 学计算机拼音不好怎么办,孩子拼音基础差怎么办?告诉你学拼音技巧!
  14. php 月份查询生日_PHP判断日期(生日)格式是否正确合法的方法
  15. windows 系统开启的端口调研
  16. DNA甲基化可实现转座因子驱动的基因组扩增
  17. 涨姿势 , JavaScript 玩转多线程编程~
  18. 第一章 python初窥 课后练习题
  19. location 拦截所有_终极广告拦截软件来袭!AdGuard
  20. 人工智能产业发展路线图是,先建岛,再扩区,由点到面

热门文章

  1. java 二叉堆_【数据结构】二叉堆:Java实现最大堆及堆排序
  2. 计算机应用能力考试xp,计算机应用能力考试XP试题及答案
  3. 三菱goto怎么用_GOTO语句使用方法
  4. asp多表查询并显示_MySQL多表查询与事务
  5. python分类预测降低准确率_十分钟掌握python机器学习特征选择
  6. java 匿名函数_Java 理论与实践,闭包之争
  7. 名校博士被撤销学位,只因7行文字抄袭及1张互联网图片​……
  8. 科研“潜规则”了解一下
  9. 全国首个人工智能专业,怎么学?
  10. 漫画 | 小白也能看懂的量子物理漫画终于来了!