IT 正在变得越来越重要,作为公司运作链条上的一环,公司治理框架要将自己的业务目标、业务框架向 IT 传递。IT不再与基础建设和业务发展关联脱节,而是要紧密联系在一起的。

因此,有效的 IT 服务方法,包括识别、区分优先次序以及解决影响业务应用的性能和可用性问题。面向应用与业务的管理,以及其性能分析正在变得越来越重要,因为终端用户依赖日益复杂的应用来实现关键业务交易。应用性能低下将降低生产力,影响客户满意度,并有损 IT 声誉,进而导致成本攀升、收入减少、IT 变得效率低下——这些问题通常比可用性问题更加严重。

传统的管理与监测解决方案通常无法识别和解决应用性能问题的根源。事实上,最近在终端用户体验监测、依赖性映射和相关性方面的最新进展,已让 IT 运行经理能够更有效地监测和解决不满足服务水平的问题。这些技术帮助提高对整个网络、服务器(分布式和大型主机)和其它应用层的可视性,借助技术分析因果关系,从业务的角度确定哪些响应该优先进行。实际上,即使基础架构测量指标仍然提供主要的故障和容量数据,强调重点也已从基础架构测量指标变成了业务测量指标。

问题和事件管理是面向应用与业务的管理的两个核心 ITIL(信息技术基础架构库,简称 ITIL)流程。事件管理(Incident Management)是当 IT 出现问题的时候解决它们,作为对服务质量降低的一种响应。事件管理的目标是恢复服务,对业务造成尽可能小的影响。问题管理(Problem Management)强调识别和消除问题的根源。它通过改变服务和面向应用与业务的管理解决方案,增加了服务质量改进的概念。

面向应用与业务的管理解决方案通常是作为基础架构监测实践开始的,由 IT 机构的某个独立业务部门实施,缺乏一致的目标。例如,网络团队可能要部署一个开源网络工具,以获得基础网络的可视性,而 Web 服务器团队则可能会从一个主流的服务器厂商那里部署一个服务器监测工具。然而,自上而下地设计一个面向应用与业务的管理方案要切合实际得多。使用这种方法,您先设想结果,然后将它应用于您选择的解决方案组件。

公司高层提供的资源支持和参与对于任何面向应用与业务的管理项目的成功都是至关重要的,因为这将要求来自多个 IT 部门的积极支持。更重要的是,这些部门对于项目的业务价值要有一致的理解,因为他们每个都可能会面对新的企业可视性,对某些东西失去控制(应对问题的新流程),或者放弃一个最受欢迎的工具。开始一个小型的面向应用与业务的管理项目,选择一个战略性的应用,为业务所有者和 IT 机构阐明价值,大多数机构将会从中受益。这样一个项目的成功,将能够被一个更全面、收益更明显的解决方案利用。

然而,我们大多数人并不是从临时拼凑开始设计 APM 解决方案;我们已经拥有许多一直服务于我们的目的的基础架构工具。那么,是什么将一系列「结合平台的」(platform-aligned)工具转变成面向应用与业务的管理解决方案的呢?尽管对于这个问题可能会有许多技术回答,但是,这里有两个最重要的主题:

  • 业务一致性(business alignment)。全新的主要设计目标仍然应该从注重业务产出开始。对业务来说,重要的将是终端用户的体验——这个可通过性能和可用性进行测量。

  • 相关性和故障隔离(correlation and fault isolation)。对根源的可视性,是将基础架构提升至面向应用与业务的管理、真正理解基础架构测量指标如何影响业务生产力的关键。

很容易明白诸如终端用户体验(end-user experience,简称 EUE)和基础架构测量指标等业务相关的测量指标的相关性为何如此重要。将终端用户体验到的性能问题与基础架构测量指标结合起来,隔离主要的根源,这能让 IT 小组快速准确地专注于问题的起源,同时避免对不相关的组件采取行动。通过适当的阈值调整,这为持续业务改进奠定了基础。同样地,通过 EUE 的相关性,以及受影响的用户数量和所在位置、每天交易的次数和业务价值,可以找到问题对业务的影响。

通过一系列基础架构工具构建面向应用与业务的管理解决方案,会带来集成和相关性方面的挑战;您需要对主要的单一供应商(single-vendor)解决方案进行评估权衡,因为供应商和定制化的多供应商(multi-vendor)解决方案构建和交付了集成。对于更小一些的部署,定制化的解决方案可能会更省钱,但是对于较大的实施,可扩展性和维护方面的考虑将会迅速改变价格。

在设计流程里,保持对终端用户交易响应时间的专注很重要。这有两个原因。第一,性能分析和问题解决是为更好的了解以业务为导向的环境并提出重要意见。尽管在传统上,基础架构测量指标是满足事件和问题管理的数据,但是,这些基础测量指标和它们的阈值驱动警报在没有业务相关性的情况下能够变得几乎毫无意义。例如,对于一个 2M 广域网连接来说,75% 的利用率究竟是好还是坏呢?当应用的性能降级时,这些组件级的测量还将总会被突出?其次,从对业务影响的角度来说,IT 能够优先对事件作出响应是有价值的,它代表了向业务一致性迈出的重要一步。

同样重要的是,与技术和 IT 资源的成本相关的设计限制。许多面向应用与业务的管理项目不成功,是因为缺少关注和支持,因为无法维持这一解决方案、无法适应基础架构的变化并无法定义基于真实世界反馈的流程。

基线对于任何面向应用与业务的管理解决方案实施来说可能是最重要的技术成功因素之一。基线确定了服务的正常运行,为设定警报起点提供了参考,并提供了有价值的趋势和容量规划信息,因为它们是真实的数据。

通常,面向应用与业务的管理解决方案会动态地为一些被观察到的测量指标构建基线;经过数天或数星期,这些基线趋于一个正常的定义。对于其它的测量指标,您很可能想要基于一段时间内的观察手动设定基线。将这些基线作为参考点,然后您就能够确定性能阈值;当测量违反了特定的行为准则时,警报就会产生。至少在最初的时候,这些阈值很可能以一个超出基线的比例被设定。例如,当页面性能从基线降低 25% 的时候,就会引发一个警报。这些引发也很可能基于一个模板或一套规则被设定,能够包括更复杂的逻辑;再例如,当磁盘写队列在 60 秒内超出2至少5次的时候。
重要的、需要考虑的是哪些指标被监测,使用什么阈值;大多数的面向应用与业务的管理工具提供多种多样的测量选项,深入的显示出能够被分散甚至误导的水平值。缺省值或特定平台的模板可能通过面向应用与业务的管理解决方案厂商、软件/硬件厂商、系统集成商或用户社区获得。然而,无论是什么资源,确定这些阈值是否适用于您的特定环境都是非常必要的。尽管这一决定部分地能够在实施期间作出,但是大多数阈值的改进都是在运行期间实现的。

最后,我们应该关注最终由 EUE 测量驱动的相关性能力。对于有效的相关性来说,最重要的是理解依赖性或交易在系统里经过的路径。它也建议要注意测量时间。当然,不是所有的指标都能够被连续评估,因此有些是在一段时间内进行取样。这是一种检测普遍性问题的有效方法。然而,间歇的问题本质上可能会是短暂的,以至于它们在取样期间被隐藏起来。尽管这些通常只会带来更小的业务影响(因为它们以更小的频率影响更少的用户),但是它们本质上更难解决。交易「跟随」(following)——通常通过贴标签——可能对特定的环境是合适的,然而,暂时缩短的取样间隔时间为解决间歇问题提供一种更通用的方法。

成功的运行需要在稳定性和持续的服务改进(CSI)之间保持平衡。对许多企业来说,仅仅只有在故障发生并严重威胁到业务的时候,CSI 才会成为一个项目。一旦该问题得到解决,这一概念又会立即被抛到脑后,直到下一个重大故障发生的时候才会被再次记起。一个更周全的 CSI 方法将在事件和问题管理方面带来明显的改善,帮助 IT 机构更好地解决和预防问题的发生。

正如之前提及的,面向应用与业务的管理成功的关键——既确保业务一致性,又能解决问题——在于相关性。一个强大的 CSI 流程强调去改进被监测到的并找到更合适的阈值。

考虑一个面向应用与业务的管理方案的实施,终端用户体验和基础架构指标要能被监测。当事件发生的时候——无论这个事件是由 EUE 警报引起的,还是因为一个实际的终端用户——IT 人员都要将这一事件和它的根源关联起来。确认并修正敏感性或瓶颈——至少暂时要做到这点。如果瓶颈指标数据没有被监测到,那么,无论如何也要开始对面向应用与业务的管理进行明显改进来监测它。如果瓶颈指标数据被监测到了,那也要着手改进去调整警报阈值,因此下一次警报能够在用户抱怨之前就识别到问题。警报可能是被动的——超过某一阈值的用户正在经历性能问题——也可能是主动的——超出阈值给出了一个尽早的警告:如果用户继续这么做的话,他将会出现性能问题。

最终,持续的服务改进应该不止是通过改善面向应用与业务的管理解决方案的质量来改进业务服务的水平。它可能意味着,通过拨出额外的资源或者对资源的使用给予优先考虑来控制资源,以致瓶颈将不再发生。

OneAPM 是应用性能管理领域的新兴领军企业,能帮助企业用户和开发者轻松实现:缓慢的程序代码和 SQL 语句的实时抓取。想技术文章,请访问 OneAPM 官方博客。

你需要的是持续的服务改进 1相关推荐

  1. 你需要的是持续的服务改进

    2019独角兽企业重金招聘Python工程师标准>>> IT 正在变得越来越重要,作为公司运作链条上的一环,公司治理框架要将自己的业务目标.业务框架向 IT 传递.IT不再与基础建设 ...

  2. 桌面运维中持续服务改进需要怎么进行?

    桌面运维中持续服务改进是确保企业内部计算机和网络设备持续运行的关键.以下是一些持续服务改进的方法: 1. 定期更新和维护软件和硬件 桌面运维人员应该定期更新和维护软件和硬件设备,确保它们保持最新和最佳 ...

  3. Live800:在线客服系统如何帮助企业创造持续的服务价值?

    德鲁克管理箴言:企业的唯一目的就是"创造顾客". 如何创造顾客?只能依靠产品和服务.产品和服务是连接企业与客户的天然纽带和必然桥梁. 企业依靠持续不断生产满足客户需求.符合客户价值 ...

  4. 持续创新服务标准,乐有家“六诺六保”备受推崇

    深圳2018年10月15日电 /美通社/ -- 为提升客户置业体验,防范客户购房风险,革新行业风气,乐有家于2018年8月服务升级,在全国150余城同步推行"六大顺心承诺·六大安心保障&qu ...

  5. 云端研发新基建:Serverless与持续架构服务落地实践

    在<我心中的云时代原生开发环境>这篇文章中,我们探讨过云厂商的愿景,云计算的趋势与现状以及研发团队的架构服务诉求等背景.今天,我想结合我们打造的云开发平台(Cloud Workbench) ...

  6. 服务改进还是先从自己改起吧

    项目结束了.悠闲的日子又回到身边,没有项目的日子我都觉得悠闲. 这段时间一直和ITIL的各个流程打交道.从来没有这么密集地在服务台.事件管理.问题管理.变更/发布管理和配置管理之间穿梭.虽然以前做IT ...

  7. 在gitee上部署静态html表白烟花页面,Gitee Go (持续集成)服务(保姆级图文+实现代码)【杂记】

    目录 实现效果 1. 首先把网站源码放到gitee上托管 2. 启动托管网页服务 3. 访问我们的静态网站 怎么快速部署你的网站 总结 『杂记』分享一些实用的技巧方法 安装环境,配置环境教程,推荐实用 ...

  8. 使用 NativeScript 的 Android 持续后台服务

    最近,我开始着手在 Android 上制作专门的语音助手.至少可以说我与 Java 关系密切,而且我还没有时间玩 Kotlin,NativeScript 似乎是显而易见的选择. 现在这是一项正在进行的 ...

  9. 代码diff服务改进方案

    背景 代码diff系统,是增量静态代码扫描,增量代码覆盖率,增量接口扫描等众多基础系统的依赖方,其稳定性和性能直接影响整个工作流.随着调用量的升高,尤其是转转增量代码统计率功能成为beetle流程中的 ...

最新文章

  1. 阿里云推出全球首个影像类应用一站式解决方案:智能云相册
  2. wordpress网站后台打开速度很慢解决方法?
  3. matlab中simple是什么函数,[求助]Matlab2016b里没有simple函数
  4. CSS选择器的声明与嵌套
  5. 动态新增元素的js无效的解决方法
  6. 使用.Net图表开发工具JDash.Net添加组件
  7. C++(STL):05---智能指针之unique_ptr
  8. Python CGI编程
  9. 阶段1 语言基础+高级_1-3-Java语言高级_07-网络编程_第3节 综合案例_文件上传_1_综合案例_文件上传的原理...
  10. 利用CSS3制作网页动画
  11. 视频教程-Visio应用视频教程(上)-Office/WPS
  12. 大数据Hadoop入门
  13. 磁盘配额超出 linux,Linux磁盘配额应用
  14. 不小心被拉进QQ诈骗群之后
  15. 计算机主机sn号怎么查看,笔记本序列号怎么看_笔记本电脑SN序列号的查看方法-win7之家...
  16. Vue项目中设置背景图片
  17. 仙人掌之歌——上线运营(1)
  18. 既然阻塞 I/O 会使线程休眠,为什么 Java 线程状态却是 RUNNABLE?
  19. 利用USB接口转串口芯片,做一个简单的闪光灯
  20. C# Serializable [转]

热门文章

  1. jdbc executebatch 非事务_jdbc技术
  2. 使用python读取kafka实时topic数据demo,包括安装kafka module
  3. java 获取mongodb的连接数
  4. 论文阅读笔记:《Contextual String Embeddings for Sequence Labeling》
  5. 专访京东副总裁翁志:全方位解读 CNCC 2018「数据开创商业新生态」技术论坛 | CNCC 2018...
  6. 双十一淘宝、京东服务器瘫痪大揭秘 感悟
  7. 2018腾讯内部转岗面试题2——打印A-Z 26个字母的所有子集
  8. Linux 命令(18)—— screen 命令
  9. 腾讯 2016 春季实习校招二面回忆(C++后台)
  10. H3C 模拟器 pc与sw直连 登录web