JAVA开发运维(云基础设备监控)
在大型的商用系统中,经常需要监控云设备的健康状态,性能情况,流量数据等。及时发现系统问题,及时修复,以确保系统的高可用。检查云资源的工作内容主要包括基础监控、主动拨测、用户体验、APM监控、指标体系、业务分析、智能警告 等。
一、基础监控
主机监控 提供操作系统的CPU、内存、磁盘、文件系统、网络的监控;同时提供进程级的监控;支持容器和进程的纵向调用,支持进程和组件的关联分析。
组件监控 支持Nginx、Apache、Redis、RabbitMQ、ActiveMQ、Zookeeper、Kafka、MySQL、Oracle、PostgreSQL、SQLServer、MongoDB、Elasticsearch等组件的指标监控,同时关联进程、主机、容器、APM提供纵向关联分析。
容器监控 支持Docker、Kubernetes的监控,自动发现容器进程,监控容器的CPU、内存、磁盘、网络;自动发现容器下运行的关键进程并与之关联,快速查看进程和容器的调用关系。
内网监控 从外部对应用或主机提供服务监控,支持ICMP监控、TCP监控、HTTP(s)监控。帮助用户监测局域网内网络的联通性和延迟。
二、主动拨测
拨测从用户视角,依托全球高质量布点网络,模拟用户的访问路径与习惯,能够让企业了解自身用户,无论何时何地,使用何种设备,能否顺畅进行访问,实时掌握用户体验,确保企业的数字化业务平稳运营。
移动应用拨测是基于自研自动化测试引擎和独一无二部署技术,模拟用户操作将核心业务流程脚本化并持续运行在生产环境中,实时采集业务性能数据,自动进行汇总分析的全方位自动化平台。能够让企业了解自身业务在用户视角下的实际情况:何时何地、使用何种设备、能否顺畅进行访问,实时掌握用户体验,确保企业的数字化业务平稳运营。
三、用户体验
采用SDK方式实现对App的崩溃、卡顿、超时等性能问题进行采集,并能对真实用户体验进行量化,实现版本迭代过程中的用户体验优化。
提供Web前端性能的监控与分析,量化前端用户体验指标,采集网页JS错误及网络请求错误,快速定位Web前端的性能问题,辅助进行Web前端性能优化。
提供对微信小程序、支付宝小程序的性能监控能力,并能够对小程序接口及小程序访问路径进行追踪,帮助开发人员有效进行小程序性能优化。
四、APM监控
全栈拓扑
自动发现业务系统之间、应用与业务系统之间、应用与服务组件之间的关联关系。通过拓扑可快速梳理业务调用逻辑,快速发现与定位问题。
业务接口分析
对业务系统中完成某一业务操作的动作事件进行相关事务级别的监控与分析,这也是应用性能管理的最小监控单元,帮助用户细粒度定位问题。
代码级别定位
针对某事务实例,对其进行代码级别的堆栈分析,精确定位到某一行业务逻辑代码,观察其因为什么报错或是由于什么原因导致执行缓慢,帮助研发和运维人员快速定位问题。
异常分析
统计当前系统内所有应用错误、代码异常、数据库错误类型等,对业务的影响分析,包括影响的用户数、影响的业务指标等,帮助研发、运维、业务人员分析系统性能影响范围。
故障主动预警
支持多维度、灵活的配置预警策略,提供7*24小时主动预警能力,主动运维,VIP用户保障,第一时间发现性能问题,降低异常时长,减少运维人力投入
五、指标体系
指标管理可以接入自有系列产品监控的指标,以及诸如Zabbix、Prometheus等多个数据源、多种协议的外部指标数据,贯穿业务到IT系统的全方位立体化可观测能力。
重要指标:
业务层
通用指标:业务可用性、业务错误数、完成业务数、报错业务数、活跃用户数、错误影响用户数、业务流可用性、完成业务流、报错业务流、在途业务流、活跃用户数、错误影响用户数、平均执行周期、操作可用性、操作成功次数、操作失败次数、同比环比 自定义指标:交易金额、订单总数、top10商家销售排名、top10热销商品等。
用户层
重要指标: 可用性:崩溃、卡顿、请求错误、操作可用性 网络性能:响应时间、网络时间、 用户体验性能:应用启动时间、页面可交互时间、页面首屏时间、操作时间。
网络层
重要指标: 页面监控:首屏时间、总下载时间、DNS时间、建连时间、首包时间、可用性等 文件监控:平均下载速度、DNS时间、建连时间、首包时间 Ping监测:延迟、丢包 事务:总下载时间、可用性、总下载字节数。
应用层
重要指标: 追踪:响应时间、执行时间、独占时间、投影时间、数据库响应时间 服务组件-数据库:吞吐率、响应时间、调用次数、异常次数、追踪次数 连接池:最大连接数、初始连接数、最小连接数、最大连接数、连接数使用率、连接数空闲率、平均连接时间 实例:吞吐率、响应时间、错误率、堆内存使用、非堆内存使用、GC time、GC count、线程数 应用:吞吐率、响应时间、错误率、错误数。
基础组件层
重要指标: 数据库:QPS、TPS、连接数、打开文件数、表容量、表行数、主从延迟、主从同步状态、SGA、PGA、表空间等 进程:CPU使用率、内存使用量、磁盘吞吐、网络吞吐,打开文件数、进程数等 容器:CPU使用率、内存使用量、磁盘吞吐、网络吞吐 主机:CPU使用率、内存使用率、磁盘分区使用率、磁盘读写吞吐量、磁盘读写IOPS、磁盘读写延迟、磁盘IOutil、网络吞吐率,网络错误等 网络或安全设备:CPU、内存、风扇、温度、电源等。
六、业务分析
七、智能告警
JAVA开发运维(云基础设备监控)相关推荐
- JAVA开发运维(扁鹊见齐桓公之系统运维之痛)
引言: 扁鹊见蔡桓公,立有间,扁鹊曰:"君有疾在腠理,不治将恐深."桓侯曰:"寡人无疾."扁鹊出,桓侯曰:"医之好治不病以为功!" 居十日, ...
- JAVA开发运维(DevOps过程)
DevOps开发运维的一套方法论.这边文章主要借鉴万达的DevOps的建设过程.谈谈DevOps主要解决那些问题和怎么解决. DevOps的是一种IT项目开发管理方法论,它旨在提供全面的持续集成.持续 ...
- JAVA开发运维(CI/CD)
CI :持续性集成 CD:持续性部署 SIT:系统集成测试 UAT:用户验收测试 研发流程的变化,因为用户永远一开始不知道自己想要什么样的东西,导致了软件无法从一而终的进行设计,用户需要能立刻运行的软 ...
- JAVA开发运维(基于腾讯云的运维资源)
序号 资源 描述 1 ECS服务器 前端服务器 2 前端服务器 3 前端服务器 4 后端服务器 5 后端服务器 6 后端服务器 7 redis 数据库,缓存 8 mysql 数据库 9 clb 数据库 ...
- JAVA开发运维(关于渗透测试与漏洞修复)
对于C端的网站,H5,小程序或者app都需要进行渗透测试. 渗透测试是模拟真实黑客的攻击手段,对目标网站或主机进行全面的安全评估. 与黑客攻击不同,渗透测试的目的是尽可能多地发现安全漏洞,而真正的黑客 ...
- JAVA开发运维(nginx工作原理)
nginx源码目录结构: . ├── auto 自动检测系统环境以及编译相关的脚本 │ ├── cc 关于编译器相关的编译选项的检测脚本 │ ├── lib nginx编译所需要的一些库的检测脚本 │ ...
- JAVA开发运维(Jenkins中踩的坑)
最近尝试通过Jenkins来自动化部署项目,没想到还踩了很多坑.Jenkins部署的基本原理: 通过Jenkins服务器拉取gitlab上的代码进行打包,推送到目标服务器上,并运行启动脚本. 那么Je ...
- Terraform实战 | 实用云部署编程入门指南,DevOps软件开发运维必备
Terraform是一种部署技术,任何想要通过基础设施即代码(Infrastructure as Code,IaC)方法来置备和管理基础设施的人,都可以使用这种技术.基础设施指的主要是基于云的基础设施 ...
- 为什么数据科学家需要承担开发运维的工作?
作者 | Caleb Kaiser 译者 | 弯月,责编 | 夕颜 头图 | CSDN下载自视觉中国 出品 | CSDN(ID:CSDNnews) 以下为译文: 如果你需要创建一个生产环境下的机器学习 ...
最新文章
- 编程软件python下载-Thonny(Python编程工具) v3.2.7 官方版
- css知多少(1)——我来问你来答(转)
- Freemarker循环遍历
- 在数组里查找这样的数,它大于等于左侧所有数,小于等于右侧所有数
- 转:upload.parseRequest为空
- python中的元组操作
- U盘拒绝访问怎么办 快速方法解决U盘问题
- BZOJ1423 : Optimus Prime
- qcow2磁盘格式分析
- 《Go 语言程序设计》读书笔记 (三) 方法
- Red Hat 6.5 版本虚拟机安装
- #python练习实例0:制作1-100随机抽取3个数字排队列
- 将PICTUREBOX中显示的图片,存入数据库中
- Linux注册服务(chkconfig)
- 机器学习十大算法的核心思想、工作原理、适用 情况及优缺点
- BZOJ1079[SCOI2008] 着色方案
- 视觉+机械手-delta并联机械手
- MAC直接的剪切快捷键
- 五险一金 社保基数 住房公积金基数以及个税(By FlyElephant)
- 重视论文降重,应对论文查重