出品丨Docker公司(ID:docker-cn)
编译丨小东
每周一、三、五晚6点10分 与您不见不散!


在过去十年中,随着微服务和高度可扩展系统的普及,导致在网络上大量分布的应用程序的复杂性整体增加,从而使应用程序存在着许多迁移时产生的和一些潜在的故障模式。

这种架构的演变已经改变了监控的需求,这使得我们需要拥有更具扩展性和洞察力的工具和实践,在问题影响到业务和最终用户(内部或外部)之前,更好的帮助我们识别、调试和解决系统中的问题。

我在 DockerCon 2018 大会上分享了一个 Docker EE 中的重要功能,该功能可以使运营商更轻松地监控其容器平台环境。同时还为大家带来一些关键性指标和最佳实践,以便在故障发生前对问题进行分类和修复。


监控方法

最著名的早期监控技术之一是来自 Netflix 公司的 Brendan Gregg 的 USE 模型。USE 指的是对于全部资源我们应该监控其利用率(服务工作所花费的时间)、饱和度(资源的使用程度)以及错误(错误事件数)。该模型更多适用于以硬件/节点为中心的指标,但应对基于网络的应用程序就需要对该模型进行调整。

对于以网络为导向的云原生应用程序,其最流行的模型之一是 Google SRE 手册中提到的“4 Golden Signals”(延迟,流量,错误和饱和度)。这些监控方法在应用程序和平台级别上很有用,但仍然缺乏对复杂方案和故障进行分类所需的一些细节。


应用程序和平台的可观察性

可观察性比简单的指标更进一步,是衡量我们通过审查其产出来推断系统状态的方法。可观察性包括监控、记录(事件)、跟踪和警报,来构建系统状态的完整图像。为了使我们的应用程序“可观察”,对它们进行检测非常重要,这样我们就可以提取关键信息并对其进行分析。近年来,DataDog、Instana、Prometheus、Sumo Logic等公司在这一领域进行了工具复兴来满足这些领域对高级功能日益增长的需求。


Docker EE 的可观察性

Docker EE 内置了许多功能,可以更轻松地进行监控和度量标准指标。例如非常好用的运行状况检查、引擎指标和日志记录功能:

运行状况检查:运行状况检查功能内置于 Dockerfile 规范中,允许用户针对其应用程序进行编写监控检查。这些信息通过引擎和 Docker EE web 管理 UI 来报告。Docker EE 会自动安排运行状况检查失败的工作负载。

引擎指标:Docker EE 公开了一个端点,该端点发出 Prometheus 格式的指标数据,以便轻松集成到监控工具中。有数百个单独的指标可用,包括关于构建的数据、群体状态(用于检测领导者何时宕机、法定人数减少等)、守护程序事件(例如网络创建)等等。

日志记录:Docker EE 内置了对许多不同日志记录驱动程序的支持,包括使用元数据标记服务的功能,以便在将日志发送到聚合器后使查询更容易。


我们的实践经历

我们的基础设施团队在云计算平台上运行 Docker Hub&Store,并在该平台上看到令人难以置信的流量,每两周就会有超过10亿的镜像。下图是我们生产环境中的一些统计数据:

这一切都在 Docker EE 上运行,同时利用了上文提及的许多工具和技术。


您可以在这里看完整的演讲视频:

  • Docker 官方微信公众号入口:http://t.cn/RkZfNPY

服务器宕机不再愁!Docker 内置功能帮您解决相关推荐

  1. Nginx解决服务器宕机问题

    Nginx解决服务器宕机问题 参考文章: (1)Nginx解决服务器宕机问题 (2)https://www.cnblogs.com/danxun/p/12292225.html (3)https:// ...

  2. 服务器宕机 自动重启,服务器宕机重启利弊

    由于资源有限.操作不当.系统错误等多种原因,常会导致服务器宕机.并且大多服务器宕机状况的出现,唯快速有效的解决方法就是,重启服务器,那么服务器宕机重启利弊有哪些呢?下面就一起随佰佰安全网小编来了解一下 ...

  3. 服务器宕机是什么原因

    随着如今互联网,计算行业的快速发展,数据和信息安全的重要性也越发重要,选择一款稳定的服务器固然重要. 但再好的服务器也难免在使用过程中出现这样或那样的问题,其中服务器宕机就是最为常见的.那么,通常造成 ...

  4. linux服务器宕机分析/性能瓶颈分析

    linux服务器宕机分析/性能瓶颈分析 服务器宕机原因很多,资源不足.应用.硬件.系统内核bug等,以下一个小例子 服务器宕机了,首先得知道服务器宕机的时间点,然后分析日志查找原因 1.last re ...

  5. 游戏服务器宕机应对措施

    原文地址:服务器又宕机了,怎么办? 理想情况 对于一般的MMOG来说,玩家在进入游戏时会从数据库中将该玩家的所有相关数据读到内存,以便快速的进行游戏逻辑的处理,而在玩家下线时再将数据的改动存回数据库. ...

  6. 网站服务器宕机怎么办,服务器宕机了该怎么办?

    原标题:服务器宕机了该怎么办? 导读 如果Web服务器已经虚拟化,试着ping物理服务器自己的真实IP.这样可以帮助你进一步隔离问题.如果完全无法ping同服务器,而且也已经确定完全检查了网络连接,那 ...

  7. web网站服务器宕机应急,web服务器的宕机诊断方法

    宕机诊断方法编辑步骤1:发生了什么事 系统管理员必须肩负起分析和判断Web服务器宕机原因的责任.需要解决如下的问题: 是否是断电,发电机测试以及其他类似问题影响了整体物理环境? 和Web服务器的通信是 ...

  8. 保证服务器宕机业务不中断,备特佳CDP容灾备份系统——服务器端数据备份软件 - 和力记易--CDP容灾备份专家...

    软件介绍: 备特佳CDP容灾备份系统是和力记易自主研发适用于服务器端数据备份的CDP容灾备份软件,是一款主要面向Windows.Linux.Unix平台下集数据库备份.文件备份.操作系统备份于一体的C ...

  9. 网站服务器宕机,B站服务器宕机惊动上海消防,官微致歉

    7月13日晚间,"b站崩了"冲上微博热搜榜第三位.消息称,B站官网疑似出现服务器宕机事故,页面提示称"非常抱歉,该页面暂时无法访问". 7月14日凌晨2点,哔哩 ...

最新文章

  1. apue.h头文件(UNIX环境高级编程)
  2. Delphi编写事件模型客户端(2)
  3. python 人脸轮廓提取_实现人脸识别、人脸68个特征点提取,或许这个 Python 库能帮到你!...
  4. Linux 命令之 rpmbuild -- 用于创建 rpm 格式的二进制软件包和源码软件包
  5. LeetCode 2130. 链表最大孪生和(链表快慢指针+反转链表+双指针)
  6. java注释修改_java – 使用注释修改方法
  7. Python MD5
  8. eclipse断点不能下一步_大盘下一步这样走,不能错过
  9. KITTI数据集详解
  10. 大疆livox雷达调试
  11. 如何将数据转换为时间序列数据
  12. Rayman的绝顶之路——Leetcode每日一题打卡17
  13. 深度学习论文翻译解析(二十):YOLOv4: Optimal Speed and Accuracy of Object Detection
  14. 百度地图集成骑行导航和驾车导航
  15. 解决 ‘@‘ that cannot start any token. (Do not use @ for indentation)
  16. ORA-12805: parallel query server died unexpectedly ORA-04030 (sort subheap,sort key) 原因排查与解决方法
  17. 【css】纯css实现table表格固定表头,表内容滚动
  18. 数字芯片有哪些,以及它们的功能是什么?
  19. 端到端的图像压缩----《Variational Image Compression With A Scale Hyperprior》论文笔记
  20. 01_Dive_into_python (reading note)

热门文章

  1. php 开启coredump,GDB分析PHP连接Memcached 导致coredump问题
  2. python中metaclass的理解
  3. layer php弹出层,layer官方演示与讲解(jQuery弹出层插件)
  4. python中int用法,Python中int()函数的用法浅析
  5. 监督学习和无监督学习_一篇文章区分监督学习、无监督学习和强化学习
  6. Ubuntu 更改 默认的Python版本
  7. 【POJ2774】Long Long Message,第一次的后缀数组
  8. think php 3.3.3看云,入口文件 · ThinkPHP3.2.3完全开发手册 · 看云
  9. linux 物理内存不知道怎么占用,Linux系统下如何查看物理内存占用率
  10. oracle查询相同想,返回相同总和的查询-Oracle SQL