小编推荐:一个小小的语法转译也会造成严重的内存泄漏问题,今天就和大家探讨下Node.js服务内存泄漏的排查,深入排查总会有意想不到的收获!

背景

团队最近将两个项目迁移至 degg 2.0 中,两个项目均出现比较严重的内存泄漏问题,此处以本人维护的埋点服务为例进行排查。服务上线后内存增长如下图,其中红框为 degg 2.0 线上运行的时间窗口,在短短 36 小时内,内存已经增长到 50%,而平时内存稳定在 20%-30%,可知十之八九出现了内存泄漏。


排查思路

由于两个接入 degg 2.0 的服务均出现内存泄漏问题,因此初步将排查范围锁定在 degg 2.0引入或重写的基础组件上,重点怀疑对象为 nodex-logger 组件;同时为了排查内存泄漏,我们需要获取服务运行进程的堆快照(heapsnapshot),获取方式可参看文章 hyj1991:Node 案发现场揭秘 —— 快速定位线上内存泄漏https://zhuanlan.zhihu.com/p/36340263 。

排查过程

一、获取堆快照

使用 alinode 获取堆快照,服务启动后,使用小流量预热一两分钟便记录第1份堆快照(2020-4-16-16:52),接着设置 qps 为 125 对服务进行施压,经过大约一个小时(2020-4-16-15:46)获取第2份堆快照。使用 Chrome dev工具载入两份堆快照,如下图所示,发现服务仅短短运行一小时,其堆快照文件就增大了 45MB,而初始大小也不过 39.7MB;我们按 Retained Size 列进行排序,很快就发现了一个『嫌疑犯』,即 generator;该项占用了 55% 的大小,同时 Shallow Size 却为 0%,一项一项地展开,锁定到了图中高亮的这行,但是继续展开却提示 0%,线索突然断了。


盯着 generator 进入思考,我的服务代码并没有generator 语法,为什么会出现 generator 对象的内存泄漏呢?此时我把注意力转到 node_modules 目录中,由于最近一直在优化 nodex-kafka 组件,有时直接在 node_modules 目录中修改该组件的代码进行调试,因此几乎每个文件头部都有的一段代码引起了我的注意:

"use strict";var __awaiter = (this && this.__awaiter) || function (thisArg, _arguments, P, generator) {    function adopt(value) { return value instanceof P ? value : new P(function (resolve) { resolve(value); }); }    return new (P || (P = Promise))(function (resolve, reject) {        function fulfilled(value) { try { step(generator.next(value)); } catch (e) { reject(e); } }        function rejected(value) { try { step(generator["throw"](value)); } catch (e) { reject(e); } }        function step(result) { result.done ? resolve(result.value) : adopt(result.value).then(fulfilled, rejected); }        step((generator = generator.apply(thisArg, _arguments || [])).next());    });};

这个代码是 typescript 源码编译后的产出,由于代码使用了 async/await 语法,因此都编译成 __awaiter 的形式,在源码中使用 async 函数的地方,在编译后都使用 __awaiter 进行包裹:

// 编译前(async function() {  await Promise.resolve(1);  await Promise.resolve(2);})()

// 编译后(function () {  return __awaiter(this, void 0, void 0, function* () {    yield Promise.resolve(1);    yield Promise.resolve(2);  });})();

同时一个关于 generator 内存泄漏的 #30753 generator functions - memory leak https://github.com/nodejs/node/issues/30753 也引起了我的注意,该 issue 遇到的问题无论从 Node.js 的版本和内存泄漏的表现都和我遇到的问题十分相似。所以我在工程的 node_modules 中搜索所有 __awaiter 字符串,发现了 3 个模块编译出了上述代码,分别是:

  1. nodex-logger
  2. nodex-kafka
  3. nodex-apollo

由于模块的 tsconfig.json 的 target 字段将目标产出为es6,因此才会使用 generator 去模拟 async/await 语法,但是从 Node.js v8.10.0 开始已经 100% 支持了 ES2017 的所有特性,所以本不该编译 async/await 语法,此处遂将这 3 个模块的目标产出配置改为 es2017,这样 tsc 就不会编译 async/await 语法。

二、验证

重复之前获取堆快照的步骤,惊奇地发现即使过了一天,内存也没有增长,而且 generator 也没有持有未释放的内存:

至此,内存泄漏问题已经解决!那么如何避免遇到这个问题呢?

如何避免

一、解决步骤

步骤一

该问题仅在特定的 Node.js 版本中存在,请使用版本区间 (v11.0.0 - v12.16.0) 之外的 Node.js,从而防止二方 npm 组件、三方 npm 组件的 generator 语法使你的服务出问题

步骤二将自己的 typescript 的目标环境(target)编译为 es2017 及以上,同时应尽量使用 async/await 语法而不是 generator 语法,从而防止别人使用 (v11.0.0 - v12.16.0) 版本时,引入你的 npm 组件而导致内存泄漏

二、详细说明

前文说了从 Node.js v8.10.0 开始就已经支持了 async/await 语法,经查该版本于 2018-03-06 发布,由于所有服务也不可能一下全切换到新版本,因此为了兼容 Node.js v6 版本的环境,需要将代码编译到 es6。但是站在现在这个 LTS 版本已经是 v12 的时间节点,完全可以排查现有使用 typescript 的 npm 组件是否都编译到 es2017,甚至探讨编译到 es2019 的可能。

此外这个内存泄漏问题是从哪个版本开始有的,现在是否解决了呢?编写可验证的内存泄漏的代码如下:

// no-leak.jsconst heapdump = require('heapdump')

class Async {  async run() {      return null;  }}const run = async () => {  for (let index = 0; index 10000000; index++) {      if (index % 1000000 === 0)          console.log(Math.floor(process.memoryUsage().heapUsed / 10000), index);      const doer = new Async();      await doer.run();  }  heapdump.writeSnapshot((err, filename) => {    console.log("Heap dump written to", filename);  });};run();// leak.js 由 no-leak.js 编译得来var __awaiter = (this && this.__awaiter) || function (thisArg, _arguments, P, generator) {    function adopt(value) { return value instanceof P ? value : new P(function (resolve) { resolve(value); }); }    return new (P || (P = Promise))(function (resolve, reject) {        function fulfilled(value) { try { step(generator.next(value)); } catch (e) { reject(e); } }        function rejected(value) { try { step(generator["throw"](value)); } catch (e) { reject(e); } }        function step(result) { result.done ? resolve(result.value) : adopt(result.value).then(fulfilled, rejected); }        step((generator = generator.apply(thisArg, _arguments || [])).next());    });};class Async {    run() {        return __awaiter(this, void 0, void 0, function* () {            return null;        });    }}const run = () => __awaiter(this, void 0, void 0, function* () {    const now = Date.now();    console.log('循环总次数: ', 10000000);     for (let index = 0; index 10000000; index++) {        if (index % 1000000 === 0) {            console.log('第 %d 次循环,此时内存为 %d', index, Math.floor(process.memoryUsage().heapUsed / 1000000));        }        const instance = new Async();        yield instance.run();    }    console.log('总耗时: %d 秒', (Date.now() - now) / 1000);});run();

经过二分排查,发现该泄漏问题从 v11.0.0 引入,在 v12.16.0 解决;内存泄漏版本执行脚本时,内存占用逐步递增直到 crash,而未泄漏版本则会及时回收内存。


根本原因

根本原因是 v8 的一个 bug,相关链接:

v8 issue: https://bugs.chromium.org/p/v8/issues/detail?id=10031

v8 commit: https://chromium.googlesource.com/v8/v8.git/+/d3a1a5b6c4916f22e076e3349ed3619bfb014f29

node issue: https://github.com/nodejs/node/issues/30753

node commit: https://github.com/nodejs/node/pull/31005/files

改进后的代码,在分配新增WeakArrayList 数组时,即使返回没有空闲数组的标记( kNoEmptySlotsMarker ),仍需要调用 ScanForEmptySlots 方法重新扫描一次数组,因为该数组元素有可能有被 GC 回收,这些被回收的元素是可以重复使用的;仅当返回 kNoEmptySlotsMarker 且数组中没有被 GC 回收的元素,才真正执行新增逻辑:

// https://github.com/targos/node/blob/cceb2a87295724b7aa843363460ffcd10cda05b5/deps/v8/src/objects/objects.cc#L4042// staticHandle PrototypeUsers::Add(Isolate* isolate,                                          Handle array,                                          Handle<Map> value,                                          int* assigned_index) {  int length = array->length();if (length == 0) {// Uninitialized WeakArrayList; need to initialize empty_slot_index.    array = WeakArrayList::EnsureSpace(isolate, array, kFirstIndex + 1);    set_empty_slot_index(*array, kNoEmptySlotsMarker);    array->Set(kFirstIndex, HeapObjectReference::Weak(*value));    array->set_length(kFirstIndex + 1);if (assigned_index != nullptr) *assigned_index = kFirstIndex;return array;  }// If the array has unfilled space at the end, use it.if (!array->IsFull()) {    array->Set(length, HeapObjectReference::Weak(*value));    array->set_length(length + 1);if (assigned_index != nullptr) *assigned_index = length;return array;  }// If there are empty slots, use one of them.  int empty_slot = Smi::ToInt(empty_slot_index(*array));if (empty_slot == kNoEmptySlotsMarker) {// GCs might have cleared some references, rescan the array for empty slots.    PrototypeUsers::ScanForEmptySlots(*array);    empty_slot = Smi::ToInt(empty_slot_index(*array));  }if (empty_slot != kNoEmptySlotsMarker) {    DCHECK_GE(empty_slot, kFirstIndex);    CHECK_LT(empty_slot, array->length());    int next_empty_slot = array->Get(empty_slot).ToSmi().value();    array->Set(empty_slot, HeapObjectReference::Weak(*value));if (assigned_index != nullptr) *assigned_index = empty_slot;    set_empty_slot_index(*array, next_empty_slot);return array;  } else {    DCHECK_EQ(empty_slot, kNoEmptySlotsMarker);  }// Array full and no empty slots. Grow the array.  array = WeakArrayList::EnsureSpace(isolate, array, length + 1);  array->Set(length, HeapObjectReference::Weak(*value));  array->set_length(length + 1);if (assigned_index != nullptr) *assigned_index = length;return array;}// staticvoid PrototypeUsers::ScanForEmptySlots(WeakArrayList array) {for (int i = kFirstIndex; i     if (array.Get(i)->IsCleared()) {PrototypeUsers::MarkSlotEmpty(array, i);    }  }}

不止内存泄漏

在我测试内存泄漏时,有一个发现,执行发生内存泄漏时的代码(前文的 leak.js)和未发生内存泄漏时的代码(前文的 no-leak.js)时,即使在已经修复该问题的 Node.js v12.16.2 版本下,generator 语法仍然有两个问题:

  1. 内存回收效率低,导致执行完后,仍有相当大的内存占用;
  2. 执行效率非常慢,async/await 版本仅需要 0.953 秒,而generator 却需要 17.754 秒;

这说明,相比 generator 语法,async/await 语法无论从执行效率还是内存占用方面都有压倒性优势。那么执行效率对比如何呢?上 benchmark 工具比划比划:

// benchmark.jsconst __awaiter = (this && this.__awaiter) || function (thisArg, _arguments, P, generator) {  function adopt(value) { return value instanceof P ? value : new P(function (resolve) { resolve(value); }); }  return new (P || (P = Promise))(function (resolve, reject) {      function fulfilled(value) { try { step(generator.next(value)); } catch (e) { reject(e); } }      function rejected(value) { try { step(generator["throw"](value)); } catch (e) { reject(e); } }      function step(result) { result.done ? resolve(result.value) : adopt(result.value).then(fulfilled, rejected); }      step((generator = generator.apply(thisArg, _arguments || [])).next());  });};

const Benchmark = require('benchmark');const suite = new Benchmark.Suite;

suite  .add('generator', {    defer: true,    fn: function (deferred) {      (function () {        return __awaiter(this, void 0, void 0, function* () {            yield Promise.resolve(1);            yield Promise.resolve(2);            // 测试完成            deferred.resolve();        });      })();    }  })   .add('async/await', {    defer: true,    fn: function(deferred) {      (async function() {        await Promise.resolve(1);        await Promise.resolve(2);

        // 测试完成        deferred.resolve();      })()    }  })  .on('cycle', function(event) {    console.log(String(event.target));  })  .run({    'async': false  });

Node.js v12.16.2 的结果:

generator x 443,891 ops/sec ±4.12% (75 runs sampled)async/await x 4,567,163 ops/sec ±1.96% (79 runs sampled)

generator 每秒执行了 516,178 次操作,而 async/await 每秒执行了 4,531,357 次操作,后者是前者的 10 倍多!我们看看其它 Node.js 版本表现如何:

电脑配置:MacBook Pro (13-inch, 2017, Two Thunderbolt 3 ports)


二者执行效率和 Node.js 版本成正比,而 Node.js v12 来了一次大跃进,直接高了一个数量级,这个得益于 v8 7.2 的一个新特性,官网用了整整一篇文章 https://v8.dev/blog/fast-async#await-under-the-hood 说明,有兴趣的可以看看。

Chrome 也中招了吗?

目前最新版:版本 81.0.4044.113(正式版本)(64 位) 已经修复这个问题

既然是 v8 的问题,那么 chrome 浏览器也是有这个问题的,打开空白标签页,执行前文给出的 leak.js 代码:

推广时间

我叫林乐扬,点击阅读我的更多文章,觉得有收获记得打开原文链接给我点个赞,或者关注我哦~

本文作者@林乐扬 | 原文@https://zhuanlan.zhihu.com/p/252689936

kubectl 获取不到node_排查 Node.js 服务内存泄漏,没想到竟是它?相关推荐

  1. 排查 Node.js 服务内存泄漏,没想到竟是它?

    背景 团队最近将两个项目迁移至 degg 2.0 中,两个项目均出现比较严重的内存泄漏问题,此处以本人维护的埋点服务为例进行排查.服务上线后内存增长如下图,其中红框为 degg 2.0 线上运行的时间 ...

  2. 基于 Egg.js 框架的 Node.js 服务构建之用户管理设计

    转载需经本人同意且标注本文原始地址:https://zhaomenghuan.github.io/blog/nodejs-eggjs-usersytem.html 前言 近来公司需要构建一套 EMM( ...

  3. NGINX配置基于Node.js服务的负载均衡服务器

    NGINX配置基于Node.js服务的负载均衡服务器 本部署指南说明了如何使用NGINX开源和NGINX Plus在Node.js应用程序服务器池之间平衡HTTP和HTTPS通信.本指南中的详细说明适 ...

  4. node.js服务端笔记文档学会写接口,学习分类:path、包、模块化、fs、express、中间件、jwt、开发模式、cors。

    node.js 学习笔记 node.js服务端笔记文档学会写接口,path.包.模块化.fs.express.中间件.JWT.开发模式.cors. gitee:代码接口笔记 1什么是node.js n ...

  5. 基于 Egg.js 框架的 Node.js 服务构建之用户管理设计 1

    前言 近来公司需要构建一套 EMM(Enterprise Mobility Management)的管理平台,就这种面向企业的应用管理本身需要考虑的需求是十分复杂的,技术层面管理端和服务端构建是架构核 ...

  6. rds基于什么开发_为什么不学基于TypeScript的Node.js服务端开发?

    为什么不学?学不动了吗?!别躺下啊,我扶你起来! 我们早就知道,如今的JavaScript已经不再是当初那个在浏览器网页中写写简单的表单验证.没事弹个alert框吓吓人的龙套角色了.借助基于v8引擎的 ...

  7. 实践案例丨教你一键构建部署发布前端和Node.js服务

    如何使用华为云服务一键构建部署发布前端和Node.js服务 构建部署,一直是一个很繁琐的过程 作为开发,最害怕遇到版本发布,特别是前.后端一起上线发布,项目又特别多的时候. 例如你有10个项目,前后端 ...

  8. 腾讯视频Node.js服务是如何支撑国庆阅兵直播高并发的?

    导语 | 上个月,我有幸参与了腾讯视频国庆阅兵直播页面开发的相关工作,最终,累计观看2.38亿人次,经受住了高并发的考验.在参于Glama框架的开发维护及平时基础建设相关讨论实践中,对高并发有一些部分 ...

  9. 腾讯视频 Node.js 服务是如何支撑国庆阅兵直播高并发的?

    导语 | 上个月,我有幸参与了腾讯视频国庆阅兵直播页面开发的相关工作,最终,累计观看2.38亿人次,经受住了高并发的考验.在参于Glama框架的开发维护及平时基础建设相关讨论实践中,对高并发有一些部分 ...

  10. 服务器项目混淆,压缩和混淆node.js服务端代码

    压缩和混淆node.js服务端代码 在前端我们有webpack,gulp等构建工具提供了从项目结构搭建到部署打包,基本所有工作流程所需要的都被覆盖到了. 在后台node.js写的服务端却是透明,很多时 ...

最新文章

  1. Android应用程序安全改进:回顾2016年
  2. 数据库的网站基础运用
  3. redisTemplate获得key的过期时间方法
  4. 利用jQuery实现的Ajax 验证用户名是否存在
  5. java同步锁synchronized_synchronized、锁、多线程同步的原理是咋样的?
  6. 中国中医科学院大学落户苏州吴中区
  7. SAP MM模块-实施顾问岗位-面试手册-面试总结
  8. 这个技能,让可视化大屏开挂一样的秀!
  9. 5G时代已到,还有哪些值得关心的安全问题?
  10. 关于建立内部会议讨论规范的想法
  11. python画图设置字体_python Matplotlib画图之调整字体大小的示例
  12. 微信小程序从入门到放弃(五)
  13. 最新综述!NLP中的Transformer预训练模型
  14. fsf大流行政治天网抗议监视
  15. 手把手和你用原生JS写一个循环播放图片轮播
  16. qtp:vbs基础教程
  17. 浏览器的input禁用输入法
  18. RGB颜色对照表(全)
  19. 使用C语言链表实现商品管理系统
  20. 为powerpc编译mtd-utils工具

热门文章

  1. SQL转换时间的时分
  2. 获取客户端访问的ip地址
  3. LBP及纹理表达 转自http://blog.sina.com.cn/s/blog_ba9d7d9901018k4v.html
  4. Android -----paint cap join 理解 ,paint画笔形状设置
  5. 如何判断单链表里面是否有环【转载】
  6. 2020-12-07
  7. 20191110每日一句
  8. 传智播客 C/C++学习笔记 内存四区模型
  9. 深度学习资料整理(深度神经网络理解)
  10. Atitit 技术经理 技术总裁 cto 技术总监 职责与流程表总结 v4 t88.docx Atitit 技术总裁 cto 技术总监 技术经理职责与流程表总结 1. 人事财物 文化精神