案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现

文 / 腾讯 IEG 图灵实验室张力柯王建东

针对现实生产环境中具有大量 CPU 资源而 GPU 奇缺的现状，并出于充分利用现有 Kubernetes 的目的，我们基于 Uber 的 Horovod 实现了分布式训练框架，并且可以部署在内部 Kubernetes 平台上，通过 CPU scale 来实现机器学习模型训练，达到在 GPU 不足的情况下，通过 CPU scale 来实现模型训练，降低模型训练时间和提高算法同学模型验证效率的目标。

本文我们将主要介绍一下整体架构设计，YOLO3 的分布式算法实现过程和单机版结果对比。同时，感谢腾讯互娱 Turing Lab 全体同学在研发期间各自付出的努力。

序

最近，YOLOv3 的创始人突然宣布停止 YOLO 相关开发，但 YOLO 作为目前最经典的快速目标检测算法，仍然是各种工业应用产品中的首选。在我们的自动化检测服务中，对 UI、游戏内目标及视频内容的识别，大多是基于 YOLO 模型实现，在魂斗罗游戏中目标的识别应用如下图：

图 1 魂斗罗游戏中识别角色

YOLO 的实现，目前大多是基于原生 Darknet 的 C 语言版本 (https://pjreddie.com/darknet/)。该实现在单机环境下相当高效，无论是 training 还是 inference 都能完全满足实时监测的需求。然而其问题在于，当我们想提供目标检测的在线服务时，基于 darknet 的原生模型就失去了在线 serving 的环境，是无法直接部署为在线服务使用的。因此如果要将 YOLO 作为大规模在线服务部署，其实现方案就必须另行设计。我们希望采用通用的业界机器学习框架，同时对于产品级别的机器学习模型训练，如何实现分布式训练是必须考虑的。

架构设计

对业界分布式训练框架调研后，我们打算搭建一个基于 yolo3 分布式训练框架，主要是要结合我们的技术架构和基础设施来实现，同时，我们还希望满足以下几个需求：

基于业界标准开源方案如 Keras/TensorFlow
能够支持 CPU 训练，而不是必须 GPU 支持
能够支持数据并行的分布式训练
能够转换为 TensorFlow Serving 所支持模型

基于上面目标，在多种方案比较后，我们选择了 Kubernetes + Horovod + Keras + Tensorflow Serving 的实现，其整体流程如下：

图 2 基于 Horovod CPU 平台的分布式模型训练及部署

上图简单描述了利用 Kubernetes 和 Horovod 搭建分布式训练平台的流程，其中对最终模型的转换及利用 TensorFlow Serving 进行部署的流程在这里就不做详述。我们的重点主要是两个问题：

如何搭建分布式的 Horovod CPU 训练平台
以 YOLOv3 为例，如何修改代码，在 Keras 中实现模型训练的数据并行

YOLOv3 分布式算法实现和验证

1. 基于 Horovod CPU 环境的分布式训练平台

环境搭建：Kubernetes + Horovod

我们基于公司内部 Kubernetes 平台的扩容机制来实现分布式训练，这样我们可以充分利用 Kubernetes 对 CPU 核的灵活调度机制。

1.1 基础通用镜像

步骤：安装openmpi --> 安装python3.5 --> 安装tensorflow --> 安装 Horovod --> 安装keras框架

下面是 docker 构建镜像代码：

RUN mkdir /tmp/openmpi && \cd /tmp/openmpi && \wget https://www.open-mpi.org/software/ompi/v4.0/downloads/openmpi-4.0.0.tar.gz && \tar zxf openmpi-4.0.0.tar.gz && \cd openmpi-4.0.0 && \./configure --enable-orterun-prefix-by-default && \make -j $(nproc) all && \make install && \ldconfig && \rm -rf /tmp/openmpi#python3
#RUN apt-get install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-deve
RUN wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tgz
RUN tar -zxvf Python-3.5.1.tgz
RUN mv Python-3.5.1 /usr/local/
RUN cd /usr/local/Python-3.5.1 && \./configure && \make && \make install &&\mv /usr/bin/python /usr/bin/python.2 && \ln -sf /usr/local/bin/python3 /usr/bin/python#python3-pip
RUN curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py && \python get-pip.py && \rm -rf get-pip.py && \pip3  install --upgrade pipRUN pip3 install tensorflow==1.4.0#numpy setup
RUN pip3 uninstall numpy -y && \pip3 install numpy==1.16.4 &&\pip3 install tensorflow#horovod setup
RUN pip3 install --no-cache-dir horovod#keras setup
RUN pip3 install keras==2.1.5

1.2 docker 的 ssh 交互

为了后期启动分布式 Horovod 程序，需要多个 docker 之间可以 ssh 相互登录，为了满足这个需求，我们在基础镜像中放入一个通用的 ssh 的公钥，每次启动服务自启动 ssh 服务，就可以相互登录，完成对多机的操作控制。

# Install OpenSSH for MPI to communicate between containers
RUN apt update
RUN apt-get install -y --no-install-recommends openssh-client openssh-server && \mkdir -p /var/run/sshd# Allow OpenSSH to talk to containers without asking for confirmation
RUN cat /etc/ssh/ssh_config | grep -v StrictHostKeyChecking > /etc/ssh/ssh_config.new && \echo "    StrictHostKeyChecking no" >> /etc/ssh/ssh_config.new && \mv /etc/ssh/ssh_config.new /etc/ssh/ssh_config

2. YOLOv3 的分布式实现

YOLOv3 基于 Keras (及部分 TensorFlow) 的实现可参考Github (https://github.com/qqwweee/keras-yolo3)，我们在这里重点对如何对其进行分布式实现进行讨论。

2.1 数据并行加载

这里用到了 Keras 的 fit_generator 函数来实现分布式加载，并且定义了自己的 data 生成器，代码如下：

class DataGenSequence(keras.utils.Sequence):def __init__(self, annotation_list, batch_size, input_size, step_num, anchors, num_classes):self.annotation_list = annotation_listself.item_num = len(self.annotation_list)self.batch_size = batch_sizeself.input_size = input_sizeself.step_num = step_numself.anchors = anchorsself.num_classes = num_classesdef __len__(self):return self.step_numdef on_epoch_end(self):np.random.shuffle(self.annotation_list)def __getitem__(self, idx):img_data = []box_data = []for i in range(idx * self.batch_size, (idx + 1) * self.batch_size):ith = i % self.item_numimg, box = utils.get_random_data(self.annotation_list[ith], self.input_size, random=True)img_data.append(img)box_data.append(box)img_data = np.array(img_data)box_data = np.array(box_data)y_true = yolomodel.preprocess_true_boxes(box_data, self.input_size, self.anchors, self.num_classes)return [img_data] + y_true, np.zeros(self.batch_size)

训练样本集和验证集如下：

data_gen_train = datagen_sequence.DataGenSequence(annotation_list=train_list,batch_size=self.__batch_size,input_size=self.__input_size,step_num=train_steps,anchors=self.__anchors,num_classes=self.__num_classes)data_gen_val = datagen_sequence.DataGenSequence(annotation_list=valid_list,batch_size=self.__batch_size,input_size=self.__input_size,step_num=valid_steps,anchors=self.__anchors,num_classes=self.__num_classes)

训练函数入口如下:

model.fit_generator(generator=data_gen_train,steps_per_epoch=train_steps,validation_data=data_gen_val,validation_steps=valid_steps,epochs=self.__max_epochs,initial_epoch=0,callbacks=callbacks,# use_multiprocessing=True,# workers=1)

2.2 分布式环境初始化

hvd.init()
hvd_size = hvd.size()
# Horovod: pin GPU to be used to process local rank (one GPU per process)
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
config.gpu_options.visible_device_list = str(hvd.local_rank())K.set_session(tf.Session(config=config)

2.3 梯度计算

回调函数和优化器调整如下：

# horovod call_backcallbacks += [# Horovod: broadcast initial variable states from rank 0 to all other processes.# This is necessary to ensure consistent initialization of all workers when# training is started with random weights or restored from a checkpoint.hvd.callbacks.BroadcastGlobalVariablesCallback(0),hvd.callbacks.MetricAverageCallback(),hvd.callbacks.LearningRateWarmupCallback(warmup_epochs=5, verbose=1),keras.callbacks.ReduceLROnPlateau(patience=10, verbose=1),]callbacks.append(ModelModifyCallback(model_state_changing_epoch_list=[first_stage_epochs,second_stage_epochs,third_stage_epochs,],learning_rate_list=[self.__learning_rate * 0.1 * hvd_size,self.__learning_rate * 0.01 * hvd_size,self.__learning_rate * 0.001 * hvd_size,],trainable_changing_epoch=first_stage_epochs,loss=loss,opt = hvd.DistributedOptimizer))

阶段梯度计算代码如下：

class ModelModifyCallback(keras.callbacks.Callback):"""用于在训练途中修改模型状态"""def __init__(self, model_state_changing_epoch_list, learning_rate_list, trainable_changing_epoch, loss, opt ):self.model_state_changing_epoch_list = model_state_changing_epoch_listself.learning_rate_list = learning_rate_listself.trainable_changing_epoch = trainable_changing_epochself.loss = lossself.opt = optsuper(ModelModifyCallback, self).__init__()def on_epoch_begin(self, epoch, logs=None):for i in range(len(self.model_state_changing_epoch_list)):if epoch == self.model_state_changing_epoch_list[i]:if epoch == self.trainable_changing_epoch:logger.info("changing trainable weights")for l in range(len(self.model.layers)):self.model.layers[l].trainable = Truelogger.info("recompiling model for training stage changing (%d stage)" % (i + 1))# Horovod: adjust learning rate based on number of GPUs.opt = keras.optimizers.Adam(lr=self.learning_rate_list[i])# Horovod: add Horovod Distributed Optimizer.opt = self.opt(opt)self.model.compile(optimizer=opt,loss=self.loss)

我们可以通过在任意一个 pod 中执行下面命令启动分布式训练，例如：

horovodrun -np  6  -H localhost:2，9.16.113.24:2，9.16.113.25:2 python train.py

该命令意味着我们将在 localhost, 9.16.113.24, 9.16.113.25 三台 pod 上各启动两个训练节点（共 6 个），执行 train.py 中的训练代码

3. 训练数据

3.1 基于不同样本数据量我们的统计数据

下图中样本量是图片数量*节点数量*epoch，可以看到在相近时间内，采用 10 个节点的分布式训练比单机训练的 Loss 减少了一倍，同时训练了近 5 倍的数据量。

图 1

图 2

3.2 基于相同样本 62*2*30 我们的统计

在采用同样训练样本数量的情况下，从下表可以看到，采用 6 个节点的分布式实现，所耗费时间只有单机时间的约 27%。

参考

下面是使用 2 个节点时的相关监控信息，可观察 CPU 及内存占用变化

下面为分别不同 epoch 和 pod 的截图：

Batch_size=62. Epoch =30 Pod = 2

Batch_size=62. Epoch =10 Pod = 4

Batch_size=62. Epoch =10 Pod = 6

Batch_size=62 Epoch =10 Pod = 10

4. 总结

从上面的实验可以看出，利用 Horovod 对 Keras 的有效支持（包括 TensorFlow 自带的 Keras）和 Kubernetes 的容器管理，我们成功地实现了以下目标：

基于 tensorflow.keras 的分布式训练
基于 Kubernetes 的 CPU 容器集群
达到明显可见、线性增长的分布式并发加速效果

结合图 2 所描述的整体模型训练部署流程， Horovod+Tensorflow(Keras)+Kubernetes 的方案帮助我们在 GPU 资源受限的情况下，充分利用现有 CPU 集群，顺利完成从训练到部署的完整 pipeline，满足了腾讯互娱内部多种视觉识别相关业务需求。

更多相关案例：

案例分享 | 24 分钟让 AI 跑起飞车类游戏
案例分享 | QQ 音乐应用 TensorFlow 构建 AI 赋能的音乐曲库
案例分享 | TensorFlow XLA 工作原理简介

加入案例分享，点击 “阅读原文” 填写相关信息，我们会尽快与你联系。

案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现相关推荐

【大咖有约】腾讯互娱康中良：游戏云存储-TRedis高性能缓存及持久化
腾讯互娱高级DBA康中良先生将作为DTCC 2016中国数据库技术大会特邀嘉宾出席.并将于5月12日大会"NoSQL技术实践"专场分享题为<游戏云存储-TRedis高性能缓存 ...
腾讯互娱技术总监张正：《天涯明月刀》后台技术创新
9月23日,首届"梦想·匠心"腾讯游戏开发者大会于深圳举行,在技术分论坛上,腾讯互动娱乐<天涯明月刀>项目技术总监张正分享了<天涯明月刀>的后台技术创新.拥 ...
互动娱乐成互联网新战场　腾讯互娱走向前台阿里小米忙布局
行业嗅觉敏锐的人或许已经发现,近段时间有关互联网巨头布局游戏.文化等产业的消息越来越多.腾讯游戏官方微博于18日透露,将在4月举办UP2014腾讯互动娱乐年度发布会,腾讯互娱潜心布局十年将正式从幕后走 ...
游戏测试技术专场答疑（腾讯互娱WeTest测试专家）
1.请简述下渗透测试的学习路线答: 渗透测试就是给你一个黑盒的产品,你在没有产品相关的内部资料的(如产品源代码.配置档.产品协议内容等)的条件下,完全模拟外网黑客去从零开始研究产品实现,在对产品实现 ...
腾讯互娱开源分布式开发框架 Pebble
作者:韩伟构建游戏世界的Pebble 愿景:出色的游戏服务器端底层框架现代游戏项目中,为了让更多的玩家能在一起玩,游戏服务器所需要承载的在线玩家数量越来越多.同时为了让游戏更好玩,越来越多复杂的业 ...
记腾讯互娱网站布局（3）
3.图文回顾先看看整个网站的全貌这里'display:table;width:100%;table-layout:fixed'是约定俗成的写法,用来保证固定的表单布局,同时让连续的英文单词不会超出 ...
记腾讯互娱网站布局（1）
1.导航栏第一步:设置最外层的容器的定位方式.宽度和高度以及背景第二步:给第二层容器设置内容的居中显示第三步:设置居中的logo的定位和位置第四步:设置6个标志的布局设置所有的导航栏项目的定 ...
Apache Flink Meetup，1.13 新版本发布 x 互娱场景实践分享的开发者盛筵！
简介: Flink 1.13 版本新功能的深入解读+Flink 在互娱行业典型实践应用. 对于广大的 Flink 开发者同学来说, 什么内容是最期待的? 什么信息又是最有用的? 最期待的内容,自然是 ...
回顾 | Apache Flink 1.13 新版本 x 互娱实践分享 Meetup · 北京站精彩回顾 (附 PPT 下载)
简介:PPT下载链接来啦! GitHub 地址 https://github.com/apache/flink 欢迎大家给 Flink 点赞送 star~ 5 月 22 日,Apache Flink ...
腾讯CSIG、阿里(蚂蚁金服，支付宝，搜索引擎）、网易互娱、字节跳动面经
说在前面的话本人之前有面过腾讯天美工作室,奈何凉凉,有需要的朋友给传送门2021腾讯互娱天美工作室一面凉经后来又被腾讯CSIG捞了,可惜挂在了二面上,期间有阿里三个部门的面试,也都凉凉(没办法,自 ...

案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现

案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现相关推荐

最新文章

热门文章