文章同样发布在百度AIStudio,Fork后即可在线运行,请点击这里

本人希望基于PaddleSeg对视频实时进行图像分割,但在AiStudio中检索分割和实时两个关键词后并没有得到理想的结果,大部分项目是依赖于notebook对图片或对视频切片进行分割,而不是我想要的实时。之前在论坛提问过实时对视频进行图像分割的问题,无意间发现PP-HumanSeg可以实现视频换背景,于是对其本地部署代码进行挖掘,在此进行代码解读。了解代码后,可以自己编写项目实现对目标内容的实时分割。

1、 根目录文件内容概述

返回Aistudio目录,可以看到PaddleSeg包已经添加完毕,打开contrib可以看到PP-HumanSeg源文件和代码。

这里我用本地打开的文件示例。

configs中包含的是本项目的配置文件,包含数据集训练验证方法、训练轮次、优化器、模型等一系列数据。在训练和部署过程需要使用。

data文件夹包含了用于验证的图片、背景以及视频下载方式。

datasets是数据集文件。

xx_model中提供了部署好的模型和预训练模型的下载方式。

bg_replace.py是本地的执行文件。

predict,train,val文件请查看PaddleSeg文档。

2、bg_replace.py代码解读.

def parse_args():parser = argparse.ArgumentParser(description='PP-HumanSeg inference for video')parser.add_argument("--config",dest="cfg",help="The config file.",default=None,type=str,required=True)parser.add_argument("--input_shape",dest="input_shape",help="The image shape [h, w] for net inputs.",nargs=2,default=[192, 192],type=int)parser.add_argument('--img_path',dest='img_path',help='Image including human',type=str,default=None)parser.add_argument('--video_path',dest='video_path',help='Video path for inference',type=str,default=None)parser.add_argument('--bg_img_path',dest='bg_img_path',help='Background image path for replacing. If not specified, a white background is used',type=str,default=None)parser.add_argument('--bg_video_path',dest='bg_video_path',help='Background video path for replacing',type=str,default=None)parser.add_argument('--save_dir',dest='save_dir',help='The directory for saving the inference results',type=str,default='./output')....return parser.parse_args()

第一部分是定义命令行参数,这也是可以用 !python 命令执行的原因。代码中的help对对应命令做了介绍。

我们只需要关注--config --img_path --video_path 以及 --bg_img_path --bg_video_path这几个参数

--config参数是我们需要的config文件参数,即.yml文件

其余几个path分别对应需要的图像,视频以及要更换的背景图像,背景视频文件路径。

通过更改目标参数的default参数,就可以实现直接在本地运行代码而不需要命令行调用。


之后是主文件,我们来逐步看看其如何实现不同输入的背景替换功能

首先选择是否在GPU上运行,以及创建对应的文件目录

def background_replace(args):env_info = get_sys_env()args.use_gpu = True if env_info['Paddle compiled with cuda'] and env_info['GPUs used'] else Falsepredictor = Predictor(args)if not osp.exists(args.save_dir):os.makedirs(args.save_dir)

我们来分块解读,首先第一部分,图像背景替换

其实代码十分易读,即获取图像和背景,预测后导出

重点在于comb=predictor.run(img,bg) 这一行代码

先搁置一下,稍后看它的运行流程

    # 图像背景替换if args.img_path is not None:if not osp.exists(args.img_path):raise Exception('The --img_path is not existed: {}'.format(args.img_path))img = cv2.imread(args.img_path)#读取待预测图片bg = get_bg_img(args.bg_img_path, img.shape)#读取待替换路径comb = predictor.run(img, bg)#预测save_name = osp.basename(args.img_path)save_path = osp.join(args.save_dir, save_name)cv2.imwrite(save_path, comb)#保存

下一段是视频预测,视频预测分为输入视频预测和摄像头输入预测,二者本质上是一套流程。

进入视频预测流程,会判断是否有视频背景输入,因为图片替换不设计视频背景。

之后会通过是否有待预测视频来判断是否打开摄像头。 请读者自行打开bg_replace.py文件阅读

下面的代码定义了opencv打开视频和写入视频文件的变量。

cap_video = cv2.VideoCapture(args.video_path)
#打开摄像头
fps = cap_video.get(cv2.CAP_PROP_FPS)
width = int(cap_video.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(cap_video.get(cv2.CAP_PROP_FRAME_HEIGHT))
#取得输入参数 h,w,fps
save_name = osp.basename(args.video_path)
save_name = save_name.split('.')[0]
save_path = osp.join(args.save_dir, save_name + '.avi')
#设定保存位置等参数
cap_out = cv2.VideoWriter(
save_path, cv2.VideoWriter_fourcc('M', 'J', 'P', 'G'), fps,(width, height))

之后是视频的逐帧预测和保存流程,这一部分二者十分相似。如图

唯一的区别是,摄像头读出的视频直接逐帧展示出来,而视频的导出数据会存入指定路径。

与图片预测类似的是, 使用了comb=predictor.run(img,bg) 就可以得到预测结果,那么这一步是怎么定义的?

我们马上进入infer.py查看它的定义和运行流程

在此之前,还有最后一部分代码,它定义了背景替换图片即bg这个参数的由来

很好理解,如果没有输入背景图像就用纯白色图像替换,当然你也可以通过吧ones→zeros转为黑色图片

如果输入了背景图就把其作为bg返回

def get_bg_img(bg_img_path, img_shape):if bg_img_path is None:bg = 255 * np.ones(img_shape)
#如果没有输入背景图像就用纯白色图像替换elif not osp.exists(bg_img_path):raise Exception('The --bg_img_path is not existed: {}'.format(bg_img_path))else:bg = cv2.imread(bg_img_path)
#如果输入了背景图就把其作为bg返回return bg

3、infer.py代码解读

同样的,import部分不再赘述

DeployConfig的作用是吧.yml即--config中我们输入的配置文件导入进来,获得其变换以及模型的一些信息

注意,这一部分是我们部署时export.py导出的文件信息,包含了模型结构和参数等

class DeployConfig:def __init__(self, path):with codecs.open(path, 'r', 'utf-8') as file:self.dic = yaml.load(file, Loader=yaml.FullLoader)self._transforms = self._load_transforms(self.dic['Deploy']['transforms'])self._dir = os.path.dirname(path)@propertydef transforms(self):return self._transforms
#获得变换信息,如裁剪等@propertydef model(self):return os.path.join(self._dir, self.dic['Deploy']['model'])
#获得模型信息@propertydef params(self):return os.path.join(self._dir, self.dic['Deploy']['params'])
#获得参数信息def _load_transforms(self, t_list):com = manager.TRANSFORMStransforms = []for t in t_list:ctype = t.pop('type')transforms.append(com[ctype](**t))return transforms

Predictor是重要的一部分,还记得bg_replace.py import了infer.py中的Predictor吗,这就是预测模型的关键

它分为预处理、预测和后处理部分

我们先来看定义部分

class Predictor:def __init__(self, args):self.cfg = DeployConfig(args.cfg)#导入config文件self.args = argsself.compose = T.Compose(self.cfg.transforms)#导入转换信息resize_h, resize_w = args.input_shapeself.disflow = cv2.DISOpticalFlow_create(cv2.DISOPTICAL_FLOW_PRESET_ULTRAFAST)#这一部分是光流算法,可以减少闪烁self.prev_gray = np.zeros((resize_h, resize_w), np.uint8)self.prev_cfd = np.zeros((resize_h, resize_w), np.float32)self.is_init = Truepred_cfg = PredictConfig(self.cfg.model, self.cfg.params)#配置模型和参数pred_cfg.disable_glog_info()if self.args.use_gpu:pred_cfg.enable_use_gpu(100, 0)#判断是否是GPU环境,如果是,分配初始显存并指定序号self.predictor = create_predictor(pred_cfg)#这一句生成了预测器if self.args.test_speed:self.cost_averager = TimeAverager()#如果开启了测速,会计算平均预测时间

第一部分是预处理过程,这一部分主要对图片进行归一化等处理,方便后续操作

输入的图像尺寸越小,这一部分的运行时间就会越快,实测对1280x720的图片,需要20ms,而对一半尺寸的图片只需要8ms

ori_shape可以在最后将图片恢复成原本大小以展示

def preprocess(self, img):ori_shapes = []processed_imgs = []processed_img = self.compose(img)[0]#主要是这一步对图像进行了归一化等操作processed_imgs.append(processed_img)ori_shapes.append(img.shape)return processed_imgs, ori_shapes

run函数self.predictor.get_input_names() 等函数获取输入和输出的句柄和名称

这一部分在PaddleSeg API文档中有说明,也可以参阅其他文档

有关test_speed的参数用于测速,可以先不管

运行流程是

  • 获得名称和句柄
  • 前处理、转换数组
  • 预测
  • 获得输出名称和句柄
  • 后处理
  • 返回
   def run(self, img, bg):input_names = self.predictor.get_input_names()input_handle = self.predictor.get_input_handle(input_names[0])#获取输入名称和句柄processed_imgs, ori_shapes = self.preprocess(img)#调用了预处理,即上一个函数data = np.array(processed_imgs)#转化为numpy数组input_handle.reshape(data.shape)input_handle.copy_from_cpu(data)#获得待预测参数if self.args.test_speed:start = time.time()self.predictor.run()#预测if self.args.test_speed:self.cost_averager.record(time.time() - start)output_names = self.predictor.get_output_names()output_handle = self.predictor.get_output_handle(output_names[0])output = output_handle.copy_to_cpu()#获取输出名称和句柄return self.postprocess(output, img, ori_shapes[0], bg)#后处理后返回参数

如果不开启光流处理, 会进入如下所示的图块,这是因为光流处理改变了其结构

第一步 pred是后处理传回的参数,一般为1x2x_x_,即已经分成了主体和背景。这里pred[:, 1, :, :] 是取出其主体信息,即待检测目标

通过np.newaxis将其扩充回4维tensor,之后送入下面程序恢复原本的形状

之后就可以进行背景替换,如果背景维度不足就加上一层维度

comb=... 代码利用alpha所含的概率信息,将属于原本图像的部分与高概率区域相乘,低概率区域取反后与背景相乘,这样就得到了背景替换的结果

    def postprocess(self, pred, img, ori_shape, bg):if not os.path.exists(self.args.save_dir):os.makedirs(self.args.save_dir)resize_w = pred.shape[-1]resize_h = pred.shape[-2]if self.args.soft_predict:if self.args.use_optic_flow:....  else:score_map = pred[:, 1, :, :]score_map = score_map[np.newaxis, ...]score_map = reverse_transform(paddle.to_tensor(score_map),ori_shape,self.cfg.transforms,mode='bilinear')alpha = np.transpose(score_map.numpy().squeeze(0), [1, 2, 0]).... # background replaceh, w, _ = img.shapebg = cv2.resize(bg, (w, h))if bg.ndim == 2:bg = bg[..., np.newaxis]comb = (alpha * img + (1 - alpha) * bg).astype(np.uint8)return comb

总结

读者可以通过Debug在本地运行一遍此流程,了解各个位置参数的形态

重新梳理一下,bg_replace定义了命令行转化参数,当然我们可以通过修改其默认值后直接运行文件

在判断了是对图像或者视频预测后,将输入的图片或某一帧视频或摄像头信息送入infer.py,当然还包含了需要更换的背景信息

在infer.py中 经过前处理 预测 后处理阶段返回bg_replace.py

最后bg_repalce.py函数对返回的图片进行展示、保存等

笔者在本地1050环境下测试了模型,对摄像头输入并输出,fps可以稳定在30以上

笔者使用此流程预测了其他图像分割模型,通过修改config文件,使用PPlite算法在本地运行,针对640x360的图片或视频,实际运行帧率约10fps,当对前后处理流程优化之后,实际可以达到30fps

有任何疑问欢迎留言

飞桨PP-HumanSeg本地实时视频推理代码解读相关推荐

  1. 飞桨 x Graphcore IPU适配方案深度解读与硬件介绍 | 洞见AI硬件

    Graphcore和飞桨联合发布了在Graphcore IPU上支持训练和推理完整流程的开源代码库.在本篇文章中,我们将会介绍飞桨与Graphcore的合作初衷和成果,并为大家解读飞桨与Graphco ...

  2. 性能领先,即训即用,快速部署,飞桨首次揭秘服务器端推理库

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 假如问在深度学习实践中,最难的部分是什么?猜测80%的开发者都会说: "当然是调参啊." 为什么难呢?因为调参就像厨师根 ...

  3. output怎么用_性能领先,即训即用,快速部署,飞桨首次揭秘服务器端推理库

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 假如问在深度学习实践中,最难的部分是什么?猜测80%的开发者都会说: "当然是调参啊." 为什么难呢?因为调参就像厨师根 ...

  4. 神经网络代码解读_强化学习、联邦学习、图神经网络,飞桨全新工具组件详解...

    机器之心发布机器之心编辑部 11 月 5 日,在 Wave Summit+2019 秋季深度学习开发者峰会上,飞桨全新发布和重要升级了最新的 21 项进展,在深度学习开发者社区引起了巨大的反响. 很多 ...

  5. 使用OpenVINO实现飞桨版PGNet推理程序

    目录 第1章 使用OpenVINOTM实现飞桨版PGNet推理程序 1.1OpenVINOTM 简介 1.2 PGNet简介 1.3准备PGNet的OpenVINO推理程序开发环境 1.4下载PGNe ...

  6. 强化学习、联邦学习、图神经网络,飞桨全新工具组件详解

    2019-12-05 14:55:36 机器之心发布 机器之心编辑部 11 月 5 日,在 Wave Summit+2019 秋季深度学习开发者峰会上,飞桨全新发布和重要升级了最新的 21 项进展,在 ...

  7. 飞桨模型保存_重磅发布开源框架、生物计算平台螺旋桨,百度飞桨交了年终成绩单...

    机器之心报道 作者:蛋酱.张倩 在 12 月 20 日举行的「WAVE SUMMIT+ 2020 深度学习开发者峰会」上,飞桨平台交出了一份非常亮眼的年终成绩单. 2020 年,是不平凡的一年:这一年 ...

  8. 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 飞桨(PaddlePaddle)是国内唯一功能完备的端到端开源深度学习平台,集深度学习训练和预测框架.模型库.工具组件.服务平台为一体,其兼 ...

  9. DL之paddlepaddle:百度深度学习框架paddlepaddle飞桨的简介、安装、使用方法之详细攻略

    DL之paddlepaddle:百度深度学习框架paddlepaddle飞桨的简介.安装.使用方法之详细攻略 目录 paddlepaddle百度深度学习框架的简介 1.飞桨全景图与四大领先技术 2.丰 ...

最新文章

  1. centos lustre 简单 安装教程
  2. python基础(四)集合
  3. 自定义PocketMod的农历页面
  4. SAP Spartacus page-slot.component.html
  5. 实现tinyc语言的扫描程序_适合编程小白的C语言设计习题,实现自动发牌程序!源码分享!...
  6. 程序员谈网络改变我们的生活
  7. 动画学信奥 漫画学算法 CSP-J入门级 (三)、算法(依据「NOI大纲」)
  8. CV算法助理 | 华为外包招聘
  9. Java基础-Lambda表达式
  10. jQuery动画效果animate和scrollTop结合使用实例
  11. SQL-55 分页查询employees表,每5行一页,返回第2页的数据
  12. 在WINDOWS XP环境下部署基于网络的开源入侵监测平台——snort
  13. 宅男福利——在控制台上跳极乐净土(音频版)
  14. 云计算机领域的黑马AWS,为何一黑到底
  15. 昇腾AI室外移动机器人原理与应用(二 初识室外移动机器人)
  16. 蘑菇街2016校园招聘——回文串
  17. 信息系统项目管理师计算题(期望值)
  18. 学习管理系统 LMS
  19. MNIST数据集学习
  20. 吾征:通过认知智能技术把中医的“望闻问切”搬上互联网 | 百万人学AI评选

热门文章

  1. 「经济读物」小狗钱钱
  2. 《数据结构与算法基础 严蔚敏版》第一章 绪论
  3. html div文字竖向显示,css怎么让文字竖着?
  4. 挂耳式耳机品牌排行榜,五款目前排行靠前的耳机分享
  5. 2023.02.09 草图大师厨房效果图1skp素材效果图
  6. 大屏数据展示,5.5寸大屏幕手机更受消费者喜爱
  7. 发明界泥石流!河南一小伙发明陪酒机器人,全程高能结局笑疯
  8. 求n边形周长的k等分点坐标(今日头条)
  9. Qt——QLineEdit
  10. Self-Attention Generative Adversarial Networks(SAGAN)理解