导读

图像分割是计算机视觉三大任务之一,基于深度学习的图像分割技术也发挥日益重要的作用,广泛应用于智慧医疗、工业质检、自动驾驶、遥感、智能办公等行业。

然而在实际业务中,图像分割依旧面临诸多挑战,比如:分割数据标注效率较低,标注过程自动化程度低;垂类场景多样,打造全流程方案的难度大;针对3D分割的方案较少。

针对以上挑战,飞桨图像分割开源套件PaddleSeg近期升级,主要包括:

  • 开源NeurIPS 2022顶会发表的语义分割官方实现模型RTFormer,结合CNN和Transformer的优点,该模型设计并使用了高效的RTFormer Block。对比其他实时语义分割模型,RTFormer在多个数据集上实现SOTA精度和速度。(后续会有单独文章详细解读)

  • 针对标注数据的难题,发布智能标注平台EISeg正式版,支持医疗、遥感、工业质检等领域的分割标注,新增视频分割标注,分割标注效率提升超过10倍。

  • 针对人像分割场景,发布实时人像分割SOTA方案PP-HumanSegV2,推理速度提升87.15%,分割精度达到96.63%,可视化效果更佳,可与商业收费方案媲美。

  • 针对3D医疗分割场景,发布3D医疗影像分割方案MedicalSegV2,支持3D交互式标注标注,实现高精度、定制化、全流程。

注:了解更多详情,可至文末加入PaddleSeg技术交流群

感谢大家star关注

https://github.com/PaddlePaddle/PaddleSeg

技术升级详细解析

第一部分

EISeg 正式版标注效率提升超过10倍

通用场景的智能标注

EISeg基于深度学习模型,能够结合用户提供的标注信息灵活选择用户感兴趣的区域。在EISeg中,用户通过点击正点或负点来选择需要被分割的目标,不需要再对目标周围进行点击和拉线。它能减少用户交互的次数,提升标注效率。

医疗、遥感垂类场景的智能标注

EISeg针对特定数据集进行训练并获得了高质量的交互式分割模型,目前覆盖的场景包括: 医疗腹腔多器官、椎骨分割、产品瑕疵分割、遥感建筑物分割等。同时,针对不同场景的标注需求,EISeg提供了相应的特色标注能力,比如遥感图像支持遥感信息的读取,医疗图像支持窗宽窗位的选择等,从而拓展了交互式分割的应用领域。

业界领先的内置分割模型

目前EISeg提供的各类模型能够达到业界的领先水平,EISeg通用模型精度和速度如下表所示:

支持视频智能标注

EISeg正式版视频标注工具以交互式分割算法交互式视频分割算法MiVOS为基础,涵盖了通用、腹腔多器官,CT椎骨等不同方向的高质量交互式视频分割模型,方便开发者快速实现视频的分割标注。

支持多种图像及标注格式

EISeg正式版支持多种标注格式生成,同时支持导出伪彩色图、灰度图,以及JSON、COCO等数据格式,总有一款能满足你的需求。

助力多家标注平台落地

PaddleSeg提供的智能标注能力现已落地百度大脑EasyData智能数据服务平台,百度智能云数据众包、标贝数据、中国空天院、国家农业智能装备工程技术研究中心等厂内外数十家公司,助力企业提升标注效率,降低标注成本。

  • EISeg传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/EISeg

第二部分

PP-HumanSegV2人像分割SOTA方案,精度96.63%、速度63FPS

在视频通话和观看直播时,背景虚化、弹幕穿人等神奇的功能,给我们带来了更优质的体验和多维的乐趣。那这是靠什么AI黑科技实现的呢?答案就是人像分割。人像分割是将人物和背景在像素级别进行区分。目前人像分割技术得到快速突破,但是高精度、高性能、全流程的方案,仍是业界高手持续发力优化的地方。

PaddleSeg重磅升级的PP-HumanSegV2人像分割方案,以96.63%的mIoU精度, 63FPS的手机端推理速度,再次刷新开源人像分割算法SOTA指标。相比PP-HumanSegV1方案,推理速度提升87.15%,分割精度提升3.03%,可视化效果更佳。支持零成本、开箱即用!

PP-HumanSegV2方案核心点在以下三方面:

开源PP-HumanSeg14K人像分割数据集

常见的人像分割公开数据集有EG1800和Supervise-Portrait,数据量分别是1.8k和3k,而且都是针对通用场景。PP-HumanSegV2方案重点关注视频会议远程通话场景,面临场景变化多样、可用数据量过少的难点。因此,我们针对视频会议和远程通话场景,构建并开源了最大的视频会议人像分割数据集PP-HumanSeg14K。

该数据集充分考虑了场景多样性,采集的图片涵盖了背景光照、人物动作、人物个数、戴口罩等诸多变化因素。总共收集了将近14000张图片进行高精标注,划分为训练集9000张、验证集2500张、测试集2500张。

同时PaddleSeg团队将PP-HumanSeg14K数据集论文发表在WACV 2022 Workshop上,让更多学者可以看到并申请使用该数据集。截至目前,PP-HumanSeg14K已经广泛助力人像分割的研究,涵盖60+高校、20+机构、30+公司。

  • PP-HumanSeg14K数据集传送门

https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.6/contrib/PP-HumanSeg/paper.md

采集的图片

标注的图片

升级实时高精度人像分割SOTA模型

此前的实时人像分割模型,无法实现精度和速度的完美平衡,所以我们基于PaddleSeg近期发布的超轻量级系列MobileSeg模型,根据方案目标,设计新的实时人像分割SOTA模型模型。(结构如下图所示)

实时人像分割SOTA模型

对于模型Encoder部分,考虑到模型的算量要求很高,我们选用MobileNetV3作为骨干网络提取多层特征。分析发现MobileNetV3的参数主要集中在最后一个Stage,在不影响分割精度的前提下,我们只保留MobileNetV3的前四个Stage,成功减少了68.6%的参数量。对于上下文部分,我们使用PP-LiteSeg模型中提出的轻量级SPPM模块,而且其中的普通卷积都替换为可分离卷积,进一步减小计算量。SPPM模块输入16倍下采样特征图,输出汇集全局上下文信息的特征图。对于Decoder部分,我们设计三个Fusion融合模块,多次融合深层语义特征和浅层细节特征,最后一个Fusion融合模块再次汇集不同层次的特征图,输出分割结果。

三个关键优化策略升级

除了数据和模型方面的工作,我们还分析实际场景,提出了三种优化策略,实现最好的精度、速度和可视化效果:

  • 使用两阶段训练方式,提升分割精度

两阶段训练是基于迁移学习的思想,首先在大规模混合人像数据集(数据量100k+)上训练,然后使用该预训练权重,在PP-HumanSeg14K数据集(数据量14k)上训练,最终得到训练好的模型。使用两阶段训练方式,可以充分利用其他数据集,提高模型的分割精度和泛化能力。

  • 调整图像分辨率,提升推理速度

调整图像分辨率也直接影响模型的推理速度,我们使用多种图像分辨率进行训练和测试,在PP-HumanSegV2方案中选择最佳图像分辨率,进一步提升了模型推理速度。

  • 使用形态学后处理,提升可视化效果

首先获取原始预测图像I,然后使用阈值处理、图像腐蚀、图像膨胀等操作得到掩码图像M,最后预测图像I和掩码图像M相乘,输出最终预测图像O。下图直观展示了形态学后处理可以滤除背景干扰,提升可视化效果。

形态学后处理的图像

  • 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/contrib/PP-HumanSeg

第三部分

MedicalSegV2:高精度定制化3D医疗分割方案

3D医疗影像分割通过学习3D医疗影像数据(CT、MRI)和特定标签的映射关系,获取3D的特定感兴趣器官、组织的立体分割结果。进一步结合3D打印、数据分析、可视化等技术,就可以帮助医生对患者的病情进行高效诊断、手术规划、疾病研究等重要工作。

多层2D椎骨数据通过3D分割获得3D立体分割结果

基于自研模型的3D智能标注平台EISeg-Med3D

医疗影像分割中的一个源头性问题为数据标注极为困难,专业医生需要通过极为繁杂的标注流程、多重质量保证机制来生成大量、准确标注结果。为了缓解这个问题。PaddleSeg团队创新性地将3D网络应用于交互式分割流程中,并实现100%3D数据流,形成了基于3D交互式分割的智能标注平台EISeg-Med3D。

EISeg-Med3D基于3D Slicer搭建,具有高效高精度用户友好三大特点:只要一次点击1s生成3D标注结果,相比2D标注实现十倍提速;两次点击就可达到85% 精度,结合搭载的机器学习图像算法、手工微调工具,实现100%高精度标注;拥有标注进度管理、三步轻松安装、历史标注结果自动导入等用户友好设计。

极大丰富的高精度多器官前沿模型

从v1到v2,MedicalSeg的内置分割算法从单个VNet丰富到6个SOTA算法,扩充的模型数量提供了更为先进高效的分割性能,覆盖了18种各类器官组织。如下表所示,复现的模型对比原始算法精度均有不同精度的提升,其中TransUNet相比原始算法精度提升了3.6。

定制化医疗分割方案nnUNet

有过医疗分割经验的开发者一定听过nnUNet,作为各大比赛的打榜方案,其支持数据定制化下的高精度分割。而看过其代码的开发者也会发现其代码的晦涩难懂。为了支持大家更加灵活使用nnUNet的需要,我们基于飞桨对其进行了模块化清晰化的复现;同时还新增了在静态图预测时匹配多种模型、多折模型的部署方案,达到同一张图像可使用多折静态模型部署的效果,从而大大提升了其产业实用性

  • MedicalSeg v2传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/develop/contrib/MedicalSeg

加入PaddleSeg技术交流群

入群福利

  • 获取PaddleSeg详解本次升级内容的直播课链接

  • 获取PaddleSeg团队整理的5G重磅学习大礼包,包括:

1. PaddleSeg历次发版直播课视频

2. 社区优秀开发者项目分享视频

相关地址

  • 官网地址

https://www.paddlepaddle.org.cn

  • PaddleSeg项目地址(GitHub)

https://github.com/PaddlePaddle/PaddleSeg

  • Gitee

https://gitee.com/paddlepaddle/Paddleseg

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~

荟聚NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器,PaddleSeg重磅升级!相关推荐

  1. 横扫6个SOTA,吊打强化学习,谷歌最强行为克隆算法登CoRL顶会,机器人干活10倍速

    谷歌团队在CoRL 2021上提出了一种隐式行为克隆 (Implicit BC) 算法,该方法在7项测试任务中的6项上优于此前最佳的离线强化学习方法(Conservative Q Learning). ...

  2. 爱奇艺在DCN、EDVR等 4K 超分模型上的 10倍加速实践

    编者荐语: 为了进一步提高模型推理性能,爱奇艺对TensorRT底层机制做了详细的解析.如何对复杂模型推理进行TensorRT的格式转换.以及TensorRT的int8量化推理内部机制,以及如何更好提 ...

  3. 知识图谱专栏简介:数据增强,智能标注,文本信息抽取(实体关系事件抽取)、知识融合算法方案、知识推理、模型优化、模型压缩技术等

    知识图谱专栏简介:数据增强,智能标注,文本信息抽取(实体关系事件抽取).知识融合算法方案.知识推理.模型优化.模型压缩技术等 专栏链接:NLP知识图谱相关技术业务落地方案和码源 NLP知识图谱相关技术 ...

  4. NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...

  5. 深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等

    [深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等 专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...

  6. Pair智能标注神器,全面升级,更加智能

    关注公众号,发现CV技术之美 医生专家的手动标注是医学影像AI研究的基石.标注软件需要尽可能节省医生手动标注的耗时,减少医生标注的痛苦,并帮助医生提高标注的质量与一致性.作为首款国产一站式医学影像标注 ...

  7. 智能标注、电力和地下管网巡检,CV算法落地方案

    EasyDL产业应用系列·安全生产及数据处理公开课,课后知识点笔记已修炼完毕,没参加直播课程的小伙伴,可通过实录完整解析AI巡检业务场景和定制AI解决方案,小时级成功变身AI应用专家! 同时 5月27 ...

  8. 【玩转华为云】手把手教你用Modelarts实现猫狗数据集的智能标注

    本篇推文共计2000个字,阅读时间约3分钟. 华为云-华为公司倾力打造的云战略品牌,2011年成立,致力于为全球客户提供领先的公有云服务,包含弹性云服务器.云数据库.云安全等云计算服务,软件开发服务, ...

  9. 荟聚新动能 数创新经济 2022全国工业App和信息消费大赛在湖南株洲举行

    12月23日,2022全国工业App和信息消费大赛(以下简称"大赛")颁奖典礼暨"新生产 新消费 新经济"产业峰会在湖南株洲圆满举行.本届大赛以"荟聚 ...

最新文章

  1. Android短视频开发都需要什么技术?
  2. 理解 Azure 平台中虚拟机的计算能力
  3. Linux学习总结(2)——linux常用命令大全
  4. 如何使用 Java8 实现观察者模式?(上)
  5. mysql 大树据表update很慢
  6. 锻造恒生O45:致广大而尽精微
  7. Android的深度定制版阿里云os(Android的山寨)
  8. 创建Django项目
  9. 【010Editor】010Editor使用技巧汇总(不断更新中)
  10. 计算机软件考试初级什么好考,初级程序员好考吗
  11. STM8S AD采样电压值——采样值与实际值之间的计算
  12. SecureCRT 不能输入命令及回车键不能用
  13. 论文写作笔记1:医学跨计算机期刊介绍
  14. 使用DGL进行异构图元路径采样
  15. 性能诊断定位之CPU问题排查(一):win10环境1
  16. GK Summay算法(ϵ−approximate ϕ−quantile)
  17. fpga在线升级 linux_以Flash控制器为核心的FPGA在线更新功能实现设计流程介绍
  18. erp系统选型需满足哪些条件?一位erp选型专家分享经验
  19. 关于AI,你最该了解但从没想过的四个问题
  20. wdr7500 虚拟服务器,TP-Link TL-WDR7500 无线路由器端口映射设置指南

热门文章

  1. 关于jupyter打开后代码灰色问题
  2. 欢迎光临我的公众号和我的博客
  3. bed文件格式(转自http://blog.sina.com.cn/s/blog_70b2b6020100liou.html)
  4. Selenium控制已打开的Chrome浏览器
  5. [C] zintrin.h : 智能引入intrinsic函数。支持VC、GCC,兼容Windows、Linux、Mac OS X
  6. 【实验报告】实验五 会员管理系统的设计开发1
  7. 计世独家:新加坡国家网格雏形已现
  8. 丰田精益生产方式是如何分析问题的?
  9. 下列关于python的说法中_下列选项中,关于Python说法错误的是()
  10. 多视角立体影像匹配三维重建---- visualSFM的使用方法