Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting论文理解
PEN-Net(2019年)
论文代码:https://github.com/researchmm/PEN-Net-for-Inpainting
PEN-Net 是以 U-Net网络为主干结构搭建的。根据观察,低层特征具有更丰富的纹理细节,高层特征具有更抽象的语义,高层特征可逐层次指导低层特征的补全,PEN-Net的核心是将高层特征图上通过注意力机制计算出的受损区域和未受损区域的区域相似度,应用于下一层低层特征图上的特征补全,补全后的特征图继续指导下一层特征图缺失区域的补全,直到最浅层的像素层。在这个过程中,网络进行了多次的不同层次的特征补全。最终,解码网络将补全后的特征以及具有高层语义的特征结合,生成最后的补全图像,使得补全图像不仅语义合理,补全内容还具有更清晰丰富的纹理细节。
引入ATN注意力模块来加强高层特征引导底层特征补全。编码器得到高层特征,ATN以高层特征作为输入提取得到attention score,然后引导低一层的特征来实现对较低层的特征进行补全,一次递推。同时,解码器解码高层特征,并与ATN模块的输出特征进行拼接,作为多尺度解码器的输入。
1. 图b) Multi-scale Decoder为什么还有真图? 答:不是真图,而是解码器将特征图解码成图片。
2. 那为什么有3张,用来干嘛的? 答:通过L1和对抗性损失来将特征图解码成彩色图,用于pyramid_L1 损失运算函数的输入。文章提到(我们还提出了深度监督的金字塔L1损失来逐步细化每个尺度上缺失区域的预测。 )
Attention Transfer Network工作原理
注意力通常是通过缺失区域内部/外部的补丁之间的区域亲和力(通常是3×3)来获得的,因此外部的相关特征(即通过亲和力从上下文中加权复制)可以转移到内部区域。ATN首先从一个高级特征图 ψl中学习区域亲和力。从ψl中提取补丁,计算缺失区域内外补丁之间的余弦相似度:
在从一个高级的特征地图中获得注意力得分后,其相邻的低级特征图上的漏洞可以用由注意力得分加权的上下文来填充:
我们建议进一步细化ATN中填充的特征,如图2中的C所示。具体来说,多尺度的上下文信息可以通过四组具有不同比率的空洞卷积进行聚合。
实验代码
代码地址:https://github.com/researchmm/PEN-Net-for-Inpainting
下载Readme提供的数据集,按照介绍测试网络;
重新跑数据集时,要在configs/.json中修改save的地址,否则你会报错缺少dis_0000.pth文件的错误。
就是模型结果要运行test.py才能看到
Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting论文理解相关推荐
- CE-Net: Context encoder network for 2D medical image segmentation
CE-Net: Context encoder network for 2D medical image segmentation Abstract: 医学图像分割是医学图像分析中的重要步骤.随着卷积 ...
- 场景解析--Pyramid Scene Parsing Network
Pyramid Scene Parsing Network CVPR2017 语义分割 https://github.com/hszhao/PSPNet 针对 FCN 中没有 context 信息,本 ...
- context encoder代码注释
提示:文章主要是对context encoder的部分代码进行解析,并对论文中的实验内容进行复现. 本文是对<Context Encoders: Feature Learning by Inpa ...
- 【PSPnet2017】Pyramid Scene Parsing Network
Pyramid Scene Parsing Network 金字塔式场景解析网络 arXiv:1612.01105v2 [cs.CV] 27 Apr 2017 文章地址:https://arxiv.o ...
- 人群密度估计--Learning a perspective-embedded deconvolution network for crowd counting
Learning a perspective-embedded deconvolution network for crowd counting 没有找到代码 本文在人群密度估计这个问题上的创新点: ...
- 【论文导读】- E-LSTM-D: A Deep Learning Framework for Dynamic Network Link Prediction(动态网络链接预测)
文章目录 论文信息 摘要 论文贡献 问题定义 动态网络 动态网络链接预测 E-LSTM-D 框架 Encoder–Decoder结构 1. 编码器(Encoder) 2. 解码器(Decoder) 堆 ...
- Container: Context Aggregation Network
参考Container: Context Aggregation Network - 云+社区 - 腾讯云 摘要 卷积神经网络(CNNs)在计算机视觉中无处不在,具有无数有效和高效的变化.最近,Con ...
- CGNet: A Light-weight Context Guided Network for Semantic Segmentation
CGNet: A Light-weight Context Guided Network for Semantic Segmentation 0.摘要 移动设备中语义分割模型应用增加,然大部分网络的参 ...
- Pyramid Scene Parsing Network
论文地址:https://arxiv.org/pdf/1612.01105.pdf 源码地址:https://github.com/hszhao/PSPNet 来自:Semantic Segmenta ...
最新文章
- 人人商城小程序用户授权问题
- Module 让 Terraform 使用更简单
- mysql vs连不上_vs2015下配置MySQL,使之能使用c++连接完美运行
- DockerCon 2017报告:企业在关注吗?
- Libnet核心数据结构
- 运筹学 知识点总结 (十一)
- 【ARM嵌入式】——多寄存器寻址
- NCA: Neighbourhood Components Analysis
- 成功路上并不拥挤 因为坚持的人不多
- 【每日早报】2019/12/09
- 人们在居住时关注的不是[空间],而是[空间感]。好的设计/布局=额外赠送了居住面积。
- 58同城2021校招笔试真题-前端
- linux桌面支持hdpi,用于HiDPI显示器的最佳Linux桌面环境 | MOS86
- 电磁波极化原理及仿真
- 2022 年度作品优秀大赏 | 开发者说·DTalk
- beacon帧字段结构最全总结(一)——beacon基本结构
- 【干货】你常用的5种地图数据汇总对比,值得收藏~
- laravel faker 数据填充 中文数据填充 单元测试数据填充 数据的类型有哪些
- 【论文阅读】【ViT系列】ViT:一张图片用于大规模图像识别的Transformers(手动翻译)
- python 因子分析 权重计算方法_【万矿新品】因子研究利器——WindAlpha
热门文章
- python 读取邮件
- php ctr b,用PHP解密AES CTR Little Endian
- SwiftUI开发-@EnvironmentObject、ObservableObject、@Published理解
- osx 续航测试软件,续航测试:OS X 10.9让MacBook Air更坚挺
- unity接入微信支付完成切换前台游戏闪退
- java毕业设计飞机航班信息查询系统演示视频2021源码+系统+数据库+lw文档+调试运行
- Rancid cvs ViewVC 安装配置
- 分享实录 | 阿里巴巴DevOps文化浅谈
- 【软件测试】智能电视应用测试要求1
- 计划赶不上变化,为什么还要计划呢?