这篇文章做了啥

根据ccd或者cmos图像传感器获得的图像,要经过一系列的复杂的处理才能得到最终的图像,而且不同的cmos有不同的算法,作者这里的motivation是能不能有一个比较统一的框架来处理原始图像,而不是经过一系列复杂的ISP操作?
这个研究和我上一篇博客讲的很类似,(learning to see in the dark)[https://www.cnblogs.com/yongjieShi/p/12372729.html],只不过learning to see in the dark(LSD)这篇文章聚焦的部分不仅仅是通过,对原始的传感器得到的数据进行处理,更聚焦在时如何处理极低光图像,极低光图像的处理不仅仅是调整图像亮度这么简单,包含了去噪等step,作者在LSD这篇文章中重点突出了,如何处理极低光,网络没有创新性,很大的contribution来自于一个数据集合的建立。和LSD不一样,这篇文章也是对原始数据进行处理,而且对网络的创新性在一定程度上进行创新,这个我们后面再说

contributions

提出了第一个raw-to-rgb image的网络
一个新的PyNET CNN被提出,用于结合heavy global以及low-level fine grained信息
建立了一个10k的RAW–RGB image pairs数据集合,数据及在wild采集,用的两个设备,一个是华为p20,一个是cannon 5D Mark
做了大量的实验,来评估重建的图像的质量,同时,也和华为p20自己内部的isp处理结果进行了比较

数据集合建立

作者用了两台设备,一个是华为p20,另外一个是Canon,cannon拍摄的图片作为gt,就是图像经过isp处理之后的结果,因为单反拍摄的质量比较高,所以用单反拍摄的图片作为约束是合理的,同时在拍摄图片的时候,华为内部有自己内嵌的isp处理得到的结果,所以作者也把这个数据采集了下来,并且进行比较。华为p20的传感器用的是sony的拜耳传感器,同时作者还说华为有另外一个镜头,但是不能通过现有的api来获取其api,所以只能用sony的那个原始数据。
拍摄的过程是在一个空间点,朝向一致就行,比如放一台华为p20,采集两张,一个是raw的bayer数据,一个是built-in的isp处理得到的结果;同时把佳能放在这里,
因为是图像的处理,所以逐pixel对应是非常有必要的,作者在这里也说了需要用特征点匹配算法来进行图像匹配,作者展示了一组图片(如下图),仔细看的话确实是没有对齐的,后面还会详细讲,我觉得这个问题挺严重的,

上面的图片红色方框里面仔细看是不一样的

我觉得作者忽略了一个重要的问题,就是camera的focal length不一样,这种差距尤其在结构场景中体现更加明显,我想这就是为什么作者在wild采集图像,而不是结构场景中,相对于这个数据集合,SID dataset更加合理一些,SID dataset作者用的是两台不同的设备,但是cmos短曝光和长曝光是一对,一个是拿到原始的bayer或者x-trans数据,另外一个长曝光的是built-in isp处理得到的结果,maybe,(作者文中只说用了libraw库进行了处理,不确定原始的是不是isp-built in处理的结果)

网络结构

RAW to RGB 的mapping是一个涉及到global以及local图像modification的问题。这种直观的motivation是和isp处理的pipline有关系,比如,global modifications经常用来改变图像的内容,和一些higl-level的特性,比如亮度,白平衡,和色彩渲染;而low-level处理经常用于一些这种任务,比如纹理增强,锐化,噪声去除,去模糊等。而且更加重要的是,global和local信息应该进行交互,互相影响。比如,内容理解对于texture 处理或者local color correction是至关重要的。很很多deeplearning模型只focus其中一个step。比如vgg,resnet或者denesnet这种,不能很大的改变图像,而依赖于unet或者pixel的结构不具备改变局部区域的能力。为了解决这个问题,作者提出了他们的网络,如下图,叫PyNET,processing 图像在different scale以及把他们结合在一起。

如上图,有五个不同的level,可以学习到不同的level的信息,lower scales的到的信息被上采样,然后和高层次的特征concate到一起,然由higier scales后继续处理,主要的就是这个,这就是结合了local以及global的信息。loss损失函数不同的level用不同的损失函数以及比例也不一样,level4-5的话,主要集中地global的信息上,比如亮度和gamma correction所以用了mse loss。level2-3主要用来refine 不同object的color和shape properties,用perceptual loss和mse loss
level1的话加了一个ssim loss,主要用来做local的调整,比如noise去除,特征增强,局部颜色处理
这个网络结构和zongwei zhou提出的unet++类似,都是倒三角形,unet++稍微复杂一些,先挖个坑

实验结果

实验主要围绕三个问题,作者提出的这个结果和经典的一些网络结构相比,结果怎么样?
第二个是,和华为的built-in的isp相比结果怎么样,
以及这种算法能不能apply到其他的设备上
作者首先和华为的built-in的isp处理结果比较了一下,如下图

仔细观察一下第二行图片,实际上房屋的大小并不是一样的,这种差异是由于焦距不同导致的
作者说他们的结果在local和global上面没有什么缺陷,唯独有一些光晕,和华为的isp比起来的话,作者的方法有更高的亮度,更自然的局部纹理,并且锐化程度并不是特别高。作者说这个可能和P20的另外一个相机有关系,作者说,我们的算法和华为的p20的built-in isp得到的结果是comparable的

作者和主流网络的定量比较结果如下

作者的方法在常见的网络结构式上达到了sota的结果
定性比较结果如下

针对这个结果,作者做了一些分析,VGG-19和SRCNN没有足够的能力来重建颜色,STGAN和UNET太暗了,有一些比较单调的颜色,pixel2pixel在精确颜色渲染上面有很大的问题,由于扭曲的色调使得看起来不真实。DPEDmodel得到的结果比较好,但是有一些yellowish的阴影,缺少生机。SPADE不能够处理任意size的input data,所以没有比较。

之后作者做了一个AMT test,

结果比p20还要好
之后又用BlackBerry KeyOne smartphone来看一下泛华能力,如下图

作者说,恢复了很多ISP处理之后不存在的阴影,我并没有看出来...相对于原图确实很赞

上图是一个细节图,作者说,结果不是特别好,但是相对于没有在这种型号的传感器进行训练的话,直接迁移得到的结果已经很好

论文阅读笔记之Replacing Mobile Camera ISP with a Single Deep Learning Model相关推荐

  1. 阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

    阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 1.介绍 2.相关工作 2.1 贝叶 ...

  2. 自监督论文阅读笔记 Ship Detection in Sentinel 2 Multi-Spectral Images with Self-Supervised Learning

    船舶自动检测 为用于 安全 或 经济监测目的 的海事领域感知 提供了必要的功能.这项工作提出了一种用很少的标记示例,在 Sentinel2 多光谱图像中 训练深度学习舰船检测器 的方法. 本文设计了一 ...

  3. Lift Splat Shoot Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 论文阅读笔记

    Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 论文阅读 ...

  4. [置顶]人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)...

    这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...

  5. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  6. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  7. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  8. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  9. PointConv论文阅读笔记

    PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...

最新文章

  1. 洛谷P3122 [USACO15FEB]圈住牛Fencing the Herd(计算几何+CDQ分治)
  2. 快讯 | 百度发布Apollo1.5 开放五大核心能力,未来3年花100亿投资100家公司
  3. 【学习笔记】拉格朗日插值
  4. CSS(二)属性--文本设置
  5. EventBank闪耀企业服务 荣获“2017中国企业服务云年度产品”奖
  6. tar打包和解压命令
  7. powershell 文件/文件夹操作
  8. 【2016年第1期】CCF大专委2016年大数据发展趋势预测—— 解读和行动建议
  9. 在Java中VO , PO , BO , QO, DAO ,POJO是什么意思
  10. 为用户设计的产品,就应该用用户熟悉的语言
  11. Asp.Net中WebApi多图片上传(附前后端代码)
  12. 数建--LINGO软件介绍
  13. vs2010专业版下载链接
  14. 新仙剑奇侠传完美攻略
  15. 技术答疑 什么是音高、音色、音调?
  16. Echarts安装失败
  17. (七)《数电》——CMOS与TTL门电路
  18. 抖音终于活成了自己讨厌的样子
  19. matplotlib显示伪彩色图像及色度条
  20. 8,verilog基本逻辑运算

热门文章

  1. 谈谈人工智能的罪与罚
  2. 清音驱腐启鸿蒙,竹韵清音-格律诗词41期
  3. 华三防火墙配置端口地址转换_华三防火墙双向nat配置 防火墙端口映射
  4. OPTA 7模式测试说明
  5. Google 微数据,快速指引。
  6. 关于Google翻译和语音朗读功能无法正常使用的说明
  7. 网卡MAC地址(物理地址)映射为IPv6接口标识符
  8. ABP框架Web API跨域问题的解决方案
  9. ffmpeg设置h264编码IDR间隔
  10. 手机怎么解除root权限?华为手机root教程