点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

图像预处理的一个重要操作就是resize,把不同大小的图像缩放到同一尺寸,但目前用到的resize技术仍然是老旧的,无法根据数据变换。Google Research提出一个可学习的resizer,只需在预处理部分略作修改,即可提升CV模型性能!

神经网络要求输入的数据的大小在每个mini-batch中是统一的,所以在做视觉任务的时候,一个重要的预处理步骤就是image resize,把它们调整到统一的大小进行训练。

通常缩放(image down-scaling)后的图像不会太大,因为如果分辨率过高会导致训练过程中模型占用的内存急剧上升,并且过高的分辨率也会导致训练速度和推理速度过慢。虽然近年来GPU的性能逐渐提升,但标准的输入图像仍然是224 × 224。

在大多数情况下,经过处理的图像的最终尺寸非常小,例如早期的deepfake生成的图片只有80 × 80的分辨率。

在人脸数据集中,因为人脸很少有是正方形的,一张图片中的像素会浪费比较多的空间,可用的图像数据就更少了。

目前最常用的图像大小调整方法包括最近邻(nearest neighbor)、双线性(bilinear)和双三次(bicubic)。这些resize方法的速度很快,可以灵活地集成在训练和测试框架中。

但这些传统方法是在深度学习成为视觉识别任务的主流解决方案之前几十年发展起来的,所以并不是特别适合新时代的深度学习模型。

Google Research提出了一种新的方法,通过改进数据集中的图像在预处理阶段缩放的方式,来提高基于图像的计算机视觉训练流程的效率和准确性。

图像大小对任务训练精度的影响并没有在模型训练中受到很大关注。为了提高效率,CV研究人员通常将输入图像调整到相对较小的空间分辨率(例如224x224) ,并在此分辨率下进行训练和推理。

研究人员想到,这些resizer是否限制了训练网络的任务性能呢?

通过一个简单的实验就可以证明当这些传统的resizer被可学习的resizer替代后,可以显著提高性能。

传统的resizer通常可以生成更好的视觉上的缩放图像,可学习的resizer对人来说可能不是特别容易看清楚。

文中提出的resizer模型架构如下图所示:

它主要包括了两个重要的特性:(1) 双线性特征调整大小(bilinear feature resizing),以及(2)跳过连接(skip connection),该连接可容纳双线性调整大小的图像和CNN功能的组合。

第一个特性考虑到以原始分辨率计算的特征与模型的一致性。跳过连接可以简化学习过程,因为重定大小器模型可以直接将双线性重定大小的图像传递到基线任务中。

与一般的编码器-解码器架构不同,这篇论文中所提出的体系结构允许将图像大小调整为任何目标大小和纵横比。并且可学习的resizer性能几乎不依赖于双线性重定器的选择,这意味着它可以直接替换其他现成的方法。

并且这个的resizer模型相对较轻量级,不会向基线任务添加大量可训练参数,这些CNN明显小于其他基线模型。

论文中的实验主要分为三个部分。

1、分类性能。

将使用双线性调整器训练的模型和输出调整分辨率224×224称为默认基线。结果表明,在224×224分辨率的模型中,性能最好,使用文中提出的resizer训练的网络对性能有所提升。

与默认基线相比,DenseNet-121和MobileNet-v2基线分别显示出最大和最小的增益。对于Inception-v2、DenseNet-121和ResNet-50,提出的resizer的性能优于具有类似双线性重定器。

2、质量评估

研究人员使用3种不同的基线模型对AVA数据集进行训练。基线模型根据ImageNet上预先训练的权重进行初始化,并在AVA数据集上进行微调。resizer权重是随机初始化的。在这组实验中,使用双三次resizer为基线方法。通过平均基本真实分数和平均预测分数之间的相关性来衡量性能,相关性的评价采用使用皮尔逊线性相关系数(PLCC)和斯皮尔曼秩相关系数(SRCC)。

与基线模型相比,存在确定性的改进。此外,对于Inception-v2和DenseNet-121型号,文中提出的resizer性能优于双三次resizer。在更高的失败率下,对于学习型resizer来说,EfficientNet似乎是一个更难有所提升的基线模型。

3、泛化性

首先使用与resizer的默认基线不同的目标基线联合微调的可学习resizer。然后,度量目标基线在底层任务上的性能。可以观察到,对大约4个epoch的训练数据进行微调足以使resizer适应目标模型。这个验证是一个合理的指标,能够表明经过训练的resizer对各种体系结构的通用性如何。

由分类和IQA结果可知,每列显示resizer模型的初始化检查点,每行表示一个目标基线。这些结果表明,经过最少次的微调,就可以为一个基线训练的resizer可以有效地用于开发另一个基线的resizer。

在某些情况下,如DenseNet和MobileNet模型,微调的resizer实际上超过了通过随机初始化获得的分类性能。对于IQA的EffectiveNet模型也有同样的观察结果。

最后研究人员指出,这些实验专门针对图像识别任务进行了优化,并且在测试中,他们的 CNN驱动的可学习的resizer能够在这类任务中降低错误率。

未来也许考虑在其他图像任务中训练image resizer。

参考资料:

https://www.unite.ai/better-machine-learning-performance-through-cnn-based-image-resizing/

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

Google research 一行预处理代码,让你的CV模型更强!相关推荐

  1. 一行预处理代码,让你的CV模型更强!Google出品

    来源:新智元 [导读]图像预处理的一个重要操作就是resize,把不同大小的图像缩放到同一尺寸,但目前用到的resize技术仍然是老旧的,无法根据数据变换.Google Research提出一个可学习 ...

  2. 【NLP】一行Python代码中自动化文本处理

    作者|Satyam Kumar 编译|VK 来源|Towards Data Science 自然语言处理(NLP)是人工智能的一个子领域,涉及计算机与自然语言之间的交互.它围绕着如何训练一个能够理解和 ...

  3. MediaPipe:Google Research 开源的跨平台多媒体机器学习模型应用框架

    作者 | MediaPipe 团队 来源 | TensorFlow(ID:tensorflowers) [导读]我爱计算机视觉(aicvml)CV君推荐道:"虽然它是出自Google Res ...

  4. 如何在浏览器上跑深度学习模型?并且一行JS代码都不用写

    翻译 | 林椿眄 编辑 | 周翔 2017 年 8 月,华盛顿大学的陈天奇团队发布了 TVM,和 NNVM 一起组成深度学习到各种硬件的完整优化工具链,支持手机.CUDA.OpenCL.Metal.J ...

  5. 第一行代码第一章——你的第一行Android代码

    第一行代码第一章-你的第一行Android代码 知识点目录 1.1 了解全貌--Android王国简介 * 1.1.1 Android系统架构 * 1.1.2 Android已发布的版本 * 1.1. ...

  6. Google Research新成果,让表格理解和检索更上一层楼!

    文 | 舞风小兔 编 | 智商掉了一地 如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧! 表格以结构化方式存储信息,广泛地 ...

  7. MediaPipe: Google Research 开源的跨平台多媒体机器学习模型应用框架

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自TensorFlow. CV君:今天跟大家分享一篇来自谷歌的文章,介绍了Google Research 开源的多媒体机器学习模型应用框架Med ...

  8. 从敲下一行JS代码到这行代码被执行,中间发生了什么?

    前言 我们每天都在写JS,你是否想过,计算机是怎么识别你的这一行代码,并且执行相应指令?本篇文章为你讲述从敲下一行JS代码到这行代码可以被执行算出正确的结果,都经历了什么. 编译 学过计算器基础的,即 ...

  9. 第001天:第一行Android代码

    1.1    了解全貌--Android王国简介 Android从面世以来到现在已经发布了二十几个版本了.在这几年的发展过程中,谷歌为 Android王国建立了一个完整的生态系统.手机厂商.开发者.用 ...

最新文章

  1. VC++ 显示对话框
  2. virtualbox调试linux内核,virtualbox+kgdbt调试linux内核
  3. 软件工程---1.概述
  4. python自动化测试常见面试题二_思考|自动化测试面试题第二波
  5. python requests form data_Python爬虫:Request Payload和Form Data的简单区别说明
  6. php怎么输出汉字大写的时间,php汉字转首字母大写的方法是什么
  7. 在 Linux 上部署 Django 应用,nginx+gunicorn+supervisor
  8. python定义输入变量_Python 2 声明变量 输入输出 练习
  9. mysql会话杀不掉_SQL Server会话KILL不掉,一直处于KILLED /ROLLBACK状态情形浅析
  10. SOAPUI接口测试http协议详细测试过程
  11. mysql数据可视化 1
  12. UE4 四叉树 QuadTree
  13. 我的IT之路2011(一)
  14. background简写方式
  15. python入门与实战--ENS未注册域名批量查询
  16. 三酷猫学python_python学习第二期
  17. 【诗歌】值得背诵古诗(一)
  18. 滴滴是互联网届“最失败的垄断者”?
  19. 基于安卓平台的远程医疗APP设计
  20. 网络安全协议之SSL协议

热门文章

  1. android double转string_Java数组转List的三种方式及对比
  2. 创建一个守护进程来监听服务进程的异常状态_用 C# 来守护 Python 进程
  3. javascript设计模式_JavaScript 设计模式 学习总结
  4. 苹果暗黑模式_【蜜茶原创】微信最终妥协苹果,暗黑模式正式上线!
  5. 怎么扩展磁盘_电脑怎么增加C盘空间 小白教你不花钱增加C盘空间
  6. pythonprint中文教程_python中使用print输出中文的方法
  7. ajax上传文件报404_FTP上传文件需要注意哪些事项
  8. 计算机桌面图标的排列,如何进行桌面图标排列 让你的桌面一秒变酷炫【图文教程】...
  9. mysql数据库sql语法_Mysql数据库SQL语句整理
  10. 18春东大计算机在线作业3,东大18春学期《计算机辅助数控编程》在线作业3.docx...