1、GraphFPN: Graph Feature Pyramid Network for Object Detection

在需要多尺度特征的图像理解任务中,特征金字塔已经被证明是强大的。最先进的多尺度特征学习方法关注于使用具有固定拓扑的神经网络进行跨空间和尺度的特征交互。在本文中,我们提出了一种图特征金字塔网络,这种网络能够使其拓扑结构适应于不同的内在图像结构,并支持在所有尺度上同时进行特征交互。我们首先为每个输入图像定义一个特定于图像的超像素层次,以表示其内在的图像结构。图特征金字塔网络继承了超像素层次结构。上下文层和层次层旨在实现相同规模和跨不同规模的特性交互。为了使这些层更加强大,我们通过推广卷积神经网络的全局通道注意,引入了两种图神经网络的局部通道注意。提出的图特征金字塔网络可以增强卷积特征金字塔网络的多尺度特征。我们通过将图特征金字塔网络集成到Faster R-CNN算法中来评估目标检测任务中的图特征金字塔网络。在MS-COCO 2017验证和测试数据集上,改进后的算法不仅在边缘清晰的情况下优于以往最先进的基于特征金字塔的方法,而且优于其他流行的检测方法。

2、Fast Convergence of DETR with Spatially Modulated Co-Attention

最近提出的Detection Transformer (DETR)模型成功地将Transformer应用于目标检测,达到了与Faster-RCNN等两阶段目标检测框架相当的性能。然而,DETR的收敛速度缓慢。从头开始训练DETR需要500个epoch才能达到较高的精度。为了加快其收敛速度,我们提出了一种简单而有效的改进DETR框架的方案,即空间调制共同注意(spatial Modulated Co-Attention, SMCA)机制。SMCA的核心思想是通过限制在初始估计的边界框位置附近的共同注意响应较高来实现位置感知的共同注意。我们提出的SMCA通过替换解码器中原有的共同注意机制,同时保持其他操作不变,从而提高了DETR的收敛速度。此外,通过将多头和比例选择注意设计集成到SMCA中,我们成熟的SMCA可以获得比基于扩展卷积的骨干的DETR更好的性能(在108个纪元时为45.6 mAP,在500个纪元时为43.3 mAP)。我们对COCO数据集进行了广泛的消融研究,以验证SMCA。

3、ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot

单阶段长尾识别方法以一种“跷跷板”的方式提高整体性能,即要么牺牲头部的精度来更好地分类尾巴,要么提高头部的精度而忽略尾巴。现有的算法通过对非平衡集进行预训练和对平衡集进行微调的多阶段训练来绕过这种折衷。虽然取得了良好的性能,但它们不仅对预训练模型的泛化敏感,而且不容易集成到其他计算机视觉任务,如检测和分割,分类器的预训练是不适用的。在本文中,我们提出了一种单阶段长尾识别方案,盟友互补专家(ACE),该专家是子集中知识最丰富的专家,主导其训练,并与其他专家在较少见的类别中互补,而不会受到从未见过的内容的干扰。我们设计了一个分布自适应优化器来调整每个专家的学习速度,以避免过拟合。在CIFAR10-LT, CIFAR100-LT, ImageNet-LT和iNaturalist数据集上,没有特殊的铃铛和哨,vanilla ACE比目前的单阶段SOTA方法高出3-10%。它也被证明是第一个打破“跷跷板”的交易,通过提高准确性的多数和少数类别只在一个阶段。

4、Video Similarity and Alignment Learning on Partial Video Copy Detection

现有的视频复制检测方法一般基于关键帧之间的空间相似性来度量视频相似性,忽略了时间维度上的潜在相似性,导致视频相似性倾向于空间信息。目前已有的方法采用端到端方式建立统一的视频相似度,但由于丢失了详细的部分对齐信息,导致无法对复制片段进行定位。为了解决上述问题,我们提出了视频相似度和对齐学习(VSAL)方法,该方法联合建模空间相似度、时间相似度和部分对齐。为了减少空间相似性偏差,我们将时间相似性建模为帧级空间相似性预测的掩码映射,其中每个元素表示帧对位于部分对齐上的概率。为了进一步定位部分副本,从空间相似度中学习步进图,其中元素表示当前部分比对在时空相似度图上的延伸方向。从掩模图中获得的起始点按照步进图的指示延伸成部分最优对齐。利用相似度和对齐学习策略,VSAL在VCDB核心数据集上取得了最先进的f1评分。此外,我们通过为FIVR-200k数据集添加新的片段级注释,构建了一个新的部分视频复制检测和定位基准,其中VSAL也取得了最好的性能,验证了其在更具有挑战性的情况下的有效性。

5、Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters

弱监督目标检测(WSOD)是最近一个令人鼓舞的主题,它可以避免昂贵的实例级目标注释。然而,现有的WSOD方法的边界框主要是由预计算的建议确定的,从而限制了目标的精确定位。在本文中,我们为问题设置辩护,通过利用来自一个注释良好的辅助数据集的边界框回归知识来提高定位性能。首先,我们使用注释良好的辅助数据集以多阶段训练的方式探索一系列可学习的边界盒调节器(LBBAs),这是类不可知的。然后,仅使用lbba和带有非重叠类的弱注释数据集来训练lbba增强的WSOD。因此,我们的LBBAs实际上更方便和经济地实现,同时避免了辅助注释良好的数据集的泄漏。特别地,我们将学习边界框调整器定义为一个双层优化问题,并提出一种类em的多阶段训练算法。在此基础上,进一步提出了一种lbba增强WSOD的多阶段方案。此外,采用掩蔽策略来改进建议分类。实验结果验证了该方法的有效性。我们的方法优于最先进的WSOD方法和具有类似问题设置的知识转移模型。

6、I2V-GAN: Unpaired Infrared-to-Visible Video Translation

人类的视觉经常受到复杂的环境因素的不利影响,尤其是在夜视场景中。因此,红外摄像机往往通过探测周围环境中的红外辐射来帮助增强视觉效果,但红外视频由于缺乏详细的语义信息而不受欢迎。在这种情况下,为了克服红外和可见光之间固有的巨大差距,迫切需要一种有效的从红外域到可见光域的视频-视频转换方法。为了解决这一具有挑战性的问题,我们提出了一种红外到可见光(I2V)视频转换方法I2V- GAN,通过给定的未配对红外视频生成细粒度和时空一致的可见光视频。从技术上讲,我们的模型利用了三种类型的约束:1)对抗约束生成与真实框架相似的合成框架;2)引入感知损失的循环一致性,用于有效内容转换和风格保存;3)域间和域内的相似性约束,在细粒度水平上增强空间和时间空间的内容和运动一致性。此外,目前公共可用的红外和可见光数据集主要用于目标检测或跟踪,有些是由不连续的图像组成,不适合视频任务。因此,我们提供了一个新的I2V视频翻译数据集,命名为IRVI。其中车辆和监控场景连续视频12段,红外和可见光视频均可分割为24352帧。综合实验结果表明,I2V- gan方法在翻译I2V视频时具有更高的流畅性和更精细的语义细节,优于对比的SOTA方法。

7、Group Fisher Pruning for Practical Network Compression

网络压缩可以减少推理过程中的内存和计算量,因此得到了广泛的研究。然而,以往的方法很少处理剩余连接、分组/深度卷积、特征金字塔网络等复杂结构,其中多层通道是耦合的,需要同时进行剪枝。在本文中,我们提出了一种适用于各种复杂结构的通用通道剪枝方法。特别地,我们提出了一种自动查找耦合信道的分层分组算法。然后,我们基于Fisher信息推导出一个统一的度量来评估单个信道和耦合信道的重要性。此外,我们发现GPU上的推理加速与内存的减少更相关,而不是FLOPs,因此我们使用每个通道的内存减少来标准化重要性。我们的方法可以用于修剪任何结构,包括那些耦合通道。我们在各种骨干上进行了大量的实验,包括经典的ResNet和ResNeXt,移动友好的MobileNetV2,以及基于nas的RegNet,在图像分类和有待探索的目标检测上。实验结果表明,该方法能够有效地修剪复杂网络,在不牺牲精度的前提下提高推理速度。

8、RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth

边缘作为计算机视觉的基本构件,根据表面-反射率、光照、表面-法线和深度的不连续,可以分为四种类型。虽然在检测一般或个别类型的边方面已经取得了很大的进展,但全面研究所有四种类型的边仍然有待探索。在本文中,我们提出了一种新的神经网络解决方案,RINDNet,来联合检测所有四种类型的边缘。考虑到每种边的不同属性以及它们之间的关系,RINDNet学习了每种边的有效表示,并分三个阶段进行工作。在阶段I中,RINDNet使用一个共同的主干来提取所有边缘共享的特征。然后在第二阶段,它通过相应的解码器对每一种边缘类型进行分支,以制备鉴别特征。在第三阶段,每一种类型的独立决策头聚合前一阶段的特征来预测初始结果。此外,注意模块学习所有类型的注意图,以获取它们之间的潜在关系,并将这些注意图与初始结果相结合,生成最终的边缘检测结果。为了进行培训和评估,我们构建了第一个公共基准,BSDS-RIND,其中仔细标注了所有四种类型的边。在我们的实验中,与最先进的方法相比,RINDNet得到了很好的结果。其他分析载于补充材料中。

计算机视觉最新进展概览(2021年8月1日到2021年8月7日)相关推荐

  1. 计算机视觉最新进展概览2021年10月31日到2021年11月6日

    参考计算机视觉最新进展概览2021年10月31日到2021年11月6日 - 云+社区 - 腾讯云 1.Learning Distilled Collaboration Graph for Multi- ...

  2. 计算机视觉最新进展概览2021年8月15日到2021年8月21日

    参考计算机视觉最前沿进展2021年8月15日到2021年8月21日 - 云+社区 - 腾讯云 1.PIT: Position-Invariant Transform for Cross-FoV Dom ...

  3. 计算机视觉最新进展概览2021年10月18日到2021年10月23日

    1.Anisotropic Separable Set Abstraction for Efficient Point Cloud Representation Learning 在各种移动设备中嵌入 ...

  4. 西安理工大学计算机视觉与应用,关于举办计算机视觉与图像处理应用最新进展报告会的通知...

    应我校计算机与信息安全学院.广西图像图形与智能处理重点实验室.广西可信软件重点实验室.广西密码学与信息安全重点实验室邀请,上海交通大学马利庄教授.北京航空航天大学姜志国教授.中国科学院自动化研究所张晓 ...

  5. V神以太坊:Casper 权益证明与分片技术最新进展

    V神以太坊:Casper 权益证明与分片技术最新进展 原创: 卢凯 区块链大本营 昨天 2018年6月3日,由全球最大开发者社区CSDN和专注以太坊生态建设的领先企业灵钛科技主办,以太坊爱好者社区.柏 ...

  6. 重编程相关研究最新进展(2021年12月)

    [1]突破性发现:NeuroD1不能介导小胶质细胞-神经元重编程 2021-12-13 报道,上海市精神卫生中心的饶艳霞博士与天桥脑科学研究院(TCCI)转化中心主任.华山医院院长毛颖教授团队.复旦大 ...

  7. 1型糖尿病最新进展(2021年8月)

    1型糖尿病首个疾病修正疗法!预防性免疫治疗单抗teplizumab遭美国FDA拒绝批准:但与疗效无关! 2021-07-07 人体胰腺显微镜3D成像 Provention Bio公司近日宣布,美国食品 ...

  8. AAAI 2021最佳论文《Informer》作者:Transformer 最新进展

    作者:周号益,彭杰奇 单位:北京航空航天大学 自2017年,Ashish Vaswani等人在<Attention Is All You Need>这篇文章种提出了Transformer模 ...

  9. 从ICCV 2021看夜间场景自监督深度估计最新进展

    ©作者 | 青青韶华 单位 | 中科院自动化所博士生 研究方向 | 计算机视觉 单目深度估计虽然在数学和几何上是一个不适定问题(ill-posed),但是随着卷积神经网络的发展,依靠数据驱动的单目深度 ...

最新文章

  1. 在CentOS上安装Git
  2. SAP常见问题与解决办法
  3. 这些职场办公神器,你会喜欢的!
  4. 分享12306抢票心得-终极秒杀思路篇
  5. 想入门平均月薪2.58w人工智能领域?看看BAT的工程师在学什么
  6. C++远航之封装篇——对象指针、this指针
  7. java第一次作业计科2班马浩加
  8. 数据结构之红黑树简介
  9. 误Ghost数据恢复图文教程
  10. js使用正则分割字符串
  11. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise【重点笔记】
  12. python求n的倍数_求n以下所有数字的总和,这些数字是某些数字的倍数
  13. 小白linux学习[1]__虚拟机NAT方式共享电信拨号上网
  14. 第二人生的源码分析(四十)创建多个工作线程
  15. 关于想写我与Java的故事,满脑子却都是与JavaCV纠缠不清的那段日子
  16. 下载网页中不能下载的pdf
  17. python发短信sim800_玩转 ESP32 + Arduino (十八) 采用SIM800L发送短信和定位(基础知识)...
  18. 跳跃/经典动归/棋盘不同走向的表示模板
  19. VC++6.0 MSDN下载地址
  20. 学会Python就能做游戏脚本开发?别天真了!—— 关于游戏脚本的3个质疑

热门文章

  1. 鲁宾逊微积分与“知识共享”,携手相伴进入中国
  2. Win10 OpenGL安装及配置
  3. 【水位预测】基于matlab径向基神经网络地下水位预测【含Matlab源码 1939期】
  4. emacs下安装eaf
  5. ohci之usb_submit_urb
  6. Java百分比格式化
  7. python怎么算二元一次方程_用python解决高数所有计算题--sympy求解极限、积分、微分、二元一次方程等...
  8. 亿图图示甘特图 开始日期和结束日期注意事项
  9. [UE4渲染]LightPass中加入ramp图
  10. 好好上个网不容易:2016上半年网络安全事件盘点