【今日CV 计算机视觉论文速览第146期】Mon, 22 Jul 2019

今日CS.CV 计算机视觉论文速览
Mon, 22 Jul 2019
Totally 19 papers
?上期速览✈更多精彩请移步主页

Interesting:

?基于图卷积的去噪方法, 非局域的自相似性是一种对于图像去噪十分有效的先验信息，但现有的CNN大多只探索了局域信息。研究人员提出了一种基于图卷积的操作来创造了非局域的感受野。图卷积操作可以将经典卷积转到泛化到任意的图，并通过动态计算隐含特征中图的相似性来得到自相似性的高效表达。最后引入了轻量级的边缘条件卷积来解决梯度消失和过参数化的问题。(from Politecnico di Torino)
GCDN的架构如下图所示，右侧是非局域的图结构，包含局域(卷积)和非局域（NN）的操作：

模型HPF和LPF1(高通和低通图滤波器)的感受野：
一些去噪结果：

?XferNAS神经网络架构搜索的迁移学习,研究人员提出了一种可以从先前的网络搜索经验中迁移模型搜索能力的方法。在已有网络上进行较小的优化来实现搜索模型的迁移。 (from IBM)

?肺部内窥镜的自动导航, 研究人员基于深度学习提出了定位支气管镜的方法AirwayNet和BifurcationNet，并基于这一模型可以在器官和支气管内实现自动导航。(from 斯坦福)

实验中使用的机器人系统：

两种工作模式：

Daily Computer Vision Papers

Predicting Visual Memory Schemas with Variational Autoencoders
Authors Cameron Kyle Davidson, Adrian Bors, Karla Evans
可视内存模式VMS映射显示图像的哪些区域导致该图像被记住或错误记住。以前的工作成功地使用卷积神经网络生成低分辨率VMS图。我们将此问题作为使用变分自动编码器的图像到图像转换任务来解决。这种方法允许我们生成更高分辨率的双通道图像，代表可视内存模式，允许我们分别评估预测的真实可记忆性和虚假记忆性。我们还评估了VMS地图，预测的VMS地图，地面实况可记忆性分数和预测的记忆性分数之间的关系。

Matrix cofactorization for joint spatial-spectral unmixing of hyperspectral images
Authors Adrien Lagrange, Mathieu Fauvel, St phane May, Nicolas Dobigeon
高光谱分离旨在识别图像的每个像素的一组基本光谱和相应的混合系数。由于基本光谱对应于真实材料的反射光谱，它们通常非常相关，从而产生病态条件问题。为了丰富模型并减少由于高相关性引起的模糊，通常引入空间信息来补充光谱信息。引入空间信息的最常见方式是依赖丰度图的空间正则化。在本文中，空间信息不是考虑简单但有限的正则化过程，而是通过新提出的空间解混的上下文直接合并。为每个像素提取上下文特征，并且根据线性模型分解该附加观察集。最后，空间和光谱观测结果通过辅助因子模型共同混合。特别地，该模型引入了用于识别共享空间和光谱特征的聚类的耦合项。对合成和真实数据进行了所提出方法的评估，并且表明结果是准确的并且也非常有意义，因为它们在空间和光谱上描述了场景的各个区域。

Fast and robust detection of solar modules in electroluminescence images
Authors Mathis Hoffmann, Bernd Doll, Florian Talkenberg, Christoph J. Brabec, Andreas K. Maier, Vincent Christlein
快速，非破坏性和现场质量控制工具，主要是高灵敏度成像技术，对评估光伏电站的可靠性非常重要。为了最小化进一步损坏和电力损失的风险，电致发光EL成像用于在早期检测局部缺陷，这可能导致未来的电损失。对于EL测量的自动缺陷识别，需要对模块进行稳健的检测和校正，以及对单元进行可选的分段。本文介绍了一种检测太阳能电池模块和EL图像中太阳能电池交叉点的方法。我们仅需要1D图像统计用于检测，从而产生计算效率高的方法。此外，该方法能够在透视失真下以及在图像中可见多个模块的情况下检测模块。我们将我们的方法与现有技术进行比较，并表明它在存在透视畸变方面是优越的，而在模块与探测器大致共面的图像上的性能与参考方法类似。最后，我们表明，与参考方法相比，我们在计算时间方面有了很大的改进。

Interaction-and-Aggregation Network for Person Re-identification
Authors Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen
人员识别reID极大地受益于深度卷积神经网络CNN，其学习了强大的特征嵌入。然而，由于其固定的几何结构，CNN本身在限制人体姿势和比例的大变化方面受到限制。在本文中，我们提出了一种新颖的网络结构，即交互和聚合IA，以增强CNN的特征表示能力。首先，介绍了Spatial IA SIA模块。它模拟空间特征之间的相互依赖关系，然后聚合对应于相同身体部位的相关特征。与从固定矩形区域提取特征的CNN不同，SIA可以根据输入的人姿势和比例自适应地确定感受野。其次，我们引入了通道IA CIA模块，该模块选择性地聚合通道特征以增强特征表示，尤其是对于小规模视觉提示。此外，可以通过将IA块插入任何深度的CNN来构建IA网络。我们通过展示其在三个基准数据集上的最新技术方法的优越性来验证我们的模型对人reID的有效性。

VRSTC: Occlusion-Free Video Person Re-Identification
Authors Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen
视频人识别ID在监控视频分析中起着重要作用。然而，视频重新ID的性能在部分遮挡下严重退化。在本文中，我们提出了一种新的网络，称为Spatio Temporal Completion网络STCnet，用于明确处理部分遮挡问题。与大多数先前丢弃遮挡帧的作品不同，STCnet可以恢复遮挡部分的外观。一方面，行人框架的空间结构可用于从该框架的未被遮挡的身体部位预测被遮挡的身体部位。另一方面，行人序列的时间模式提供了生成被遮挡部分内容的重要线索。利用Spatio时间信息，STCnet可以恢复被遮挡部分的外观，可以利用那些未被遮挡的部分来获得更准确的视频ID。通过将re ID网络与STCnet组合，提出了对部分遮挡VRSTC鲁棒的视频重新ID框架。对三个具有挑战性的视频ID数据库的实验表明，所提出的方法优于现有技术。

Only Time Can Tell: Discovering Temporal Data for Temporal Modeling
Authors Laura Sevilla Lara, Shengxin Zha, Zhicheng Yan, Vedanuj Goswami, Matt Feiszli, Lorenzo Torresani
了解时间信息以及视觉世界如何随时间变化是智能系统的基本能力。在视频理解中，时间信息是许多当前挑战的核心，包括压缩，有效推理，运动估计或摘要。然而，在当前的视频数据集中，已经观察到通常可以在没有来自单个视频帧的任何时间信息的情况下识别动作类。因此，这些数据集中的基准测试和训练可能会给具有强大图像理解能力的模型带来无意识的优势，而不是具有强烈时间理解能力的模型。在本文中，我们通过识别行动类来解决这个问题，其中时间信息实际上是识别它们并调用这些时间类所必需的。使用计算方法选择时间类会使过程偏向。相反，我们提出了一种基于简单有效的人体注释实验的方法。我们通过及时改变帧来删除时间信息，并测量是否仍然可以识别动作。当帧不按顺序时无法识别的类包含在时间数据集中。我们观察到该集合在统计上与其他静态类别不同，并且其中的性能与网络捕获时间信息的能力相关。因此，我们将其用作当前流行网络的基准，揭示了一系列有趣的事实。我们还探讨了训练对时间数据集的影响，并观察到这导致在看不见的类中更好的泛化，证明需要更多的时态数据。我们希望所提出的时间类别数据集将有助于指导未来的时间建模研究，以便更好地理解视频。

Temporally Coherent General Dynamic Scene Reconstruction
Authors Armin Mustafa, Marco Volino, Hansung Kim, Jean Yves Guillemaut, Adrian Hilton
用于来自多个宽基线相机的动态场景重建的现有技术主要集中在受控环境中的重建，具有固定的校准相机和强大的先前约束。本文介绍了一种从多视图宽基线静态或移动摄像机获得复杂动态场景的4D表示的一般方法，而无需事先了解场景结构，外观或照明。该工作的贡献是一种初始粗略重建的初始化联合估计的自动方法，通过引入时间相干性的联合多视图分割和重建的稀疏到密集时间对应，以及通过引入动态场景的联合分割细化和密集重建的一般鲁棒方法形状约束。与各种复杂的室内和室外场景的现有技术方法的比较，证明了在多视图分割和密集重建中的改进的准确性。本文论证了完全时间相干4D场景模型的无监督重建，改进了非刚性目标分割和形状重建，并将其应用于自由视点渲染和虚拟现实。

Medical Imaging with Deep Learning: MIDL 2019 -- Abstract Track
Authors M. Jorge Cardoso, Aasa Feragen, Ben Glocker, Ender Konukoglu, Ipek Oguz, Gozde Unal, Tom Vercauteren
本简编收集了2019年7月8日在英国伦敦举行的第二届国际医学影像学会与MIDI 2019年深度学习会议的所有被接受的摘要。请注意，此处仅列出了接受的摘要，MIDL 2019年全文论文集发表于机器学习研究论文集PMLR http proceedings.mlr.press v102的第102卷。

Generating fMRI volumes from T1-weighted volumes using 3D CycleGAN
Authors David Abramian, Anders Eklund
fMRI体积和T1加权体积之间的配准具有挑战性，因为fMRI体积包含几何扭曲。在这里，我们提出初步结果，显示3D CycleGAN可用于从T1加权体积合成fMRI体积，反之亦然，这可以促进注册。

Deep Graph-Convolutional Image Denoising
Authors Diego Valsesia, Giulia Fracastoro, Enrico Magli
众所周知，非局部自相似性是图像去噪问题的有效先验。然而，将其纳入卷积神经网络的工作很少，尽管只利用了本地信息，但它超越了非基于局部模型的方法。在本文中，我们提出了一种新颖的端到端可训练神经网络架构，该架构采用基于图卷积运算的层，从而创建具有非局部感受域的神经元。图卷积运算将经典卷积推广到任意图。在这项工作中，图形是根据网络的隐藏特征之间的相似性动态计算的，因此利用网络的强大表示学习能力来发现自相似模式。我们引入了一个轻量级的边缘条件卷积，它解决了这种特殊图形卷积的消失梯度和过度参数化问题。广泛的实验显示了现有技术的性能，同时改善了合成高斯噪声和真实噪声的定性和定量结果。

Robust Real-time RGB-D Visual Odometry in Dynamic Environments via Rigid Motion Model
Authors Sangil Lee, Clark Youngdong Son, H. Jin Kim
在本文中，我们通过场景流更新的刚性运动模型在动态环境中提出了一种强大的实时视觉测距。所提出的算法包括空间运动分割和时间运动跟踪。空间分割首先通过使用基于网格的场景流生成若干运动假设，并且对提取的运动假设进行聚类，分离彼此独立移动的对象。此外，我们使用双模式运动模型来一致地区分时间运动跟踪阶段中的静态和动态部分。最后，所提出的算法通过利用被分类为静态部分的区域来估计相机的姿势。为了评估在动态刚性物体存在下视觉测距的性能，我们使用包含RGB D图像的自收集数据集和用于地面实况的运动捕捉数据。我们将我们的算法与最先进的视觉测距算法进行比较。验证结果表明，该算法能够在动态环境中稳健，准确地估计摄像机的姿态。

A multiscale Laplacian of Gaussian (LoG) filtering approach to pulmonary nodule detection from whole-lung CT scans
Authors Sergei V. Fotin, David F. Yankelevitz, Claudia I. Henschke, Anthony P. Reeves
候选生成是大多数计算机辅助检测CAD系统的第一阶段，它快速扫描整个图像数据中的任何可能的异常位置，而CAD系统的后续阶段细化候选列表以确定这些候选者中最可能或最重要的。候选生成器创建位置列表并提供每个候选的大小估计。本文提出的用于检测全肺CT扫描肺结节的多尺度标准化拉普拉斯高斯LoG滤波方法对固体和非实体肺结节均具有高灵敏度。肺结节LoG过滤方法在706个全肺低剂量CT扫描的大小丰富的数据库上得到验证，该扫描包含499个固体4mm和107个非固体6mm肺结节。该方法对固体结节的灵敏度为0.998 498 499，对非固体结节的灵敏度为1.000 107 107。此外，与放射科医师测量相比，该方法提供的固体平均结节尺寸估计误差为0.12 mm，非固体结节为1.27 mm。自动和手动确定的结节质心之间的平均距离分别为1.41 mm和1.43 mm。

Multi-Task Regression-based Learning for Autonomous Unmanned Aerial Vehicle Flight Control within Unstructured Outdoor Environments
Authors Bruna G. Maciel Pearson, Samet Akcay, Amir Atapour Abarghouei, Christopher Holder, Toby P. Breckon
全球无人机无人机无人机行业增长的增长扩大了全自动无人机应用的可能性。部分推动该研究的特定应用是在非结构化室外环境中使用无人机在广域搜索和监视操作中。这种环境的关键问题是缺乏可以帮助自主飞行的结构化特征，例如道路线路或路径。在本文中，我们提出了一种基于端到端多任务回归的学习方法，能够定义用于在森林冠层下进行导航和探索的飞行命令，而不管是否存在轨迹或附加传感器，即GPS。使用循环流水线中的软件执行训练和测试，其允许针对现有技术的姿势估计技术进行详细评估。我们的广泛实验表明，我们的方法擅长在所需的搜索范围内进行密集探索，能够覆盖更广泛的搜索区域，推广到以前看不见和未开发的环境，并且优于当代最先进的技术。

Deep Perceptual Compression
Authors Yash Patel, Srikar Appalaraju, R. Manmatha
在最近的文献中已经提出了几种深度学习的有损压缩技术。其中大多数是通过使用MS SSIM多尺度结构相似性或MSE均方误差作为损失函数来优化的。不幸的是，这些都与人类感知无关，并且从得到的压缩图像中可以清楚地看到这一点。在一些情况下，深度学习技术的MS SSIM高于传统的非深度学习编解码器，如JPEG 2000或BPG。然而，这些深度学习技术产生的图像在许多情况下明显比人类眼睛更糟糕，而不是JPEG 2000或BPG产生的图像。

XferNAS: Transfer Neural Architecture Search
Authors Martin Wistuba
神经架构搜索NAS这一术语指的是为以前未知的新任务自动优化网络架构。由于测试架构在计算上非常昂贵，因此许多优化器需要数天甚至数周才能找到合适的架构。但是，如果重复使用先前对不同任务的搜索的知识，则可以显着减少该搜索时间。在这项工作中，我们提出了一个普遍适用的框架，该框架仅对现有优化器进行微小更改以利用此功能。例如，我们选择一个现有的优化器，并展示框架集成的复杂性及其影响。在CIFAR 10和CIFAR 100的实验中，我们观察到搜索时间从200天减少到仅仅6个GPU天，速度提高了33倍。此外，我们观察到NAS优化器的新记录为1.99和14.06。 CIFAR基准测试，分别。在另一项研究中，我们分析了源数据和目标数据的影响。根据经验，我们证明了所提出的框架通常会提供更好的结果，并且在最坏的情况下，与未修改的优化器一样好。

Fully-automated deep learning-powered system for DCE-MRI analysis of brain tumors
Authors Jakub Nalepa, Pablo Ribalta Lorenzo, Michal Marcinkiewicz, Barbara Bobek Billewicz, Pawel Wawrzyniak, Maksym Walczak, Michal Kawulok, Wojciech Dudzik, Grzegorz Mrukwa, Pawel Ulrych, Michael P. Hayball
动态对比增强磁共振成像DCE MRI在脑肿瘤的诊断和分级中起重要作用。尽管手动DCE生物标记物提取算法通过提供关于肿瘤预后和预测的定量信息来提高DCE MRI的诊断产量，但它们是耗时且易于发生人为错误的。在本文中，我们提出了一个全自动的端到端系统，用于脑肿瘤的DCE MRI分析。我们的深度学习驱动技术不需要任何用户交互，它可以产生可重复的结果，并且它针对肿瘤分割的基准BraTS 17进行了严格验证，并且由定量成像生物标记联盟发布了用于对比剂浓度拟合和临床44低的测试数据集等级胶质瘤患者数据。此外，我们引入了用于药代动力学建模的血管输入函数的立方模型，其与现有技术相比显着降低了拟合误差，同时还有用于确定血管输入区域的实时算法。经过统计测试支持的广泛实验研究表明，我们的系统在分割精度和对比度浓度拟合方面提供了最先进的结果，同时使用单个GPU处理整个输入DCE MRI研究需要不到3分钟。

Exact Recovery of Tensor Robust Principal Component Analysis under Linear Transforms
Authors Canyi Lu, Pan Zhou
这项工作研究Tensor Robust主成分分析TRPCA问题，该问题旨在从其总和中精确地恢复低秩和稀疏分量。我们的模型是由最近提出的基于线性变换的张量张量积和张量SVD推动的。我们定义了一个新的变换依赖张量秩和相应的张量核范数。然后我们通过凸优化求解TRPCA问题，其目标是新张量核范数和ell 1范数的加权组合。理论上，我们证明了在某些不相干条件下，凸程序正好恢复了潜在的低秩和稀疏分量。我们的新TRPCA模型概括了现有的作品，这引起了极大的兴趣。特别是，如果研究的张量减少到矩阵，我们的TRPCA模型减少到已知的矩阵RPCA。我们允许使用一般线性变换的新TRPCA可以被视为我们之前使用离散傅里叶变换的TRPCA工作的扩展。但他们对恢复保证的证明是不同的。数值实验验证了我们的结果，并且在图像恢复中的应用证明了我们的方法的优越性。

Dynamical Distance Learning for Unsupervised and Semi-Supervised Skill Discovery
Authors Kristian Hartikainen, Xinyang Geng, Tuomas Haarnoja, Sergey Levine
强化学习需要手动指定奖励功能来学习任务。虽然原则上该奖励功能仅需要指定任务目标，但实际上强化学习可能非常耗时甚至是不可行的，除非奖励功能被塑造以便为成功的结果提供平滑的梯度。这种形状很难用手指定，特别是当从原始观察中学习任务时，例如图像。在本文中，我们研究如何自动学习动态距离，衡量从任何其他州到达给定目标状态的预期时间步数。这些动态距离可用于为实现新目标提供形状良好的奖励功能，从而有效地学习复杂任务。我们还表明，动态距离可用于半监督制度，其中无人监督的与环境的相互作用用于学习动态距离，而少量的偏好监督用于确定任务目标，而没有任何手动设计的奖励功能或目标示例。我们在模拟和现实世界机器人中评估我们的方法。我们证明了我们的方法可以在没有任何监督的情况下学习模拟中的运动技能。我们还展示了它可以学习使用真实世界9 DoF手转动阀门，使用原始图像观察和十个偏好标签，而无需任何其他监督。学习技能的视频可以在项目网站上找到

Exploiting bilateral symmetry in brain lesion segmentation
Authors Kevin Raina, Uladzimir Yahorau, Tanya Schmah
脑损伤，包括中风和肿瘤，在位置，大小，强度和形式方面具有高度可变性，使得自动分割变得困难。我们提出通过利用健康大脑的双侧准对称性来改进现有的分割方法，这些大脑在存在病变时会发生分解。具体地说，我们使用神经图像的非线性配准到反射配准的反射版本，以确定每个体素在另一个半球中的同源对应体素。围绕同源体素的贴片作为一组新特征添加到分割算法中。为了评估该方法，我们实施了两种不同的基于CNN的多模式MRI中风病变分割算法，然后通过使用上述反射配准方法添加额外的对称特征来增强它们。对于每种架构，我们在缺血性卒中病变分段挑战ISLES 2015挑战的SISS训练数据集上比较了有无对称性增强的性能。使用仿射反射配准提高了基线的性能，但非线性反射配准提供了明显更好的结果，一个架构的基线系数比基线提高了13个百分点，另一个架构提高了9个点。我们认为将对称特征添加到现有分割算法的广泛适用性，特别是使用非线性，无模板方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com