【今日CV 计算机视觉论文速览第131期】Mon, 17 Jun 2019

今日CS.CV 计算机视觉论文速览
Mon, 17 Jun 2019
Totally 44 papers
?上期速览✈更多精彩请移步主页

Interesting:

?综述:基于图像的深度重建, 基于单张或多张RGB图像估计深度是十分重要的工作，研究人员调研了超过100篇文章及其关键贡献，总结了常用的技术路线，分析了每类方法的优点和局限性，包括训练数据集、网络结构、训练策略、应用场景及其对结果的影响。文章包括立体匹配，单图或多图回归，训练过程以及损失函数的选择，以及各种方法的具体表现。文中的多个表格给出了很多有意义的对比和总结。(from Murdoch University 澳大利亚)

FUTURE RESEARCH DIRECTIONS值得学习，包括输入数据的选择、精度的提升、表现度量、训练法和数据bias等。

?点云与对应图像的6DOF匹配, 研究人员提出了一种直接匹配RGB图像特征和点云特征的方法，用于将图像与对应点云的位置和位姿进行定位。研究人员构建了数据集来匹配对应数据的2D,3D描述子，并利用他来训练这种描述子匹配算法。(from University of Western Australia)
分别从图像和点云中抽取对应关键点和描述子，随后利用描述子匹配器来将其进行匹配以寻找对应的2D,3D关键点对。这种方法对于图像向点云的位姿估计和点云的匹配具有十分鲁棒的效果。

匹配的结果：

?基于Retinx和GANs的暗光增强算法, 对于极度暗光条件下的处理研究人员结合了Retinex理论和GAN，将成像视为照明图像和反射图像两部分，并利用优化方法提高了生成图像的质量。(from 中科大)
可以看到这种方法利用了黄色的UNet来提升了环境中的照明条件，并最终生成更加明亮的图像：

照明和反射的估计结果：

一些暗光增强的结果：

dataset: Converted See-In-the-Dark (CSID)
LoL dataset:https://github.com/daooshee/BMVC2018website/blob/master/index.html

?基于语义分割的通用条形码二维码检测器, (from Moscow Institute of Physics and Technology)

在不同数据集上的比较：

dataset:ArTe-Lab 1D Medium Barcode Dataset

?***基于卫星影像的地形滑坡评估, (from MIT)

dataset:SENTINEL-2 IMAGERY DATA

ref:1.2,3

Daily Computer Vision Papers

***Connecting Touch and Vision via Cross-Modal Prediction
Authors Yunzhu Li, Jun Yan Zhu, Russ Tedrake, Antonio Torralba
人类使用多种模态感官输入来感知世界，例如视觉，听觉和触觉。在这项工作中，我们研究了视觉和触觉之间的交叉模态联系。这个跨域建模任务的主要挑战在于两者之间的显着尺度差异，而我们的眼睛立刻感知整个视觉场景，人类在任何给定时刻只能感受到物体的一个小区域。为了连接视觉和触觉，我们引入了从视觉输入合成合理的触觉信号的新任务，以及想象我们如何在给定触觉数据作为输入的情况下与对象进行交互。为了实现我们的目标，我们首先为机器人配备视觉和触觉传感器，并收集相应视觉和触觉图像序列的大规模数据集。为了缩小规模差距，我们提出了一种新的条件对抗模型，该模型包含了触摸的比例和位置信息。人类感知研究表明，我们的模型可以从触觉数据中产生逼真的视觉图像，反之亦然。最后，我们提供了关于不同系统设计的定性和定量实验结果，以及可视化我们模型的学习表示。

Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving
Authors Yurong You, Yan Wang, Wei Lun Chao, Divyansh Garg, Geoff Pleiss, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger
在3D中检测诸如汽车和行人之类的物体在自动驾驶中起着不可或缺的作用。现有方法主要依靠昂贵的LiDAR传感器来获得准确的深度信息。虽然最近伪LiDAR作为一种有前景的替代方案被引入，但仅以立体图像为基础的成本要低得多，但仍然存在显着的性能差距。在本文中，我们通过改进立体声深度估计，为伪LiDAR框架提供了实质性的进步。具体地说，我们使立体网络架构和损耗函数更加符合远距离物体的精确深度估计，这是目前伪LiDAR的主要弱点。此外，我们探索了利用更便宜但极其稀疏的LiDAR传感器的想法，这些传感器单独提供的信息不足以进行3D检测，从而影响我们的深度估算。我们提出了一种深度传播算法，在初始深度估计的指导下，在整个深度图上扩散这些精确的测量值。我们在KITTI物体检测基准测试中表明，我们的组合方法在深度估计和基于立体的3D物体检测方面取得了实质性的改进，优于远程物体的先前技术检测精度40。我们的代码将在公开发布

Universal Barcode Detector via Semantic Segmentation
Authors Andrey Zharkov, Ivan Zagaynov
通过语义分割的通用条形码检测器

R2D2: Reliable and Repeatable Detectors and Descriptors for Joint Sparse Keypoint Detection and Local Feature Extraction
Authors Jerome Revaud, Philippe Weinzaepfel, C sar De Souza, Noe Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger
兴趣点检测和局部特征描述是许多计算机视觉应用中的基本步骤。这些任务的经典方法基于检测然后描述范例，其中使用单独的手工方法来首先识别可重复的关键点，然后用本地描述符表示它们。利用度量学习损失训练的神经网络最近采用了这些技术，侧重于在检测到的关键点位置处学习关键点检测和学习描述符的可重复显着性映射。在这项工作中，我们认为显着区域不一定是歧视性的，因此可能损害描述的性能。此外，我们声称只能在可以高可信度地执行匹配的区域中学习描述符。因此，我们建议联合学习关键点检测和描述以及局部描述符判别性的预测器。这使我们能够避免模糊区域并导致可靠的关键点检测和描述。我们的检测和描述方法，通过自我监督培训，可以同时输出稀疏，可重复和可靠的关键点，优于HPatches数据集上的最先进的检测器和描述符。它还建立了最近发布的Aachen Day Night本地化数据集的记录。

A Partially Reversible U-Net for Memory-Efficient Volumetric Image Segmentation
Authors Robin Br gger, Christian F. Baumgartner, Ender Konukoglu
用于分段的3D卷积神经网络的一个主要缺点是它们的存储器占用，这需要在网络架构中妥协以适应给定的存储器预算。在RevNet的图像分类的推动下，我们提出了一种部分可逆的U Net架构，可以大幅降低内存消耗。可逆架构允许我们从后续层的输出中精确恢复每个层的输出，从而无需存储反向传播的激活。这缓解了最大的内存瓶颈，并在理论上实现了非常深的3D架构。在BraTS挑战数据集上，我们展示了大量的内存节省。我们进一步表明，释放的存储器可用于处理整个视场FOV而不是补丁。由于部分可逆的架构，增加网络深度可以提高分段精度，同时仅增加一小部分内存占用。

Modality Conversion of Handwritten Patterns by Cross Variational Autoencoders
Authors Taichi Sumi, Brian Kenji Iwana, Hideaki Hayashi, Seiichi Uchida
本研究试图构建一个可以将在线和离线手写字符相互转换的网络。建议的网络由两个具有共享潜在空间的变分自动编码器VAE组成。 VAE经过培训，可同时生成在线和离线手写拉丁字符。通过这种方式，我们创建了一个交叉模态VAE Cross VAE。在训练期间，拟议的跨越VAE被训练以最小化两种模态的重建损失，两种VAE的分布损失，以及称为空间共享损失的新的第三种损失。第三，空间共享损失用于通过计算潜在变量之间的距离来鼓励模态共享相同的潜在空间。通过所提出的方法，可以实现在线和离线手写字符的相互转换。在本文中，我们通过定性和定量分析证明了Cross VAE的性能。

A Survey on Deep Learning Architectures for Image-based Depth Reconstruction
Authors Hamid Laga
估计RGB图像的深度是一个长期存在的问题，计算机视觉，图形和机器学习社区已经探索了数十年。在本文中，我们对该领域的最新发展进行了全面的调查。我们将重点关注使用深度学习技术从一个或多个图像估计深度的作品。深度学习，加上大型训练数据集的可用性，彻底改变了研究界正在深入重建问题的方式。在本文中，我们调查了过去五年中出现的100多个关键贡献，总结了最常用的管道，并讨论了它们的优点和局限性。回顾到目前为止已取得的成果，我们还推测未来可能会为基于学习的深度重建研究带来什么。

Copy and Paste: A Simple But Effective Initialization Method for Black-Box Adversarial Attacks
Authors Thomas Brunner, Frederik Diehl, Alois Knoll
已经提出了许多用于生成黑盒子对抗性示例的优化方法，但是没有详细考虑初始化所述优化器的方面。我们证明起点的选择确实至关重要，而且最先进的攻击性能取决于它。首先，我们讨论攻击图像分类器的起始点的理想属性，以及如何选择它们以提高查询效率。值得注意的是，我们发现简单地从其他图像复制小补丁是一种有效的策略。在对ImageNet的评估中，我们表明这种初始化将现有技术边界攻击所需的查询数量减少了81，明显优于针对目标黑匣子对抗性示例报告的先前结果。

Direct Image to Point Cloud Descriptors Matching for 6-DOF Camera Localization in Dense 3D Point Cloud
Authors Uzair Nadeem, Mohammad A. A. K. Jalwana, Mohammed Bennamoun, Roberto Togneri, Ferdous Sohel
我们提出了一种新概念，用于直接匹配从RGB图像中提取的特征描述符，以及从3D点云提取的特征描述符。我们使用这个概念来定位密集点云中查询图像的相机的位置和方向姿势。我们生成匹配2D和3D描述符的数据集，并使用它来训练提出的Descriptor Matcher算法。为了在点云中本地化查询图像，我们从查询图像中提取2D关键点和描述符。然后，描述符匹配器用于通过将2D描述符与预先提取的点云的3D描述符进行匹配来找到对应的对2D和3D关键点。该信息用于稳健的姿势估计算法中以在3D点云中定位查询图像。实验证明直接匹配2D和3D描述符不仅是可行的想法，而且与用于相机姿态定位的其他现有技术方法相比也实现了竞争准确性。

***MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation
Authors Lorenzo Bertoni, Sven Kreiss, Alexandre Alahi
我们从单眼RGB图像中解决了3D人体定位的根本问题。在输出点估计的神经网络的限制的驱动下，我们通过基于拉普拉斯分布的损失函数预测置信区间的新神经网络来解决任务中的模糊性。我们的架构是一个轻量级的前馈神经网络，它可以预测给定2D人体姿势的3D坐标。该设计特别适用于小型训练数据和交叉数据集概括。我们的实验表明，我们在KITTI和nuScenes数据集上的表现优于最先进的结果，ii甚至超越了远方行人的立体声，并且iii估计了有意义的置信区间。我们进一步分享了对我们的不确定性模型的见解，以及有限的观察和分布样本。

Low-light Image Enhancement Algorithm Based on Retinex and Generative Adversarial Network
Authors Yangming Shi, Xiaopo Wu, Ming Zhu
低光图像增强通常被认为是图像处理中的挑战性任务，尤其是对于夜间或弱照明的复杂视觉任务。为了减少低光图像上的模糊或噪声，大量论文有助于应用不同的技术。令人遗憾的是，他们中的大多数在处理图像的极差照明部分或在实践中测试时几乎没有用处。在这项工作中，作者提出了一种基于Retinex理论和生成对抗网络GAN处理低光图像的新方法，GAN由用于将图像分成照明图像和反射图像的分解部分组成，以及用于生成的增强部分高品质的形象。期望这种辨别网络使得生成的图像更清晰。在Converted See In the Dark CSID数据集的基础上，在不同光照强度的情况下实现了实验耦合，取得了令人满意的结果，超出了预期，鼓励了作者。总之，所提出的基于GAN的网络和在这项工作中使用的Retinex理论已被证明在处理低光图像增强问题方面是有效的，这将有利于图像处理，毫无疑问。

Utilizing the Instability in Weakly Supervised Object Detection
Authors Yan Gao, Boxiao Liu, Nan Guo, Xiaochun Ye, Fang Wan, Haihang You, Dongrui Fan
弱监督对象检测WSOD专注于仅具有图像级别注释的训练对象检测器，并且由于监督和目标之间的差距而具有挑战性。大多数现有方法将WSOD建模为多实例学习MIL问题。然而，我们观察到基于MIL的检测器的结果是不稳定的，即，当使用不同的初始化时，最有信心的边界框显着改变。我们通过引入衡量它的度量来定量地证明不稳定性，并根据经验分析不稳定的原因。尽管不稳定性似乎对检测任务有害，但我们认为它可以通过融合不同初始化检测器的结果来改善性能。为了实现这个想法，我们提出了一个具有多个检测分支的端到端框架，并引入了一个简单的融合策略。我们进一步提出了一种正交初始化方法来增加检测分支之间的差异。通过利用不稳定性，我们在具有挑战性的PASCAL VOC 2007和2012数据集上实现了52.6和48.0 mAP，这两个数据集都是新的艺术状态。

Towards End-to-End Text Spotting in Natural Scenes
Authors Hui Li, Peng Wang, Chunhua Shen
自然场景图像中的文本定位对于许多图像理解任务非常重要。它包括两个子任务文本检测和识别。在这项工作中，我们提出了一个统一的网络，通过单个前向传递同时本地化和识别文本，避免中间过程，如图像裁剪和特征重新计算，单词分离和字符分组。

Fusion vectors: Embedding Graph Fusions for Efficient Unsupervised Rank Aggregation
Authors Icaro Cavalcante Dourado, Ricardo da Silva Torres
近年来，数字内容的数量和复杂性的大量增加引起了对特设检索系统的广泛关注。互补的是，异构数据源和检索模型的存在刺激了日益巧妙和有效的秩聚合函数的激增。尽管最近提出的等级聚合函数在有效性方面是有希望的，但该领域的现有提议通常忽略了效率方面。我们提出了一种创新的秩聚合函数，该函数是无监督的，本质上是多模态的，并且针对快速检索和最高效性能。我们介绍了基于图的秩聚合表示模型的嵌入和索引的概念，以及它们在搜索任务中的应用。还提出了用于基于图的秩表示的嵌入公式。我们引入了融合向量的概念，即基于秩的对象的后期融合表示，从中定义了内在秩聚合检索模型。接下来，我们提出了一种基于融合向量的快速检索方法，从而推广了一种有效的秩聚合系统。我们的方法在最先进的相关工作中呈现出最高效的表现，同时带来了多模态和有效性的新颖方面。在所考虑的所有数据集中，针对最近的基线实现了一致的加速。

Divide and Conquer the Embedding Space for Metric Learning
Authors Artsiom Sanakoyeu, Vadim Tschernezki, Uta B chler, Bj rn Ommer
学习嵌入空间，其中语义相似的对象靠近在一起，不同的对象相隔很远，是许多计算机视觉应用的基石。现有方法通常在嵌入空间中学习用于所有可用数据点的单个度量，其可具有非常复杂的非均匀分布，其中对象之间具有不同的相似性概念，例如，外观，形状，颜色或语义。学习单个距离度量的方法通常很难编码所有不同类型的关系，并且不能很好地概括。在这项工作中，我们提出了一种新颖易于实现的深度度量学习的分而治之的方法，它显着改善了度量学习的艺术性能。我们的方法通过将嵌入空间和数据共同分成K个较小的子问题来更有效地利用嵌入空间。它将数据和嵌入空间分成K个子集，并在嵌入空间的非重叠子空间中学习K个单独的距离度量，由神经网络的嵌入层中的神经元组定义。所提出的方法提高了收敛速度并改善了泛化，因为与原始子问题相比，每个子问题的复杂性降低了。我们表明，我们的方法在CUB200 2011，CARS196，斯坦福在线产品，店铺服装和PKU VehicleID数据集中的检索，聚类和重新识别任务方面都大大超过了现有技术水平。

***Image Captioning: Transforming Objects into Words
Authors Simao Herdade, Armin Kappeler, Kofi Boakye, Joao Soares
图像字幕模型通常遵循编码器解码器架构，其使用抽象图像特征向量作为编码器的输入。最成功的算法之一使用从对象检测器获得的区域提议中提取的特征向量。在这项工作中，我们介绍了对象关系变换器，它建立在这种方法的基础上，通过几何注意显式地结合有关输入检测对象之间的空间关系的信息。定量和定性结果证明了这种几何注意对图像字幕的重要性，从而改进了MS COCO数据集上所有常见的字幕指标。

Temporal Transformer Networks: Joint Learning of Invariant and Discriminative Time Warping
Authors Suhas Lohit, Qiao Wang, Pavan Turaga
许多时间序列分类问题涉及开发对时间错位不变的度量。在人类活动分析中，由于各种原因（包括不同的初始阶段，传感器采样率和由于受试者特定的生物力学导致的弹性时间扭曲）而出现时间错位。该领域的过去工作仅考虑通过弹性时间对准减少类内变异性。在本文中，我们提出了一种基于混合模型和数据驱动的方法来学习翘曲函数，这不仅可以减少类内变异，还可以增加类间分离。我们称之为时态变压器网络TTN。 TTN是一个可解释的可区分模块，可以轻松集成到分类网络的前端。该模块能够通过生成输入相关的变形函数来减少类内方差，这导致速率稳健的表示。同时，它通过学习更具辨别力的变形函数来增加类间方差。我们使用所提出的框架，在具有挑战性的数据集上的3D动作识别中展示了对强基线的改进。当训练集较小时，这些改进尤其明显。

Cross-View Policy Learning for Street Navigation
Authors Ang Li, Huiyi Hu, Piotr Mirowski, Mehrdad Farajtabar
在不熟悉的环境中从视觉观察导航的能力是智能代理的核心组成部分，也是Deep Reinforcement Learning RL的持续挑战。街景视图可以成为这类RL代理商的合理测试平台，因为它可以在地面提供真实世界的摄影图像，具有多样的街道外观，它已被制作成一个名为StreetLearn的交互式环境，用于导航研究。然而，目标驱动的街道导航代理到目前为止还没有能够在没有大量再训练的情况下转移到看不见的区域，并且依靠模拟不是可扩展的解决方案。由于航拍图像易于全球访问，我们建议在地面和航拍视图上训练多模态政策，然后利用鸟瞰图观察将地面视图政策转移到城市中看不见的目标部分。我们的核心思想是将地面视图与鸟瞰图配对，并学习可跨视图转换的联合策略。我们通过为两个视图学习类似的嵌入空间，跨视图提取策略并删除视觉模式来实现这一目标。我们进一步将转移学习范式重新划分为三个阶段1交叉模式训练，当代理人最初在多个城市区域进行训练时，2个鸟瞰图仅适应新区域，当代理人仅使用容易适应的区域时当代理人在看不见的地面视图上的导航任务上进行测试，没有航拍图像时，可获得的鸟瞰图和3个地面视图仅传输。实验结果表明，所提出的交叉视图策略学习能够更好地推广代理，并允许更有效地转移到看不见的环境。

Unsupervised Video Interpolation Using Cycle Consistency
Authors Fitsum A. Reda, Deqing Sun, Aysegul Dundar, Mohammad Shoeybi, Guilin Liu, Kevin J. Shih, Andrew Tao, Jan Kautz, Bryan Catanzaro
学习通过插值来合成高帧率视频需要大量的高帧率训练视频，然而这些视频很少，特别是在高分辨率时。在这里，我们提出了无监督技术，使用周期一致性直接从低帧率视频合成高帧率视频。对于连续帧的三元组，我们优化模型以最小化中心帧与其周期重建之间的差异，其通过从内插中间帧内插回来获得。这种简单的无监督约束单独实现了与使用地面实际中间帧的监督相当的结果。我们进一步引入伪监督损失项，其强制内插帧与预训练插值模型的预测一致。伪监督损失项与循环一致性一起使用，可以有效地使预训练模型适应新的目标域。由于没有额外的数据和完全无监督的方式，我们的技术显着改善了新目标域上的预训练模型，在慢流上将PSNR值从32.84dB增加到33.05dB，在Sintel评估数据集上从31.82dB增加到32.53dB。

Hallucinating Bag-of-Words and Fisher Vector IDT terms for CNN-based Action Recognition
Authors Lei Wang, Piotr Koniusz, Du Q. Huynh
在本文中，我们重新使用旧式手工制作的视频表示，并通过基于CNN的幻觉步骤为这些技术注入新的活力。具体来说，我们通过在大规模Kinetics 400数据集上预训练的I3D网络解决视频中的动作分类问题。尽管使用了RGB和光学流帧，但I3D模型在将其输出与改进的密集轨迹IDT相结合并且通过其通过Bag of Words BoW和Fisher Vectors FV编码的低级视频描述符中提取时蓬勃发展。由于各种预处理步骤，描述符提取，编码和模型的微调，这种CNN和手工制作的表示的融合是耗时的。在本文中，我们提出了一个端到端的可训练网络，其中的流在训练阶段学习基于IDT的BoW FV表示，并且易于与I3D模型集成。具体来说，每个流在最后一个1D转换之前采用I3D特征映射。图层并学习将这些地图转换为BoW FV表示。因此，我们增强的I3D模型可以在测试阶段产生幻觉并使用这种合成的BoW FV表示。我们在三个公开可用的数据集上展示了我们模型的简单实用性，并展示了最先进的结果。

Stand-Alone Self-Attention in Vision Models
Authors Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens
卷积是现代计算机视觉系统的基本组成部分。最近的方法主张超越卷积以捕获长程依赖性。这些努力的重点是通过基于内容的交互来增强卷积模型，例如自我关注和非本地手段，以实现许多愿景任务的收益。出现的自然问题是，注意力是否可以成为视觉模型的独立原语，而不仅仅是在卷积之上的增强。在开发和测试纯自我关注视觉模型时，我们验证自我关注确实可以成为一个有效的独立层。使用应用于ResNet模型的自我注意力替换所有空间卷积实例的简单过程产生完全自我注意模型，其在ImageNet分类上优于基线，减少12个FLOPS和29个参数。在COCO对象检测中，纯自我关注模型与基线RetinaNet的mAP匹配，同时具有少39个FLOPS和34个较少的参数。详细的消融研究表明，当在后面的层中使用时，自我注意力尤其有影响力。这些结果证明，独立自我关注是视力实践者工具箱的重要补充。

Dynamic PET cardiac and parametric image reconstruction: a fixed-point proximity gradient approach using patch-based DCT and tensor SVD regularization
Authors Ida H ggstr m, Yizun Lin, Si Li, Andrzej Krol, Yuesheng Xu, C. Ross Schmidtlein
我们的目标是通过改进的图像重建来提高动态正电子发射断层扫描PET摄取图像的视觉质量和定量准确性，使用包含2D空间1D时间3DT信息的复杂稀疏惩罚模型。我们开发了两种新的3DT PET重建算法，结合了基于离散余弦变换DCT w补片和张量核范数TNN w补丁的不同时间和空间惩罚，并且逐帧方法比较传统的2D有序子集期望最大化OSEM后滤波和2D DCT和2D TNN。模拟并重建具有动力学摄取2组织模型和移动3DT心肺模型的3DT脑模型。对于心肺模型，重建了另外的心脏门控2D OSEM组。研究了结构相似性指数SSIM和相对均方根误差rRMSE相对地面实况。通过区域生长发现图像导出的心肺图像的左心室LV容积，并计算脑模型的参数图像。对于心肺模型，3DT TNN产生最佳图像，3DT DCT最适合脑模型。与心脏门控2D OSEM和2D OSEM相比，3DT TNN图像的最佳LV体积平均接近真实值11和55个百分点。与2D OSEM相比，基于3DT DCT图像的参数图像通常具有更小的偏差和更高的SSIM。我们的新方法结合了2D空间和1D时间惩罚，产生了比传统2D方法更高质量的动态PET图像，需要后置滤波。同时捕获呼吸和心脏运动，需要呼吸或心脏门控。 LV体积恢复得更好，随后拟合的参数图像通常偏差较小且质量较高。

Learning Instance Occlusion for Panoptic Segmentation
Authors Justin Lazarow, Kwonjoon Lee, Zhuowen Tu
最近，视觉社区对先前称为图像解析的全景分割工作表现出了新的兴趣。虽然在实例和语义分割任务中分别进行了大量的进展，但是全景分割意味着在单个输出中知道可数事物和语义事物。一种常见的方法涉及各个实例和语义分段提议的融合，但是，该方法没有明确地解决从单个输出中的实例分割到非重叠放置的跳转，并且经常不能充分地布置重叠实例。我们建议对Mask R CNN框架进行直接扩展，该框架的任务是解析两个实例掩码应如何在融合输出中作为二元关系彼此重叠。我们展示了整体全景质量PQ的竞争性增长以及标准全景细分基准测试事物部分的特殊收益，与具有可比架构的方法相比达到了最新水平。

Semantics to Space(S2S): Embedding semantics into spatial space for zero-shot verb-object query inferencing
Authors Sungmin Eum, Heesung Kwon
我们提出了一种新的深度零镜头学习ZSL模型，用于推理人类对象与动词对象VO查询的交互。虽然先前的ZSL方法仅使用语义文本信息来馈送到查询流中，但我们也试图将语义合并并嵌入到视觉表示流中。我们的方法由Semantics to Space S2S架构提供支持，其中从驻留对象派生的语义嵌入到空间空间中。该架构允许共同捕获人和对象的语义属性以及它们的位置大小轮廓信息。由于这是第一次尝试用VO查询解决零镜头人体对象交互推理，我们构建了一个新的数据集，Verb Transferability 60 VT60。 VT60提供60种不同的VO对，其重叠动词专为通过VO查询测试ZSL方法而量身定制。实验评估表明，我们的方法不仅优于现有技术水平，而且还表明无论使用哪种ZSL基线架构，都能始终如一地提高性能。

IntrinSeqNet: Learning to Estimate the Reflectance from Varying Illumination
Authors Gr goire Nieto, Mohammad Rouhani, Philippe Robert
固有图像分解基于其反射和阴影分量描述图像。在本文中，我们解决了在各种照明下从固定视点捕获的一系列图像估计漫反射率的问题。为此，我们提出了一种深度学习方法，以避免对反射率先验的启发式和强假设。我们比较了两个网络架构，一个经典的U形卷积神经网络CNN和一个由卷积门控循环单元CGRU组成的递归神经网络RNN。我们在一个专门为序列内在分解任务设计的新数据集上训练我们的网络。我们在MIT和BigTime数据集上测试我们的网络，并且在质量和数量上都优于最先进的算法。

Can generalised relative pose estimation solve sparse 3D registration?
Authors Siddhant Ranade, Xin Yu, Shantnu Kakkar, Pedro Miraldo, Srikumar Ramalingam
流行的3D扫描注册项目，如斯坦福数字米开朗基罗或KinectFusion，利用高分辨率传感器数据进行扫描对齐。在没有RGB分量的情况下解决稀疏3D扫描的配准尤其具有挑战性。在这种情况下，我们无法建立点对应，因为在两次连续扫描中无法捕获相同的3D点。与基于对应的方法相比，我们采用不同的视点，并基于来自相邻扫描的线段的交叉点的约束来制定稀疏3D配准问题。我们通过将每个水平和垂直扫描线建模为分段线性段来获得线段。我们提出了一种新的交替投影算法，用于使用线交叉约束来解决扫描对齐问题。我们开发了两个新的最小解算器，用于在存在平面对应的情况下进行扫描对准：1个线交叉和1个平面对应，以及2个1线交叉和2个平面对应。我们在Kinect和LiDAR数据集上的表现优于其他竞争方法。

Joint Concept Matching-Space Projection Learning for Zero-Shot Recognition
Authors Wen Tang, Ashkan Panahi, Hamid Krim
零射击学习ZSL已被广泛研究并在机器学习中取得了巨大成功，其目的是通过仅对所见对象类进行训练来识别看不见的对象类。大多数现有的ZSL方法通常用于学习视觉特征空间和语义空间之间的投影函数，并且主要遭受投影域移位问题，因为在看到的和看不见的类之间通常存在大的域间隙。在本文中，我们提出了一种新的归纳ZSL模型，该模型基于视觉和语义特征将项目划分为具有类特定知识的共同的不同潜在空间，并通过这种不同的公共空间重建视觉和语义特征，以缩小域移位间隙。我们证明了潜在空间的所有这些约束，类特定知识，特征重建及其组合增强了对投影域移位问题的鲁棒性，并提高了对看不见的对象类的泛化能力。对四个基准数据集的综合实验表明，我们提出的方法优于现有算法。

***TensorNetwork for Machine Learning
Authors Stavros Efthymiou, Jack Hidary, Stefan Leichenauer
我们使用TensorNetwork开源库演示了使用张量网络进行图像分类。我们详细解释了图像数据到矩阵产品状态形式的编码，并描述了如何以可并行化的方式收缩网络，并且非常适合自动梯度进行优化。将该技术应用于MNIST和Fashion MNIST数据集，我们分别使用相同的张量网络架构发现了98和88精度的开箱即用性能。 TensorNetwork库允许我们从CPU到GPU硬件无缝移动，我们发现使用GPU计算速度提高了10倍以上。http://www.tensornetworktheory.org/，https://www.zhihu.com/question/54786880

A Signal Propagation Perspective for Pruning Neural Networks at Initialization
Authors Namhoon Lee, Thalaiyasingam Ajanthan, Stephen Gould, Philip H. S. Torr
网络修剪是压缩深度神经网络的有前途的途径。修剪的典型方法首先是训练模型并删除不必要的参数，同时尽量减少对学习内容的影响。或者，最近的方法表明，修剪可以在训练之前的初始化时完成。然而，仍然不清楚为什么修剪未经训练的，随机初始化的神经网络是有效的。在这项工作中，我们从信号传播的角度考虑修剪问题，正式表征确保整个网络中忠实信号传播的初始化条件。基于网络输入输出雅可比的奇异值，我们发现正交初始化与其他初始化方案相比能够实现更忠实的信号传播，从而增强了对一系列现代架构和数据集的修剪结果。此外，我们通过实证研究了初始化时修剪监督的效果，并表明通常无监督修剪可以像监督修剪一样有效。此外，我们证明了我们的信号传播视角与无监督修剪相结合，确实可以用于将修剪应用于非标准任意设计架构的各种场景。

Video-Driven Speech Reconstruction using Generative Adversarial Networks
Authors Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic
言语是一种依赖于音频和视觉信息的通信手段。缺乏一种方式往往会导致信息的混乱或误解。在本文中，我们提出了一种端到端时间模型，能够直接从静音视频合成音频，而无需转换到中间特征和从中间特征转换。我们提出的基于GAN的方法能够产生与视频同步的自然发声，可理解的语音。我们的模型的性能在GRID数据集上针对说话者相关和独立于说话者的场景进行评估。据我们所知，这是第一种将视频直接映射到原始音频的方法，也是第一种在以前看不见的扬声器上进行测试时产生可理解语音的方法。我们不仅根据声音质量而且还根据口语单词的准确性来评估合成音频。

Deep neural network for fringe pattern filtering and normalisation
Authors Alan Reyes Figueroa, Mariano Rivera
我们提出了一个处理Fringe Patterns FP的新框架。我们的新方法建立在以下假设的基础上：如果提供了足够多的损坏和清理的FP，则可以通过深度神经网络学习FP的去噪和归一化。尽管在文献中已经报道了类似的提议，但是我们提出了对众所周知的深度神经网络结构的改进，其在稳定性和可重复性方面产生高质量的结果。我们在各种情况下测试了我们的方法的性能，这些FPs被不同程度的噪声破坏，并且被不同的噪声分布破坏。我们将我们的方法与其他最先进的方法进行比较。合成数据和实际数据的实验结果证明了这种处理干涉图的新范例的能力和潜力。我们希望我们的工作能够推动这方面更复杂的发展。

Efficient N-Dimensional Convolutions via Higher-Order Factorization
Authors Jean Kossaifi, Adrian Bulat, Yannis Panagakis, Maja Pantic
随着深度卷积神经网络的空前成功，寻求培训始终是更深层次的网络。然而，虽然更深入的神经网络在适当训练时提供更好的性能，但该深度也转化为存储器和计算重型模型，通常具有数千万个参数。已经提出了几种方法来利用网络中的冗余来减轻这种复杂性。预训练的网络被压缩，例如，使用低秩张量分解，或直接修改网络的体系结构以使其更有效。在本文中，我们在张量分解的镜头下，在统一的框架中研究这两种方法。我们展示了应用于卷积核的张量分解如何与诸如MobileNet的有效架构相关。此外，我们提出了一种基于张量的有效高阶卷积方法，可用作N维卷积的插件替换。对于2D和3D卷积网络，我们在理论和经验上证明了它们对于图像分类的有利特性。

Global and Local Interpretability for Cardiac MRI Classification
Authors James R. Clough, Ilkay Oksuz, Esther Puyol Anton, Bram Ruijsink, Andrew P. King, Julia A. Schnabel
用于对医学图像进行分类的深度学习方法已经在广泛的任务中表现出令人印象深刻的准确性，但是这些模型通常难以解释，限制了它们在临床实践中的适用性。在这项工作中，我们引入了卷积神经网络模型，用于识别心脏MR分割的时间序列中的疾病，其可以根据临床上熟悉的测量来解释。该模型基于变分自动编码器，将输入减少到发生分类的低维潜在空间。然后，我们使用最近开发的概念激活矢量技术来关联具有诊断意义的概念，例如。临床生物标志物，如左心室射血分数低至潜伏空间中的某些载体。然后通过观察由这些矢量方向上的潜在空间中的插值产生的图像域的变化来定性地检查这些概念。结果，当模型对图像进行分类时，它还能够提供与该分类相关的自然可解释的概念，并在图像域中展示这些概念的含义。我们的方法在英国生物银行心脏MRI数据集上得到证实，我们在其中检测冠状动脉疾病的存在。

Dense Deformation Network for High Resolution Tissue Cleared Image Registration
Authors Abdullah Nazib, Clinton Fookes, Dimitri Perrin
最近深度学习在医学图像分析的各个领域的应用带来了极好的性能提升。深度学习技术在医学图像配准中的应用在注册时间和准确性方面均优于传统的基于优化的注册算法。在本文中，我们提出了一种密集连接的卷积结构，用于可变形图像配准。网络的训练是无人监督的，并且不需要地面实况变形或任何合成变形作为标签。所提出的架构分别在两种不同版本的组织清除数据，10和25分辨率的高分辨率数据集上进行训练和测试，并且证明了与现有技术ANTS配准方法相当的配准性能。该方法还与基于深度学习的Voxelmorph配准方法进行了比较。由于存储器限制，原始体素模型可以在组织清除数据的最多15分辨率下工作。为了进行严格的实验比较，我们开发了基于贴片的Voxelmorph网络版本，并以10和25分辨率对其进行了训练。在这两种分辨率中，所提出的DenseDeformation网络在配准精度方面优于Voxelmorph。

Landslide Geohazard Assessment With Convolutional Neural Networks Using Sentinel-2 Imagery Data
Authors Silvia L. Ullo, Maximillian S. Langenkamp, Tuomas P. Oikarinen, Maria P. Del Rosso, Alessandro Sebastianelli, Federica Piccirillo, Stefania Sica
在本文中，作者旨在将最先进的图像识别模型与最佳公共卫星图像相结合，创建一个滑坡风险缓解系统。我们首先关注滑坡检测，并进一步提出用于预测的类似系统。这些模型很有价值，因为随着卫星图像的日益普及，它们可以轻松扩展以提供危害评估数据。目标是利用卫星图像和相关数据来丰富公共数据库，并指导救灾工作，以确定发生山体滑坡的精确区域。不同的图像增强方法用于增加所选数据集的多样性并创建更稳健的分类。然后将得到的输出馈送到3D D卷积神经网络的变体中。对当前文献的回顾表明，没有研究使用CNNs卷积神经网络和免费提供的卫星图像来分类滑坡风险。该模型已证明最终能够实现明显优于基线精度。

GAN-based Multiple Adjacent Brain MRI Slice Reconstruction for Unsupervised Alzheimer's Disease Diagnosis
Authors Changhee Han, Leonardo Rundo, Kohei Murao, Zolt n d m Milacski, Kazuki Umemoto, Hideki Nakayama, Shin ichi Satoh
利用大规模健康数据集，无监督学习可以发现各种看不见的疾病而无需任何注释。为此，无监督方法重建单个医学图像以检测学习特征空间中的异常值或高重建损失。然而，在不考虑多个相邻图像之间的连续性的情况下，它们不能直接区分由微小解剖异常的累积组成的疾病，例如阿尔茨海默氏病AD。此外，没有研究表明无监督异常检测与疾病阶段有何关联。因此，我们提出了一种基于生成性对抗网络的多步邻脑MRI切片重建检测不同阶段AD的两步法重建Wasserstein损失用梯度惩罚L1损失训练在3个健康脑MRI片上重建接下来的3个重建看不见的健康AD病例诊断平均最大损失，例如，每次扫描的L2损失区分它们，比较重建的地面实况图像。结果表明，我们可以在非常早期阶段可靠地检测AD，即曲线下面积AUC 0.780，同时还检测到晚期AD，即AUC 0.917更准确，因为我们的方法是无监督的，它也应该发现并警告任何异常包括罕见疾病。

Towards Compact and Robust Deep Neural Networks
Authors Vikash Sehwag, Shiqi Wang, Prateek Mittal, Suman Jana
深度神经网络在许多应用中已经取得了令人印象深刻的性能，但是它们的大量参数导致了大量的计算和存储开销。最近的一些工作试图通过使用修剪连接来设计紧凑的网络来减轻这些开销。但是，我们观察到，设计紧凑型网络的大多数现有策略都无法保持网络对抗对抗性示例的鲁棒性。在这项工作中，我们严格研究网络修剪策略的扩展，以保持网络的良性准确性和稳健性。从修剪程序的正式定义开始，包括预训练，重量修剪和微调，我们提出了一种新的修剪方法，可以创建紧凑的网络，同时保持良好的准确性和稳健性。我们的方法基于两个主要见解1我们确保预训练和微调步骤的训练目标与所需稳健模型的训练目标相匹配，例如，对抗鲁棒性可验证的鲁棒性，2我们将修剪策略与训练前不可知和微调目标。我们在CIFAR 10数据集上的四个不同网络上评估我们的方法，并测量良性准确性，经验稳健准确性和可验证的稳健准确性。我们证明了我们的修剪方法可以保持平均93个良性准确度，92.5经验鲁棒精度和85.0可验证的鲁棒精度，同时将测试网络压缩10倍。

Multi Scale Curriculum CNN for Context-Aware Breast MRI Malignancy Classification
Authors Christoph Haarburger, Michael Baumgartner, Daniel Truhn, Mirjam Broeckmann, Hannah Schneider, Simone Schwabing, Christiane Kuhl, Dorit Merhof
乳腺癌和其他癌症类型的恶性肿瘤的分类通常被解决为对象检测问题。首先对个体病变进行定位，然后对恶性肿瘤进行分类。然而，这种方法的缺点在于，包含若干病变的抽象特征和未标记为病变但包含全球医学相关信息的区域因此被忽略，特别是对于动态对比增强乳房MRI，诸如背景实质增强和位置内的位置。乳房对于诊断很重要，不能通过适当的物体检测方法捕获。

Model Agnostic Dual Quality Assessment for Adversarial Machine Learning and an Analysis of Current Neural Networks and Defenses
Authors Danilo Vasconcellos Vargas, Shashank Kotyan
在对抗性机器学习中，存在大量各种类型的攻击，这使得评估新模型和防御的鲁棒性成为一项艰巨的任务。更糟糕的是，攻击和防御存在固有的偏见。在这里，我们组织面临模型依赖，评估不充分，不可靠的对抗样本和扰动依赖结果的问题，并提出双重质量评估方法以及鲁棒性水平的概念来解决它们。我们验证了最先进模型WideResNet，ResNet，AllConv，DenseNet，NIN，LeNet和CapsNet的双重质量评估，以及ICLR 2018提出的当前最难防御以及广为人知的对抗性培训，显示了当前的模型和防御在各方面的稳健性都很脆弱。此外，我们表明L 0和L infty攻击的鲁棒性差异很大，因此应该考虑二元性以进行正确的评估。有趣的是，所提出的评估的副产品是一种新颖的L infty黑盒方法，其需要比单像素攻击更少的扰动，仅一个像素攻击的扰动量达到类似的结果。因此，本文阐述了鲁棒性评估的问题，提出了双重质量评估来解决它们，并分析了当前模型和防御的鲁棒性。希望目前的分析和提出的方法将有助于开发更强大的深度神经网络和混合动力车。

Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments
Authors Guan Lin Chao, William Chan, Ian Lane
鸡尾酒会环境中的语音识别仍然是现有技术语音识别系统的重大挑战，因为从具有相似频率和时间特性的重叠语音的背景中提取单个说话者的声学信号是极其困难的。我们建议使用扬声器目标声学和视听模型来完成这项任务。我们补充了混合DNN HMM模型中的声学特征，其具有目标说话者身份的信息以及来自目标说话者的嘴部区域的视觉特征。使用从GRID视听语料库生成的模拟鸡尾酒会数据通过在单个声道上重叠两个扬声器的语音来执行实验。我们的仅音频基线达到了26.3的WER。视听模型将WER提高到4.4。引入说话人身份信息具有更显着的效果，将WER提高到3.6。然而，将这两种方法结合起来并没有显着提高性能。我们的工作表明，以演讲者为目标的模型可以显着改善鸡尾酒会环境中的语音识别

Scalable Neural Architecture Search for 3D Medical Image Segmentation
Authors Sungwoong Kim, Ildoo Kim, Sungbin Lim, Woonhyuk Baek, Chiheon Kim, Hyungjoo Cho, Boogeon Yoon, Taesup Kim
本文提出了一种神经结构搜索NAS框架，用于三维医学图像分割，从大型设计空间自动优化神经结构。我们的NAS框架搜索每一层的结构，包括编码器和解码器中的神经连接和操作类型。由于高分辨率3D医学图像难以在大的离散架构空间上进行优化，因此还提出了一种基于连续松弛的新型随机采样算法，用于基于可伸缩梯度的优化。在具有基准数据集的3D医学图像分割任务中，所提出的NAS框架的自动设计的架构优于人类设计的3D U Net，而且该优化的架构非常适合于被转移以用于不同的任务。

Multigrid Neural Memory
Authors Tri Huynh, Michael Maire, Matthew R. Walter
我们介绍了一种新的架构，它将大的可寻址存储空间集成到深度神经网络的核心功能中。我们的设计通过许多网络层分配内存寻址操作和存储容量。与将神经网络连接到外部存储体的策略不同，我们的方法是在整个网络结构中通过计算来定位存储器。镜像卷积网络中的最新架构创新，我们将内存组织成多分辨率层次结构，其内部连接能够学习动态信息路由策略和数据相关的读写操作。这种多重网格空间布局允许参数有效地缩放存储器大小，允许我们尝试比先前工作中的存储器大得多的存储器。我们在合成探索和绘图任务中展示了这种能力，其中网络能够自我组织并保留数千个时间步长的轨迹的长期记忆。在与任何空间几何概念分离的任务上，例如排序或关联召回，我们的设计作为一个真正的通用记忆，并产生与最近提出的可微分神经计算机竞争的结果。

Solving Large-Scale 0-1 Knapsack Problems and its Application to Point Cloud Resampling
Authors Duanshun Li, Jing Liu, Noseong Park, Dongeun Lee, Giridhar Ramachandran, Ali Seyedmazloom, Kookjin Lee, Chen Feng, Vadim Sokolov, Rajesh Ganesan
0 1背包在计算机科学，商业，运筹学等方面具有根本重要性。在本文中，我们提出了一种基于深度学习技术的方法来解决大规模0 1背包问题，其中产品项目数量大或者数值产品不一定是预定的，而是在优化过程中由外部值分配功能决定的。我们的解决方案受到拉格朗日乘数法和最近采用博弈论进行深度学习的启发。在正式定义基于它们的方法之后，我们开发了一种自适应梯度上升方法来稳定其优化过程。在我们的实验中，所提出的方法在一分钟内解决了所有大规模基准KP实例，而现有方法显示出波动的运行时间。我们还表明我们的方法可以用于其他应用程序，包括但不限于点云重采样。

Learning to Forget for Meta-Learning
Authors Sungyong Baik, Seokil Hong, Kyoung Mu Lee
很少有镜头学习是一个具有挑战性的问题，需要系统从少数几个例子来实现泛化。元学习通过学习在任务分布中共享的先验知识来解决问题，然后用于快速适应看不见的任务。模型不可知元学习MAML算法将先验知识公式化为跨任务的公共初始化。但是，强制共享初始化会导致任务之间发生冲突，从而影响初始化的质量。在这项工作中，通过观察任务之间和神经网络层之间的折衷程度不同，我们提出了一种新的初始化思想，它采用依赖于任务的分层衰减，我们称之为选择性遗忘。所提出的衰减方案动态地控制每层将针对给定任务利用的先验知识的多少。实验结果表明，该方法减轻了冲突，并因此提供了出色的性能。我们进一步表明，所提出的方法，名为L2F，可以应用和改进其他最先进的基于MAML的框架，说明其普遍性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com