【今日CV 计算机视觉论文速览 143期】Mon, 15 Jul 2019

今日CS.CV 计算机视觉论文速览
Mon, 15 Jul 2019
Totally 24 papers
?上期速览✈更多精彩请移步主页

Interesting:

?***图像操作解耦网络, 研究人员提出了一种可以通过改变输入参数来改变图像操作网络的方法。通过一个特定的操作网络base和一个权重学习网络来实现。当输入不同的参数时，权重学习网络可以为操作网络匹配不同的权重，此时操作网络就可以按照线性或非线性的方式来对图形进行不同强度的操作。研究人员在不同程度的平滑、超分辨和去噪上进行了实验。(from 斯坦福)

不同滤波器下的效果：

图像修复的结果：

有效感受野的大小：

?**水下图像提升模型jointly wavelength compensation and dehazing network ，JWCDN), 研究人员将水下图像的波长衰减归结于表面到物体的深度、将散射归结于相机到目标的距离。并通过不同的模块估计出投射图、波长衰减和背景光源。模型使用了多尺度连接的编码器、解码器网络来估计投射图、并使用保边网络模块来提升细节。此外还提出了新的图像合成永恒方法，同时模拟颜色、对比度、模糊等真实世界的水环境。(from 大连海事大学)

多尺度透射率估计模块：

合成数据的模型如下，加入了一项距水面的深度信息：

一些合成数据上的结果：

Daily Computer Vision Papers

+++A General Decoupled Learning Framework for Parameterized Image Operators
Authors Qingnan Fan, Dongdong Chen, Lu Yuan, Gang Hua, Nenghai Yu, Baoquan Chen
已经使用许多不同的深度网络来近似，加速或改进传统的图像运算符。在这些传统的运算符中，许多包含需要调整的参数以获得令人满意的结果，我们将其称为参数化图像运算符。然而，为这些运营商训练的大多数现有深度网络仅针对一种特定参数配置而设计，其不满足通常需要灵活参数设置的真实场景的需要。为了克服这个限制，我们提出了一种新的解耦学习算法，用于从运营商参数中学习动态调整图像运营商的深度网络权重，表示为基础网络。学习算法形成为另一个网络，即权重学习网络，可以与基础网络联合训练端到端。实验证明，所提出的框架可以成功地应用于许多传统的参数化图像算子。为了加速实际场景的参数调整，可以进一步扩展所提出的框架，以动态地改变基础网络的仅一个单层的权重，同时共享大部分计算成本。我们证明了所提出的解耦学习框架的这种廉价参数调整扩展甚至优于现有技术的替代方法。

Self-supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth, and Camera
Authors Yuhua Chen, Cordelia Schmid, Cristian Sminchisescu
我们提出了GLNet，一个自我监督的框架，用于学习单眼视频的深度，光流，相机姿态和内在参数，解决了为这些任务获取真实基础事实的难度。我们提出了三个贡献1我们设计了捕获多个几何约束的新损失函数，例如。极线几何以及自适应光度成本支持多个移动物体，刚性和非刚性，2我们扩展模型，以便预测相机内在，使其适用于未校准的视频，3我们提出了几个依赖于它的在线微调策略在训练和测试中我们自我监督损失的对称性，特别是优化模型参数和/或不同任务的输出，利用它们的相互作用。在所有几何和光度约束下联合优化系统输出的想法可以被视为经典束调整的密集推广。我们证明了我们的方法在KITTI和Cityscapes上的有效性，我们在多个任务中优于以前的自我监督方法。我们还展示了转移学习的良好概括。

ACTNET: end-to-end learning of feature activations and aggregation for effective instance image retrieval
Authors Syed Sameed Husain, Eng Jon Ong, Miroslaw Bober
我们提出了一种名为ACTNET的新型CNN架构，用于从大规模数据集中检索强大的实例图像。我们的关键创新是可学习的激活层，旨在提高深度卷积特征映射的信噪比SNR。这与多流聚合协同工作，其中在聚合成全局描述符之前，使用我们的新激活层来转换和平衡来自不同卷积层的互补深度特征。重要的是，激活块的可学习参数与CNN参数一起被明确地训练，以端对端的方式最小化三元组丢失。这意味着我们的网络联合学习CNN过滤器及其检索任务的最佳聚合。据我们所知，这是第一次使用参数函数来控制和学习最佳聚合。我们对三个非线性激活函数Sine Hyperbolic，Exponential和Modified Weibull进行了深入的实验研究，结果表明，尽管Weibull函数具有显着的增益，但由于其均衡强激活的能力，它的表现最佳。结果清楚地表明，激活函数显着增强了深部特征的辨别力，从而导致最先进的检索结果。

Unsupervised Adversarial Attacks on Deep Feature-based Retrieval with GAN
Authors Guoping Zhao, Mingyu Zhang, Jiajun Liu, Ji Rong Wen
研究表明，基于深度神经网络DNN的图像分类模型易受恶意构造的对抗性示例的影响。然而，很少有人努力研究基于DNN的图像检索模型如何受到这种攻击的影响。在本文中，我们引入了无监督的对抗性攻击和生成性对抗网络UAA GAN来攻击基于深度特征的图像检索系统。 UAA GAN是一种无监督学习模型，仅需要少量未标记的数据进行培训。一旦经过训练，它就会为查询图像生成查询特定的扰动，从而形成对抗性查询。核心思想是确保附着的扰动对于人类几乎不可察觉，但有效地将查询从深度特征空间中的原始位置推开。 UAA GAN适用于基于深层功能的各种应用场景，包括图像检索，人物Re ID和面部搜索。实证结果表明，UAA GAN削弱了检索性能，而查询图像没有明显的视觉变化。 UAA GAN生成的对抗性示例较不易区分，因为它们倾向于在图像的纹理或显着区域中包含细微的扰动，例如人体的关键身体部位，主要结构图案纹理或边缘，而不是在视觉上无关紧要的区域，例如背景和天空。这种趋势表明该模型确实学会了如何用图像检索系统和人眼玩具。

+++分割方法Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
Authors Towaki Takikawa, David Acuna, Varun Jampani, Sanja Fidler
用于图像分割的现有技术方法形成密集图像表示，其中颜色，形状和纹理信息都在深CNN内一起处理。然而，这可能并不理想，因为它们包含与识别相关的非常不同类型的信息。这里，我们提出了一种用于语义分割的新的双流CNN架构，其明确地将形状信息作为单独的处理分支，即形状流，其与经典流并行地处理信息。这种架构的关键是一种新型的门，它连接两个流的中间层。具体来说，我们使用经典流中的更高级激活来控制形状流中的较低级激活，有效地消除噪声并帮助形状流仅关注处理相关的边界相关信息。这使我们能够使用非常浅的架构来处理基于图像级别分辨率的形状流。我们的实验表明，这导致了一种高效的体系结构，可以围绕对象边界生成更清晰的预测，并显着提高更薄和更小对象的性能。我们的方法在城市景观基准上实现了最先进的表现，在掩模mIoU和边界F得分质量方面，在强基线上提高了2和4。

Learning a Curve Guardian for Motorcycles
Authors Simon Hecker, Alexander Liniger, Henrik Maurenbrecher, Dengxin Dai, Luc Van Gool
当骑车者通过曲线操纵时，多达17起摩托车事故发生，并且曲线事故的主要原因可归因于摩托车的不适当的速度和错误的车道内位置。现有的曲线警告系统缺乏关键的状态估计组件，并且不能很好地扩展我们提出了一种新型的摩托车道路曲率预警系统，结合计算机视觉，最优控制和绘图技术的最新进展，以缓解这些缺点。我们的贡献是四倍1我们使用卷积神经网络CNN预测摩托车的车道内位置，2我们使用CNN预测摩托车侧倾角，3我们使用升级的控制器模型，其中包含道路坡度以获得更逼真的模型和预测， 4我们利用HERE Technologies地图数据库设计了一个可扩展的系统，以获得未来路径的精确道路几何形状。此外，我们提出了两个分别用于训练和评估我们系统的数据集，这两个数据集将公开发布。我们在各种各样的现实世界场景中测试我们的系统，并提供详细的案例研究。我们表明，我们的系统能够预测更准确和更安全的曲线轨迹，从而警告并提高摩托车驾驶员的安全性。

PC-DARTS: Partial Channel Connections for Memory-Efficient Differentiable Architecture Search
Authors Yuhui Xu, Lingxi Xie, Xiaopeng Zhang, Xin Chen, Guo Jun Qi, Qi Tian, Hongkai Xiong
可区分的体系结构搜索DARTS在寻找有效的网络体系结构方面提供了快速的解决方案，但是在联合训练超级网络和搜索最佳体系结构时遭受了大量内存和计算开销。在本文中，我们提出了一种新颖的方法，即部分连接的DARTS，通过对超网的一小部分进行采样以减少网络空间中的冗余，从而在不包括性能的情况下执行更有效的搜索。特别是，我们在通道子集中执行操作搜索，并保持保持不变的部分。该策略可能在选择由不同信道的采样引起的超网边缘时出现不希望的不一致。我们通过引入边缘归一化来解决它，边缘归一化在搜索期间添加一组新的边缘级超参数以减少搜索中的不确定性。由于降低了内存成本，PC DARTS可以通过更大的批量培训进行培训，因此可以享受更快的速度和更高的培训稳定性。实验结果证明了该方法的有效性。具体来说，我们在架构搜索的0 1 GPU天内在CIFAR10上实现了2 57的错误率，并且在3.8 GPU天内用于搜索的移动设置下ImageNet上的最高1错误率为24 2。我们已经提供了代码

And the Bit Goes Down: Revisiting the Quantization of Neural Networks
Authors Pierre Stock, Armand Joulin, R mi Gribonval, Benjamin Graham, Herv J gou
在本文中，我们解决了减少ResNet内存占用的问题，如卷积网络架构。我们引入了一种矢量量化方法，旨在保持网络输出的重建质量而不是其权重。我们的方法的优点是它可以最大限度地减少域输入中的损耗重建错误，并且不需要任何标记数据。我们还使用字节对齐的码本来生成压缩网络，并对CPU进行有效推断。我们通过将高性能ResNet 50模型量化为5 MB 20x压缩因子的内存大小来验证我们的方法，同时在ImageNet对象分类上保留前1个准确度76.1，并通过压缩大小预算大约6 MB的Mask R CNN。

VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing
Authors Qian Zhang, Jianjun Li, Meng Yao, Liangchen Song, Helong Zhou, Zhichao Li, Wenming Meng, Xuezhi Zhang, Guoli Wang
在本文中，我们提出了一种新颖的高效嵌入式计算网络设计机制。受有限计算模式的启发，我们建议在组卷积中修复通道数，而不是修复总组数的现有做法。我们的基于解决方案的网络，名为Variable Group Convolutional Network VarGNet，可以在硬件方面更容易地进行优化，因为层之间的计算方案更加统一。各种视觉任务的广泛实验，包括分类，检测，像素分析和人脸识别，已经证明了我们的VarGNet的实用价值。

Deep Model Compression via Filter Auto-sampling
Authors Daquan Zhou, Xiaojie Jin, Kaixin Wang, Jianchao Yang, Jiashi Feng
最近的WSNet 1是一种新的模型压缩方法，它通过从紧凑集合中对滤波器重量进行采样，并证明对一维卷积神经网络CNN有效。然而，WSNet的权重抽样策略是手工制作和修复的，可能会严重限制所得CNN的表达能力并削弱其压缩能力。在这项工作中，我们提出了一种新的自动采样方法，适用于1D和2D CNN，与WSNet相比具有显着的性能改进。具体来说，我们提出的自动采样方法端到端地学习采样规则，而不是独立于网络架构设计。利用这种可微分的权重采样规则学习，优化了紧凑集合中的采样步幅和信道选择，以便在模型压缩率和性能之间实现更好的折衷。我们说，在相同的压缩比下，我们的方法在1D卷积上优于WSNetby6.5。此外，在ImageNet上，我们的方法在分类精度为25.4 FLOPsreduction时优于MobileNetV2完整模型1.47。使用与基线模型相同的骨干架构，我们的方法优于某些神经架构搜索基于NAS的方法，如AMC 2和MNasNet 3。

AVD: Adversarial Video Distillation
Authors Mohammad Tavakolian, Mohammad Sabokrou, Abdenour Hadid
在本文中，我们提出了一种简单而有效的视频表示方法，称为Adversarial Video Distillation AVD。关键思想是通过以逼真图像的形式压缩视频来表示视频，这些图像可用于各种基于视频的场景分析应用。将视频表示为单个图像使我们能够通过图像分析技术解决视频分析的问题。为此，我们利用3D卷积编码器解码器网络通过最小化重建误差将输入视频编码为图像。此外，对编码器的输出施加对抗性训练过程的弱监督以产生语义上逼真的图像。编码器通过将3D输入映射到2D潜在表示来学习从给定输入视频提取语义上有意义的表示。所获得的表示可以简单地用作在用于视频分类的图像上预训练的深度模型的输入。我们评估了我们提出的基于视频的活动识别方法在三个标准和具有挑战性的基准数据集上的有效性，即UCF101，HMDB51和Kinetics。实验结果表明，AVD实现了有趣的性能，优于最先进的视频分类方法。

++文字识别Boosting Scene Character Recognition by Learning Canonical Forms of Glyphs
Authors Yizhi Wang, Zhouhui Lian, Yingmin Tang, Jianguo Xiao
作为文档分析中的基本问题之一，场景字符识别近年来引起了相当大的兴趣。但由于许多无法控制的因素，包括字形转换，模糊，背景噪音，光照不均等，这个问题仍被认为极具挑战性。在本文中，我们提出了一种通过学习标志形式的字形来提升场景字符识别的新方法，基于这样的事实，即出现在场景图像中的角色都是从它们相应的规范形式中得出的。我们的关键观察是，与传统的基于分类的特征学习框架相比，通过解决特殊设计的生成任务可以学习更多的判别特征。具体地，我们设计基于GAN的模型以使得所学习的给定场景角色的深度特征能够以多种标准字体样式重建相应的字形。通过这种方式，我们获得了场景角色的深度特征，这些特征在识别上更具辨别力并且对上述因素不太敏感。我们在几个公开可用的数据库上进行的实验证明了我们的方法与现有技术相比的优越性。

Dual Adversarial Semantics-Consistent Network for Generalized Zero-Shot Learning
Authors Jian Ni, Shanghang Zhang, Haiyong Xie
广义零射击学习GZSL是一类具有挑战性的视觉和知识转移问题，其中在测试过程中出现了看不见的类和看不见的类。现有的GZSL方法要么遭受语义上的损失，要么在嵌入阶段丢弃判别信息，或者不能保证视觉语义交互。为了解决这些局限性，我们提出了双重对抗语义一致网络DASCN，它在GZSL的统一框架中学习原始和双生成对抗网络GAN。特别地，原始GAN学习合成类间判别和语义，从观察到的看不见的类的语义表示和由双GAN重构的语义表示中保留视觉特征。双GAN强制合成视觉特征通过语义一致的对抗性学习很好地表示先前的语义知识。据我们所知，这是第一个采用GZSL新型双GAN机制的工作。大量实验表明，我们的方法比现有技术方法有了显着的改进。

Tiny-Inception-ResNet-v2: Using Deep Learning for Eliminating Bonded Labors of Brick Kilns in South Asia
Authors Usman Nazir, Numan Khurshid, Muhammad Ahmed Bhimra, Murtaza Taj
本文提出采用一种名为Tiny Inception ResNet v2的Inception ResNet灵感深度学习架构，通过识别南亚砖窑带内的砖窑来消除债役工。该框架是通过在由11个不同类别的南亚地区组成的卫星图像上培训网络而开发的。在此过程中开发的数据集包括砖窑，房屋，道路，网球场，农场，稀疏树木，茂密树木，果园，停车场，公园和贫瘠土地的地理参考图像。该数据集可公开获取以供进一步研究。我们提出的具有非常少的学习参数的网络架构优于用于识别砖窑的所有现有技术架构。我们提出的解决方案将实现可持续发展目标的区域监测和评估机制。

+++混合残差注意力Hybrid Residual Attention Network for Single Image Super Resolution
Authors Abdul Muqeet, Md Tauhid Bin Iqbal, Sung Ho Bae
卷积神经网络CNN特征的提取和合理利用对图像超分辨率SR的性能具有显着影响。尽管CNN特征包含空间和信道信息，但是由于使用空间或信道信息，当前SR上的深度技术经常遭受最大化性能。此外，它们将这些信息集成在深度或宽度网络中，而不是利用所有可用的功能，最终导致高计算复杂性。为了解决这些问题，我们提出了一种二值化特征融合BFF结构，该结构以有效的方式利用来自残余群RG的提取特征。每个残差组RG由多个混合残差注意块HRAB组成，其在单个块中有效地集成了多尺度特征提取模块和信道关注机制。此外，我们使用具有不同扩张因子的扩张卷积来提取多尺度特征。我们还建议采用全局，短和长跳过连接和残余组RG结构，以便在不丢失重要功能细节的情况下简化信息流。在本文中，我们将这种整体网络架构称为混合残留关注网络HRAN。在实验中，我们观察了我们的方法对定量和定性比较的现有技术方法的功效。

Automated Real-time Anomaly Detection in Human Trajectories using Sequence to Sequence Networks
Authors Giorgos Bouritsas, Stelios Daveas, Antonios Danelakis, Constantinos Rizogiannis, Stelios C. A. Thomopoulos
检测异常轨迹是潜在应用于各种领域的重要问题，例如视频监控，风险评估，船舶监测和高能物理。利用统计方法对轨迹分布进行建模是一项具有挑战性的任务，因为这样的时间序列通常是非静止的且高度维度的。然而，现代机器学习技术为数据驱动建模和关键信息提取提供了强大的方法。在本文中，我们提出了一种序列到序列架构，用于在基于风险的安全性的背景下实时检测人类轨迹中的异常。我们的检测方案在ISL iCrowd模拟器生成的各种实际轨迹的合成数据集上进行测试。实验结果表明，我们的方案准确地检测出偏离正常行为的运动模式，并且有望用于未来的实际应用。

Robust GPU-based Virtual Reality Simulation of Radio Frequency Ablations for Various Needle Geometries and Locations
Authors Niclas Kath, Heinz Handels, Andre Mastmeyer
目的射频消融在恶性肝病变的治疗中发挥重要作用。针对病变的导航对受训者和介入医师都是一个挑战。方法本出版物提出了一种新的基于GPU的精确方法，用于模拟针尖处的病灶和现有的视觉触觉4D VR模拟器的射频消融。该方法使用Nvidia CUDA实时实现。结果与生物热PDE和体外金标准的单调收敛的理论特征相比，它的表现优于文献方法，在Pearson相关性方面具有显着的改善p.0.0。在初始阶段10秒后，它没有显示故障模式或理论上不一致的单个模拟结果。在Nvidia 1080 Ti GPU上，它实现了480 Hz的非常高的帧渲染性能。结论我们的方法提供了更加稳健和更安全的实时消融计划和术中指导技术，特别是避免了对消融组织死亡区的过度估计，这对于患者在肿瘤复发方面存在风险。未来的体外测量和优化将进一步改善保守估计。

Virtual Adversarial Lipschitz Regularization
Authors D vid Terj k
生成对抗网络GAN是培养生成模型时最受欢迎的方法之一，其中Wasserstein GAN的变体在学习稳定性和样本质量方面被认为优于标准GAN公式。然而，Wasserstein GAN要求批评者为K Lipschitz，这通常通过惩罚其梯度的范数来隐式执行，或者通过权重归一化技术全局限制其Lipschitz常数。在大多数情况下，发现使用正则化术语明确地惩罚违反Lipschitz约束而不是通过梯度的范数进行训练是不可行的。通过虚拟对抗训练的新概括，称为虚拟对抗性Lipschitz正则化，我们表明使用明确的Lipschitz惩罚确实是可行的，并且当应用于Wasserstein GAN训练时，在初始得分和Fr chet Inception Distance方面导致最先进的表现。在CIFAR 10上。

Coupled-Projection Residual Network for MRI Super-Resolution
Authors Chun Mei Feng, Kai Wang, Shijian Lu, Yong Xu, Heng Kong, Ling Shao
磁共振成像MRI通过帮助医生进行更准确的诊断，已广泛应用于临床应用和病理学研究。另一方面，通过MRI的准确诊断仍然是一个巨大的挑战，因为通过现有MRI技术获得的图像通常具有低分辨率。因此，提高MRI图像质量和分辨率成为一项至关重要的任务。本文介绍了一种用于MRI超分辨率的创新耦合投影残留网络CPRN。 CPRN由两个互补的子网络组成，即浅网络和深网络，在保持低分辨率和高分辨率图像之间的高频差异的同时保持内容一致性。浅子网络采用耦合投影以更好地保留MRI图像细节，其中引入新颖的反馈机制以指导高分辨率图像的重建。深子网络从高频图像信息的残差中学习，其中多个残余块级联以放大最后网络层处的MRI图像。最后，融合浅层和深层子网络的特征以重建高分辨率MRI图像。为了有效地融合来自深和浅子网络的特征，逐步连接CPRN S被设计为受到从简单到复杂的人类认知过程的启发。对三个公共MRI数据集的实验表明，与现有技术相比，我们提出的CPRN实现了优异的MRI超分辨率性能。我们的源代码将在公开发布

Jointly Adversarial Network to Wavelength Compensation and Dehazing of Underwater Images
Authors Xueyan Ding, Yafei Wang, Yang Yan, Zheng Liang, Zetian Mi, Xianping Fu
由光吸收和散射引起的严重偏色，低对比度和水下图像的模糊性导致探索水下环境的困难任务。与以往大多数通过模糊图像形成模型沿物镜相机路径计算光衰减的水下图像增强方法不同，我们提出了一种新颖的联合波长补偿和去雾网络JWCDN，它考虑了沿表面物体路径的波长衰减和沿物体的散射。相机路径同时。通过将简化的水下地层模型嵌入到生成对抗网络中，我们可以通过不同的网络模块联合估计传输图，波长衰减和背景光，并使用简化的水下图像形成模型来恢复退化的水下图像。特别地，提出了一种多尺度密集连接的编码器解码器网络，以利用来自多个层的特征来估计传输图。为了进一步改善恢复的图像，我们使用边缘保留网络模块来增强恢复图像的细节。此外，为了训练所提出的网络，我们提出了一种新颖的水下图像合成方法，其产生具有不同水类型的固有光学特性的水下图像。该合成方法可以同时模拟现实世界水下环境的颜色，对比度和模糊外观。对合成和现实世界水下图像的广泛实验表明，与几种现有技术方法相比，所提出的方法在主观和客观评估方面产生相当或更好的结果。

R-Transformer: Recurrent Neural Network Enhanced Transformer
Authors Zhiwei Wang, Yao Ma, Zitao Liu, Jiliang Tang
回归神经网络长期以来一直是序列建模的主要选择。然而，它严重地受到两个无法捕获非常长期依赖性并且无法并行化顺序计算过程的问题。因此，最近提出了许多基于卷积和注意操作的非递归序列模型。值得注意的是，具有多头注意力的模型（例如Transformer）已经证明在捕获各种序列建模任务中的长期依赖性方面具有极高的效率。然而，尽管它们取得了成功，但这些模型缺乏必要的组件来对序列中的局部结构进行建模，并且严重依赖于效果有限且需要大量设计工作的位置嵌入。在本文中，我们提出了R变压器，它既具有RNN的优点，又具有多头注意机制，同时避免了它们各自的缺点。所提出的模型可以有效地捕获序列中的局部结构和全局长期依赖性，而无需使用位置嵌入。我们通过对来自各种领域的数据的广泛实验来评估R Transformer，并且实验结果表明R Transformer在大多数任务中大大超过了现有技术方法。我们已在网址上公布了该代码

MLR (Memory, Learning and Recognition): A General Cognitive Model -- applied to Intelligent Robots and Systems Control
Authors Aras R. Dargazany
本文介绍了智能机器人和系统控制的新视角。提出和提出的认知模型记忆，学习和识别MLR，旨在弥合机器人，AI，认知科学和神经科学之间的差距。目前存在的差距使我们无法整合这四个研究领域的当前进展和成就，这四个研究领域正在积极尝试以基于应用的方式或以通用方式定义情报。这种认知模型更具体地定义了智能，参数化和详细。建议的MLR模型帮助我们为机器人和系统创建独立于其应用领域和平台的通用控制模型，因为它主要基于为机器人和系统控制提供的数据集。本文主要是提出并介绍这一概念，并试图通过实验来小规模地证明这一概念。所提出的概念也适用于其他不同平台的实时和模拟。

Graph-Structured Visual Imitation
Authors Maximilian Sieb, Zhou Xian, Audrey Huang, Oliver Kroemer, Katerina Fragkiadaki
我们将视觉模仿作为视觉对应问题。我们的机器人代理在其行为导致更好地匹配在其工作空间和教师演示中检测到的相应视觉实体的相对空间配置时得到奖励。我们建立在计算机视觉的最新进展基础上，例如人类手指关键点检测器，使用合成增强技术进行即时训练的物体检测器，以及通过视点变化监督的点检测器，并且在没有人类注释或机器人交互的情况下为每次演示学习多个视觉实体检测器。我们凭经验显示实体的分解视觉表示及其空间布置在几分钟内成功模仿各种操作技能，使用单个演示并且没有任何环境仪器。它对背景杂乱很稳健，可以有效地推广演示者和模仿者之间的环境差异，大大优于以前作品的非结构化非分解全帧CNN编码。

Accurate Congenital Heart Disease Model Generation for 3D Printing
Authors Xiaowei Xu, Tianchen Wang, Dewen Zeng, Yiyu Shi, Qianjun Jia, Haiyun Yuan, Meiping Huang, Jian Zhuang
3D打印已被广泛用于先天性心脏病冠心病的临床决策和介入规划，而全心脏和大血管分割是3D打印模型生成中最重要但耗时的步骤。虽然文献中已经开发了各种自动全心脏和大血管分割框架，但是当应用于CHD中的医学图像时它们是无效的，其在心脏结构和大血管连接方面具有显着变化。为了应对这一挑战，我们利用深度学习的能力处理常规结构和图算法处理大变化的能力，并提出一个结合CHD全心脏和大血管分割的框架。特别是，我们首先使用深度学习来分割四个腔室和心肌，然后是血池，其中变化通常很小。然后，我们提取连接信息并应用图形匹配来确定所有船只的类别。使用覆盖14种CHD的683D CT图像的实验结果表明，与正常解剖结构中的现有技术全心脏和大血管分割方法相比，我们的方法可以使骰子评分平均提高11.9。还使用3D打印机打印分割结果以进行验证。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com