Abstract:

基于模板的判别跟踪器由于其鲁棒性，是目前主要的跟踪范式，但仅限于边界框跟踪和有限范围的转换模型，这降低了其定位精度。我们提出了一种鉴别的单镜头分割跟踪器d3s，它缩小了视觉目标跟踪和视频目标分割之间的差距。单热网络采用两个具有互补几何性质的目标模型，一个对广泛的变换不变，包括非刚性变形，另一个假设刚性对象同时实现高鲁棒性和在线目标分割。在没有对每个数据集进行微调和只进行分割训练作为主要输出的情况下，D3S在VOT2016、VOT2018和GOT-10k基准测试上优于所有跟踪器，并且性能接近跟踪网上最先进的跟踪器。D3S在视频对象分割基准上优于领先的分割跟踪器SiamMask，其性能与顶级视频对象分割算法相当，同时运行速度快一个数量级，接近实时。PyTorch的实现可以在这里找到：https://github.com/alanlukezic/d3s

1. Introduction

视觉目标跟踪是计算机视觉的核心问题之一。最常见的公式考虑在给定一个训练图像的每一帧报告目标位置的任务。目前，在评估[22,24]中表现最好的主要跟踪范式是相关边界框跟踪[11,3,33,2,54,28]，其中由多通道矩形模板表示的目标通过模板和搜索区域之间的互相关进行定位。

最先进的基于模板的跟踪器应用了一个有效的蛮力搜索的目标定位。这种策略适用于低维变换，如平移和尺度变换，但对于更一般的情况，例如引起长宽比变化和旋转。作为一种折衷方法，现代跟踪器将近似穷举搜索与采样和/或边界盒细化/回归网络[10,27]结合起来，以进行长宽比估计。然而，这些方法仅限于轴对齐的矩形。当边界框对目标[31]的近似值较差时，基于高维模板的转换的估计是不可靠的。这是很常见的，例如考虑细长、旋转、可变形的物体，或张开手的人。在这些情况下，最准确和定义良好的目标位置模型是每像素的二进制分割掩模。如果需要这样的输出，跟踪就会成为最近由davis[38,40]和YoutubeVOS[51]挑战所推广的视频对象分割任务。

与跟踪不同，视频对象分割挑战通常考虑观察到的小于100帧的大目标和低背景干扰物的存在。因此，顶级视频对象分割方法在短期跟踪场景[24]中表现不佳，其中目标覆盖了一部分图像，在较长的时间内显著改变其外观，并在杂乱的背景上移动。最佳跟踪器应用视觉模型自适应，但在分割错误的情况下，它会导致不可恢复的跟踪失败[41]。因此，在过去，分割在基于模板的跟踪器[1]、约束DCF学习[33]和三维模型构建[20]的跟踪中只起了辅助作用。

最近，SiamRPN[28]跟踪器被扩展到在两个阶段的[50]中产生高质量的分割掩模——目标边界框首先由SiamRPN分支定位，然后由另一个分支只在该区域内计算一个分割掩模。双阶段处理错过了联合处理定位和分割以提高鲁棒性的机会。另一个缺点是使用了一个固定的模板，它不能有区别地适应不断变化的场景。我们提出了一种新的单镜头判别分割跟踪器，D3S，以解决上述限制。目标由两个有区别的视觉模型编码——一个是自适应的和高度有区别的，但几何上限制在欧几里得运动(GEM)，而另一个是对广泛的变换不变的(GIM，几何不变模型)，见图1。

GIM牺牲了空间关系，允许在显著变形下的目标定位。另一方面，GEM只预测位置，但对目标进行区分适应，并作为GIM可能推断的多个目标分割之间的选择器。与相关的跟踪器[50,27,10]相比，D3S的主要输出是一次通过网络计算出的分割图，仅通过端到端训练进行分割（图2）。一些应用程序和大多数跟踪基准测试要求将目标位置作为边界框报告。作为次要贡献，我们提出了一种有效的方法来解释分割掩模为一个旋转矩形。这避免了容易出错的贪婪搜索，并自然地解决了位置、规模、高宽比和旋转方面的变化。

D3S在大多数主要的跟踪基准测试[23,24,19,35]上都优于所有最先进的跟踪器，尽管它没有接受过边界盒跟踪的训练。在视频对象分割基准[38,40]中，D3S的性能优于领先的分割跟踪器[50]，与顶级视频对象分割算法（通常调谐到特定领域）相当，但运行速度快一个数量级。请注意，D3S并没有针对不同的基准进行重新训练——一个单一的预训练版本显示了显著的泛化能力和多功能性。

2. Related Work

鲁棒定位关键取决于目标和背景干扰物之间的识别能力。这一特性在被称为判别相关过滤器(DCF)[4]的判别模板跟踪器中进行了深入的研究。模板学习被表述为一个（可能是非线性的）岭回归问题，并通过循环相关[4,12,17,30]来解决。虽然纯基于颜色分割[8,41]的跟踪器不如DCFs，但分割已被用于改进非矩形目标[1,31]的DCF跟踪。Lukeˇziˇc等人[33]使用颜色分割来约束DCF学习，并提出了一种具有手工制作特征的实时跟踪器，其性能可与具有深度特征的跟踪器相媲美。该方法扩展到使用颜色和深度分割的长期[32]和rgb深度跟踪[20]。DCF跟踪的进一步改进考虑了深度特征：[11]等人使用预先训练的特征，[46]等人提出了DCF定位的预训练特征，最近[11]等人[10]提出了使用反向传播的深度DCF训练。

另一类跟踪器，称为Siamese跟踪器[2,44,15]，已经朝着生成模板的方向发展起来。Siamese追踪器对一般目标应用离线预训练的骨干，通过搜索区域和第一帧[2]中提取的目标模板之间的相关性，最大限度地提高对象-背景识别。模板和主干在跟踪过程中是固定的，从而获得了一个优秀的实时性能[24]。已经提出了若干多阶段的Siamese扩建工程。其中包括添加区域建议网络以提高目标定位精度[28,27]，以及添加分割分支[50]以实现精确的目标分割。最近，一种模板自适应技术[29]以提高跟踪鲁棒性。

移动对象分割是视频对象分割(VOS)[38,51]新兴领域的中心问题。[47,5,48,7,53]最近的大多数作品都取得了令人印象深刻的成果，但涉及到大型深度网络，这通常需要微调，而且速度很慢。Hu等人[18]和Chen等人[6]同时提出了通过匹配第一帧提取的特征的分割，大大减少了处理时间。然而，VOS任务考虑了在短视频中外观变化有限的大物体的分割。因此，这些方法在使用小而快速移动的物体的视觉物体跟踪任务中表现较差。本文提出的工作旨在缩小视觉目标跟踪和视频目标分割之间的差距。

3. Discriminative segmentation network

D3S中使用了两种模型来稳健地应对目标外观变化和背景识别：3.1节中的几何不变模型(GIM)和3.2节中的几何约束欧几里得模型(GEM)。这些模型在并行路径中处理输入，并产生几个粗糙的目标存在通道，这些通道通过第3.3节中描述的细化路径融合到一个详细的分割图中。体系结构轮廓见图2。

3.1. Geometrically invariant model pathway

可变形目标的精确分割在判别模型中需要松散的空间约束。因此，我们的几何不变模型(GIM)是由两组对应于目标和背景的深度特征向量组成的

由于预先训练的主干特征对于精确分割是次优的，首先由1×1卷积层处理，将其维数降至64，然后是3×3卷积层(每个卷积层之后放置一个ReLU)。这两层都在网络训练阶段进行调整，以产生最优的分割特征。通过提取与目标()对应的像素位置和背景的直接邻域()的分割特征向量，在第一帧中创建目标/背景模型。

在跟踪过程中，将从搜索区域提取的像素级特征与GIM()的像素级特征进行比较，计算出[18]后的前景和背景相似度通道F和B。具体来说，对于F信道计算，在像素i处提取的每个特征通过归一化点积与所有特征进行比较.

其中（·）表示L2归一化。

在像素i，处的最终每像素前景相似度是通过在该像素处的top-k相似度的平均值得到的，即：

其中，TOP(·，K)是NF相似性集合上的top-K平均算子。背景相似度通道B的计算遵循相同的原理，但与背景模型特征向量计算的相似度，即。最后，应用softmax层生成目标后向通道p，GIM路径体系结构如图3所示。

3.2. Geometrically constrained model pathway

虽然GIM产生了很好的目标-背景分离，但它不能很好地区分目标和类似的实例，从而导致鲁棒性降低（见图1，第一行）。然而，鲁棒定位是鉴别相关滤波器的一个优点。尽管它们通过几何约束模型（即矩形滤波器）来表示目标，但为适应目标识别特征[13,33,10]而开发的有效技术允许在相当大的外观变化下可靠地进行跟踪。

因此，我们在几何约束欧几里得模型(GEM)路径中使用了最近的深度DCF公式[10]。在[10]之后，主干特征首先通过1×1的卷积层减少到64个通道。简化的特征通过一个64通道DCF和一个PeLU非线性[45]相关。还原层和DCF通过一种有效的后支撑配方进行训练（详见[10]）。

相关响应的最大值被认为是最有可能的目标位置。然而，D3S输出（即分割）需要在每个像素上指定一个目标存在的信念。因此，通过计算从相关映射中的最大值位置到搜索区域中的剩余像素的（欧几里得）距离变换来构造目标位置通道。GEM通路如图4所示。

3.3. Refifinement pathway

GIM和GEM路径提供了关于像素级目标存在的互补信息。GEM提供了一个稳健的，但相当不准确的目标区域估计，而来自GIM的输出通道显示了更大的细节，但鉴别性较差（图1）。此外，由于主干编码，单个输出的分辨率较低。因此，设计了一个细化路径，以结合不同的信息通道，并升级的解决方案成一个准确和详细的分割图。

细化路径采用以下输入：来自GEM的目标位置通道(L)和来自GIM的前景相似性和后验通道(F和P)。这些通道由3×3卷积层和ReLU连接和处理，得到64个通道的张量。然后采用类似于[42,39]的三个升级阶段，通过考虑在主干中计算的不同层的特征来细化细节。一个升级阶段包括将输入通道的分辨率加倍，然后是两个3×3的卷积层(每个层后面是一个ReLU)。所得到的信道与相应的主干层调整后的特征进行求和。具体来说，主干特征通过一个3×3的卷积层进行调整，然后是一个ReLU。最后一个升级阶段（只包含分辨率加倍，然后是一个3×3卷积层）之后是一个softmax来生成最终的分割概率图。细化路径如图5所示。

4. Discriminative Segmentation Tracker

本节概述了鉴别分割网络从第3节到在线一般目标跟踪中的应用。给定第一帧的单一监督训练示例，网络在所有剩余帧中产生目标分割掩码。然而，一些应用程序和大多数跟踪基准测试都需要用一个边界框来表示的目标位置。对于大多数基准测试，边界框通常是通过拟合一个紧密适合分割掩模的轴对齐的边界框来获得的。然而，对于需要旋转边界框的基准测试，我们在第4.1节中提出了一个简单的拟合程序。在第4.2节中概述了跟踪步骤。

4.1. Bounding box fifitting module

从判别分割网络（第3节）的分割概率映射的阈值为0.5概率，以产生一个二值分割掩模。只保留掩模内最大的连通分量，用最小二乘[14]拟合其轮廓。椭圆中心、长轴和小轴构成了旋转边界框的初始估计。这通常是最自由的解决方案，使用超大的矩形，更喜欢位于其区域内的大部分目标像素，但不能解释该区域内背景像素的存在。因此，我们通过优化预测的分割掩模与拟合的矩形之间的修正重叠代价函数IoU MOD，进一步减少了主轴方向上的矩形边：

其中，和分别表示矩形内外的前景像素数，表示矩形内的背景像素数。标量α控制了的贡献。边界盒拟合方法非常快，平均只有2个ms。

4.2. Tracking with D3S

初始化.D3S在第一帧上使用地面真实目标位置进行初始化。GEM和GIM的初始化细节取决于目标地面真实值是由边界框还是分割掩码呈现。如果有一个地面真实边界框可用，GEM遵循[10]中提出的初始化程序，该过程包括在第一帧上反向训练降维网络和DCF。另一方面，如果一个分割掩码可用，地面真实目标边界框首先由一个包含分割目标的轴对齐矩形来近似。

在有分割掩模的情况下，通过从目标掩模中提取前景样本和从邻域中提取目标大小四倍的背景样本来初始化GIM。但是，如果只有一个边界框可用，则首先构造一个近似的地面真实分割掩模。前景样本从边界框内提取，而背景样本从一个四倍大的邻域中提取。然后在初始化区域上运行D3S的跟踪迭代，以推断出一个原始的地面真实分割掩码。最终的前景和背景样本是从这个掩模中提取的。这个过程可能会迭代几次(类似于GrabCut[43])，但是，我们没有观察到改进，为了初始化速度和简单性，我们只选择了一次迭代。

跟踪.在跟踪过程中，当一个新帧到达时，在之前的目标位置提取一个四倍于目标大小的区域。由第3节中的鉴别分割网络对该区域进行处理，生成输出分割掩模。如果评估协议要求，旋转边界框安装到掩罩（第4.1节）。GEM中的DCF将根据后台更新过程[10]来更新估计的目标位置。

5. Experiments

5.1. Implementation details

D3S中的主干网络由ResNet50的前四层组成，在ImageNet上预先训练，用于对象分类。从调整大小为384×384像素的目标搜索区域中提取主干特征。（3）的背景权衡参数设置为α=0.25，在GIM（2）中使用顶部K=3相似点。我们在初步分析中验证了性能对这些参数的精确值不敏感，因此我们在所有实验中保持相同的值。

网络预培训.在来自Youtube-VOS[51]的3471个训练分割序列上，对GIM路径和细化路径进行了预训练。以及在50帧范围内同一序列的分割掩码。为了提高对可能不准确的GEM定位的鲁棒性，目标位置通道由[−σ，σ]均匀扰动地面真实位置构建，其中σ为目标大小。使用ADAM优化器[21]训练64个图像对批次，每40次迭代1000次，学习速率设置为10**−3，每15个周期衰减0.2次衰减。训练损失是预测的和地面真实分割掩模之间的交叉熵。在一个GPU上进行训练需要20个小时。速度D3S的Pytirch实现在一个NVidiaGTX1080GPU上以25帧每秒的速度运行，而将网络加载到GPU并初始化需要1.3秒。

5.2. Evaluation on Tracking Datasets

D3S在四个主要的短期跟踪数据集上进行了评估：VOT2016[23]、VOT2018[24]、GOT-10k[19]和跟踪Net[35]。在下面的内容中，我们将讨论在每个数据集上获得的结果。

VOT 2016和VOT 2018数据集分别由60个序列组成。目标通过旋转的矩形进行注释，以实现比相关数据集更彻底的定位精度评估。使用标准的VOT评估协议[26]，其中在跟踪故障时重置跟踪器。性能是通过精度（成功跟踪帧上的平均重叠）、鲁棒性（失败率）和EAO（预期平均重叠）来衡量的，这是前两个度量[25]的原则组合。

以下最先进的(sota)跟踪器：VOT 2016表现最好的CCOT[13]和TCNN[36]，是基于sota分割的鉴别相关过滤器CSR-DCF[33]，和最近发布的sota深度跟踪器SiamRPN[28]，SPM[49]，ASRCF[9]，SiamMask[50]和ATOM[10]。表1中报告的结果显示，D3S在所有三种指标上都大大优于所有测试跟踪器。在EAO测量中，D3S的sota跟踪器SPM强14%，同时鲁棒性的sotaATOM强25%。在准确性上表现最好的是基于分割的跟踪暹面具。D3S在精度方面比该跟踪器多出3%，在鲁棒性方面约50%。

VOT 2016数据集包含每帧目标分割掩码，可用于评估现有的小目标和具有挑战性的目标的分割性能。因此，我们通过计算成功跟踪期间的地面真相框和预测的分割掩码之间的平均IoU，将D3S与最新的分割跟踪器SiamMask进行了比较。D3S的平均IoU为0.66，而SiamMask 的IoU为0.63。近5%的改进说明了D3S分割掩模预测的相当大的准确性。

在VOT2018数据集上，D3S与以下sota跟踪器进行了比较：顶级VOT2018 performer LADCF[52]和最新的sota跟踪器DaSiamRPN[54]，SiamRPN++[27]，ATOM[10]，SPM[49]，ASRCF[9]和SiamMask[50]。结果见表2。同样，D3S在所有方面都优于所有的sota跟踪器。在EAO、准确性和鲁棒性方面的顶级sota跟踪器分别是SiamRPN++、SiamMask和LADCF。D3S在EAO中比SiamRPN++高18%，SiamMask的准确率超过5%，稳健性比LADCF高超过6%。请注意，SiamMask是一个分割跟踪器，这解释了sota的最高精度。D3S在鲁棒性方面比该跟踪器强出45%以上，这归因于单次分割掩模计算中的判别公式。

GOT-10k是一个最近的大规模高多样性数据集，由10k个视频序列组成，目标由轴对齐的边界框注释。追踪器在180个测试序列和84个不同的对象类别和32个运动模式上进行评估，而其余的序列形成一个训练集。跟踪器在第一帧上被初始化，并让它跟踪到序列的末尾。跟踪器根据平均重叠度进行排序，但在两个重叠阈值0.5和0.75下分别报告了成功率(SR0.5和SR0.75)，以便进行详细分析1。以下性能最好的sota跟踪器用于比较[19]：SiamFCv2[46]，SiamFC[2]，GOTURN[16]，CCOT[13]，MDNet[37]和最新的ATOM[10]和MiamMask[50]。我们强调，D3S在训练集上没有得到限制，而我们使用的一些性能最好的sota跟踪器确实使用了GOT-10k训练集。GOT-10k的检测结果见表3。D3S在所有性能指标上都大大优于所有性能最好的sota，与SiamFCv2相比，平均重叠率提高了约60%，后者是在[19]基准测试上表现最好的产品。它的平均重叠率也比最新的ATOM和MiamMask跟踪器多出7%和15%。这表明对不同的目标类型具有相当大的泛化能力。

跟踪网是另一个用于训练和测试跟踪器的大规模数据集。训练集包含超过30k个视频序列，而测试集包含511个序列。跟踪器在第一帧上被初始化，并让它跟踪到序列的末尾。根据成功率曲线下的面积(AUC)、精度(Prec.)对跟踪器进行排序。和归一化精度()。有关性能指标的更多细节，请参阅[35]。D3S的性能与[35]提供的性能最好的sota跟踪器进行了比较：ECO[11]，SiamFC[2]，CFNet[46]，MDNet[37]和最新的sota跟踪器ATOM[10]，SiamMask[50]和SiamRPN++[27]。D3S显著优于[35]中报道的sota，与SiamRPN++、SiamMask和ATOM相当。请注意，D3S只在YouTube-VOS[51]的3471个序列上进行训练，而ATOM和SiamRPN++都在更大的数据集(分别为31k和超过380k序列)上进行微调，其中包括跟踪网训练集。这进一步支持了D3S的相当大的泛化能力，它主要是用于训练分割，而不是跟踪。

5.3. Ablation Study

使用基于复位的协议[26]对VOT2018进行了一项消融研究，以揭示D3S体系结构中不同组件的贡献。创建了以下D3S的变体：(i)没有GIM前景相似通道F的D3S()；(ii)没有GIM目标后通道P()；(iii)只有GEM输出通道和没有GIM通道F和P的D3S()；(iv)没有GEM输出通道L()；(v)D3S的DCF不是从D3S估计的位置更新，而是从GEM中DCF估计的位置()。另外还有两个具有不同边界框拟合方法的D3S版本：一个包含所有前景像素的最小面积旋转边界框()和一个最小-最大轴对齐的边界框()。所有的变化都在与原始D3S相同的数据集上重新训练。

消融术研究的结果见表5。从GIM()中去除前景相似通道会导致性能下降4.5%，而去除目标后向通道()会导致性能降低13.5%。两种变体的精度与原始D3S相当，而故障的数量增加。综上所述，前景相似性和后向通道分别有助于目标的鲁棒定位。删除整个GIM模块，即F和P()，可使整体跟踪性能降低27%。准确率下降了14%，而出现故障的次数增加了56%。这说明了GIM模块对于精确分割和跟踪鲁棒性的至关重要。

去除GEM模块()会降低近50%的跟踪性能。这主要是由于稳健性的显著降低——故障的数量增加了超过270%。因此，GEM模块对于分割过程中的鲁棒目标选择至关重要。

最后，将GEM模块中的DCF更新为自己估计的位置，而不是最终分割估计的位置()，整体性能降低7.5%，主要代价是故障数量显著增加（超过15%）。因此，从D3S中准确估计目标位置将关键地影响GEM中DCF的学习，从而影响整体跟踪性能。用最小面积旋转边界框(D3SMA)替换所提出的边界框拟合方法（第4.1节），可导致EAO降低9%，精度降低6%。这仍然是一个最先进的结果，这意味着D3S性能的提高可以主要归因于分割掩模的质量。最小-最大边界盒拟合方法(D3SMM)可使EAO降低19%，精度降低14%。因此，D3S确实受益于旋转的边界盒估计。

5.4. Evaluation on Segmentation Datasets

在两个流行的视频对象分割基准DAVIS16[38]和DAVIS17[40]上分析了D3S的分割能力。在davis协议下，分割算法在第一帧上通过分割掩码进行初始化。然后，要求该算法输出视频中所有剩余帧的分割掩码。性能通过序列上的两个平均度量来评估：平均Jaccard指数(JM)和平均F-度量(FM)。Jaccard索引表示地面真实和预测分割掩码之间的每像素交集。F-测度是在从地面真实值中提取的轮廓和预测的分割掩模之间计算出的精度和查全率的调和平均值。有关这些性能指标的更多细节，读者可以参考[38,34]。

D3S与几种专门用于davis挑战设置：OSVOS[5]，OnAVOS[48]，OSMN[53]，FAVOS[7]，视频对象分割方法进行了比较此外，我们还包括了最新的基于分割的跟踪器SiamMask[50]，这是唯一一种已发布的在短期跟踪和视频对象分割基准上都表现良好的方法。

结果如表6所示。D3S的表现与大多数视频物体分割的表现相当。与DAVIS2016年表现最佳的数据相比，D3S的平均Jaccard指数和f-测量值的表现分别降低了12%和14%。在2017年的DAVIS大会上，这一差异甚至更小——与表现最好的OnAVOS相比，Jaccard指数下降了6%，f-测量指数下降了8%。考虑到D3S要快200倍，这是相当值得注意的。此外，D3S提供了与纯分割方法ASMN和PML相当的分割精度，同时速度快几个数量级，实现了近实时的视频对象分割，这对许多视频编辑应用尤为重要。D3S也优于唯一的跟踪和分割的SiamMask方法。Jaccard指数和基于轮廓精度的f测度的分割平均提高了5%以上。D3S和SiamMask对具有挑战性目标的进一步定性比较见图6。

6. Conclusion

介绍了一种深度单镜头鉴别分割跟踪器d3s。跟踪器利用了光谱极端的两个模型：几何不变模型和几何限制的欧几里得模型。这两种模型将目标定位在平行路径上，并相互补充，实现了较高的可变形目标分割精度和目标与干扰物的鲁棒识别。端到端可训练网络架构是第一个具有在线自适应的单镜头管道，它将鉴别跟踪与精确分割紧密连接起来。

D3S在VOT2016、VOT2018和GOT-10k基准测试上优于最先进的跟踪器，并且与跟踪网上的顶级跟踪器相当，尽管一些测试的跟踪器针对特定数据集进行了重新训练。相比之下，D3S在Youtube-VOS上进行了一次训练（仅用于分割），并且在所有基准测试中都使用了相同的版本。

在DAVIS16和DAVIS17分割基准测试上的测试显示，性能接近顶级分割方法，同时运行速度快200×，接近实时。D3S在所有指标上的表现显著优于最近的顶级分割跟踪器SiamMask，有助于缩小两个目前独立的短期跟踪和视频对象分割领域之间的差距，从而模糊了两者之间的边界。

论文精读：D3S:D3S – A Discriminative Single Shot Segmentation Tracker相关推荐

D3S A Discriminative Single Shot Segmentation Trac，tracking by segm最后的希望，不同于tracking by siamese
Abstract 摘要基于模板Z的判别跟踪器由于其鲁棒性而成为当前的主流跟踪范例,但仅限于包围盒跟踪BBOX和有限范围的变换模型,这降低了它们的定位精度. 提出了一种可区分的小样本分割跟踪器D3S, ...
【论文精读】Pairwise learning for medical image segmentation
Published in: Medical Image Analysis 2020 论文:https://www.sciencedirect.com/science/article/abs/pii/S ...
阅读笔记：Single Shot Multibox Detector（SSD）
--为什么会阅读这篇论文?原因很简单:SSD比Faster R-CNN准.比YOLO快. --论文出处: UNC Chapel Hill(北卡罗来纳大学教堂山分校) 的 Wei Liu 新作 --论文 ...
翻译SSD论文(Single Shot MultiBox Detector)
本文原创,未经博主允许,请勿转载.每晚泡脚,闲来无事,所以就边泡边翻译了SSD论文,总感觉英文看着不习惯,还是中文好理解,也是和大家一起学习.菜鸟水平有限,恳求大家指出错误之处.本翻译仅作交流之用,请 ...
SSD论文阅读（Wei Liu——【ECCV2016】SSD Single Shot MultiBox Detector）
本文转载自: http://www.cnblogs.com/lillylin/p/6207292.html SSD论文阅读(Wei Liu--[ECCV2016]SSD Single Shot Mul ...
论文阅读：SSD: Single Shot MultiBox Detector
原址:https://blog.csdn.net/u010167269/article/details/52563573 Preface 这是今年 ECCV 2016 的一篇文章,是 UNC Cha ...
DSSD : Deconvolutional Single Shot Detector论文阅读笔记
文章目录 DSSD : Deconvolutional Single Shot Detector论文阅读笔记2017 Abstract 1. Introduction 2. Related Work ...
【论文笔记】：PyramidBox ：A Context-assisted Single Shot Face Detector
&Title ECCV2018 . baidu PyramidBox :A Context-assisted Single Shot Face Detector [论文翻译]:PyramidB ...
PyramidBox：A Context-assisted Single Shot Face Detector（论文阅读笔记）
论文:PyramidBox: A Context-assisted Single Shot Face Detector 原文链接:https://arxiv.org/abs/1803.07737?co ...

论文精读：D3S:D3S – A Discriminative Single Shot Segmentation Tracker