机械臂抓取学习笔记四

论文：
Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for
Robotic Grasping Detection

摘要：
在本文中，我们提出了一种高效、鲁棒的全卷积神经网络模型，用于从真实抓取场景的n通道输入图像进行机器人抓取姿态估计。所提出的网络是一种轻量级的生成架构，用于在一个阶段中抓取检测。具体地说，引入了基于Guassian核的抓取表示对训练样本进行编码，体现了最大中心点抓取置信度原则。同时，为了提取多尺度信息和增强特征识别能力，我们在抓取检测体系结构的瓶颈处装配了一个接收场块（RFB）。此外，结合像素注意和通道注意，通过抑制噪声特征和突出抓取对象特征，自动学习聚焦于融合不同形状和大小的上下文信息。

介绍：

虽然抓取对于人类来说是一个非常简单的动作，但对于机器人来说仍然是一项具有挑战性的任务，它涉及感知、规划和提取等子系统。抓取检测是机器人在非结构化环境中执行抓取和操纵任务的基本技能。为了提高机器人抓取的性能，提出了一种新的抓取方法。
在这项工作中，我们利用2-D Guassian核对训练样本进行编码，以强调中心点位置具有最高的抓取置信度得分。在基于Guassian的抓取表示的基础上，我们开发了一种轻量级的机器人抓取姿态估计生成体系结构。参考人类视觉系统中的感受野结构，我们在瓶颈层结合了残差块和感受野块模块，以增强特征识别性和鲁棒性。另外，为了减少采样过程中的信息丢失，我们在解码过程中融合了低层特征和深度特征，在融合过程中，利用由像素注意网络和通道注意网络组成的多维注意网络抑制冗余特征，突出有意义的特征。
我们提出了一种基于高斯的抓取表示方法，该方法在中心点位置释放最大抓取分数，可以显著提高抓取检测精度
我们开发了一种轻量级的生成式体系结构，在较小的网络参数下实现了较高的检测精度和实时运行速度。
在网络的瓶颈处嵌入感受野块模块以增强其特征识别能力和鲁棒性，并开发多维注意融合网络以抑制冗余特征和增强融合过程中的目标特征。
图1：基于方向矩形的抓取表示方法与基于接触点的抓取表示方法之间的比较。顶部分支是使用定向矩形作为抓取表示的模型工作流，底部分支是使用接触点抓取表示的模型工作流。

基于有向矩形的抓取表示方法：

抓取检测的目的是通过抓取物体的视觉信息，为机器人找到合适的抓取姿态，从而为后续的规划和控制过程提供可靠的感知信息，实现成功抓取。抓取是机器人领域中一个广泛研究的课题，所使用的方法可以概括为分析方法和经验方法。分析方法使用几何、运动和动力学中的数学和物理模型来进行抓取计算[18]。其理论基础是扎实的，但其不足之处在于实际三维世界中的机械手与抓取对象之间的模型非常复杂，难以实现高精度的模型。相比之下，经验方法并不严格依赖于真实世界的建模方法，一些工作利用已知对象的数据信息来建立模型，以预测新对象的抓取姿势[19]、[20]、[21]。[22]中提出了一种新的抓取表示法，其中使用一种简化的面向五维的矩形抓取表示法来代替七维抓取姿势，该姿势由板材夹持器的三维位置、三维方向以及打开和关闭距离组成。基于面向矩形抓取配置，深度学习方法可以成功应用于抓取检测任务，主要包括基于分类的方法、基于回归的方法和基于检测的方法[23]。

基于分类的方法：

文献[2]提出了第一种基于深度学习的机器人抓取检测方法，作者采用两个深度网络的两步级联结构，取得了很好的结果。在[24]中，通过采样抓取位置和相邻图像块来估计抓取建议。通过将夹角分为18个盘形夹角来预测抓取方向。由于抓取数据集很少，因此需要一个称为Dex Net 3 2的大型仿真数据库。0内置于[25]。在Dex Net2的基础上。0，开发了一个抓持质量协解神经网络（GQ-CNN）对潜在抓持进行分类。虽然网络是在合成数据上训练的，但所提出的方法在现实世界中仍能很好地工作。此外，在[26]中提出了一种基于分类的空间注意力网络
spatial transformer network（STN）机器人抓取检测方法。

基于回归的方法：

基于回归的方法是通过训练模型，直接预测位置和方向的抓取参数。文献[3]首次提出了一种基于回归的单次抓取检测方法，其中作者使用AlexNet来提取特征，并通过消除搜索潜在抓取的过程来实现实时性能。结合RGB和深度数据，在[27]中介绍了一种多模态融合方法。通过融合RGB和深度特征，该方法直接回归抓取参数，提高了在康奈尔抓取数据集上的抓取检测精度。与[27]类似，[28]的作者使用ResNet作为主干，集成RGB和深度信息，进一步提高抓取检测的性能。此外，在[21]中提出了一种基于感兴趣区域（ROI）的图形检测方法。在这项工作中，作者回归了基于ROI特征的抓取姿势，并在对象重叠挑战场景中获得了更好的性能。基于回归的方法是有效的，但其缺点是，它更容易学习所掌握的ground truth的平均值。

基于检测的方法：

许多基于检测的方法都参考了目标检测的一些关键思想，如锚定盒。基于这些锚箱的先验知识，简化了抓取参数的回归问题。在[29]中，视觉和触觉传感融合在一起，构建了机器人抓取的混合体系结构。作者使用锚箱进行轴对齐，并将抓取角度估计作为分类问题来预测抓取方向。[29]中使用的抓取角估计方法由[10]扩展。通过将角度估计转化为分类问题，[10]的方法在基于FasterRCNN的Cornell数据集上实现了较高的抓取检测精度[9]。与用于目标检测的水平锚箱不同，[12]的作者专门设计了一种用于抓取任务的定向锚箱机制，并通过结合端到端全卷积神经网络来改进模型的性能。此外，[30]进一步扩展了[12]的方法，并提出了一种在提花数据集上表现更好的深层神经网络结构。

基于接触点的抓取表示方法：

基于有向矩形的抓取表示在机器人抓取检测任务中有着广泛的应用。就实际的板材抓取任务而言，抓取器不需要太多的信息来执行抓取动作。文献[14]中介绍了一种新的简化的基于接触点的抓取表示法，它由抓取质量、中心点、方向角和抓取宽度组成。基于这种抓取表示，GGCNN和GGCNN2被开发用于预测抓取姿态，并且它们的方法在检测精度和推理速度方面都取得了优异的性能。参考[14]，在[15]中，采用像素方式的全卷积神经网络提高抓取检测性能。[14]和[15]都以深度数据为输入，在[17]中提出了一种生成剩余卷积神经网络来生成GRASP，该网络以n通道图像为输入。最近，文献[16]的作者从图像分割中获得了一些想法来执行三指机器人抓取检测。与[16]类似，在[31]中开发了一个方向注意抓握合成（橙色）框架，它在基于GGCNN和Unet模型的提花数据集上获得了更好的结果。在本文中，我们提出了一种基于Guassian的抓取表示，以突出中心点的重要性。我们进一步开发了一种轻量级的机器人抓取检测生成架构，该架构在两个公共数据集（康奈尔和雅卡尔）的推理速度和准确性方面表现良好。

机器人抓取系统：

机器人抓取系统通常由机器人手臂、感知传感器、抓取物体和工作空间组成。为了成功地完成抓取任务，不仅需要获取物体的抓取姿态，还需要规划和控制子系统。在抓取检测部分，我们考虑将机械手限制到工作空间的法线方向，从而使其成为2D空间中的感知目标。通过此设置，通过将大多数抓取对象合理地放置在工作台上，可以将其视为平面对象。整个抓取系统不需要构建三维点云数据，可以降低存储和计算成本，提高操作能力。平面对象的抓取姿势可以视为矩形。由于每个平板夹持器的尺寸是固定的，因此我们使用第II-B节中提到的简化抓取表示来执行抓取姿势估计。

基于高斯的抓取表示：

对于给定的RGB图像或不同物体的深度信息，抓取检测系统应该学习如何为后续任务获得最佳抓取配置。许多工作，如[29]、[10]、[12]，都是基于五维抓取表示来生成抓取姿势。
g={x, y, θ, w, h}
其中，（x，y）是中心点的坐标，θ表示抓取矩形的方向，抓取矩形的重量和高度用4（w，h）表示。矩形盒是目标检测中常用的方法，但它不适合抓取检测任务。由于夹持器的尺寸通常是一个已知变量，因此[14]中介绍了一种简化表示法，用于高精度实时机器人抓取。提出了一种新的三维姿态抓取表示方法
```
          g={p, ϕ, w, q}
```

中，笛卡尔坐标系中的中心点位置为p=（x，y，z）。ϕ和w分别测量夹具围绕轴的旋转角度以及夹具的打开和关闭距离。由于五维抓取表征缺乏评价抓取质量的尺度因子，因此在新表征中加入了q作为衡量抓取成功概率的尺度。此外，二维空间中新抓取表示的定义可以描述为：
g={ˆp,ˆϕ,ˆw,ˆq}
式中，ˆp=（u，v）表示图像坐标中的中心点。ˆа表示摄像机框架中的方向。ˆw和ˆqstill分别表示夹具的打开和关闭距离以及抓取质量。当我们知道抓取系统的校准结果时，抓取姿态可以通过矩阵运算转换为世界坐标，
g=TRC(TCI(ˆg))
其中，trc和tcire分别将相机帧的变换矩阵表示为世界帧，将二维图像空间表示为相机帧。此外，图像空间中的抓取映射表示为：
G={Φ, W, Q} ∈R^(3×W×H)

其中，抓取贴图中的每个像素Φ，W，Q用相应的ˆν，ˆW，ˆQ值填充。这样，可以确保通过 搜索最大抓取质量的像素值
ˆg来找到后续推理过程中的中心点坐标∗=maxˆQˆG.在[14]中，作者用1填充中心点周围的矩形区域，表示最高抓取质量，其他像素为0。利用该方法训练模型，学习中心点的最大抓取质量。由于矩形区域中的所有像素都具有最佳抓取质量，因此会导致中心点的重要性未突出显示的缺陷，从而导致模型的模糊性。在这项工作中，我们使用二维高斯核来正则化抓取表示，以指示对象中心可能存在的位置，图2所示。一种新的基于高斯分布的小波变换（基于高斯的抓取表示：将二维高斯核应用于抓取质量贴图，以突出其中心点位置的最大抓取质量。（a）二维高斯函数展开后抓取质量权重分布示意图，以及（b）抓取表示示意图。）
抓取表示为GK，相应的基于高斯的抓取映射定义为：公式
在等式6中，生成的抓取质量图由中心点位置（x0，y0）、参数σx和σy以及相应的比例因子x和y决定。该方法以高斯分布的峰值为抓取矩形的中心坐标。

方法：

在本节中，我们将介绍一种用于机器人抓取检测的轻量级生成体系结构。图3（我们的轻量级生成抓取检测算法的结构。I和Conv分别表示输入数据和协方差滤波器。该方法由下采样块、瓶颈层、多维注意融合网络和上采样块组成）显示了我们抓取检测模型的结构。通过下采样块将输入数据转换成尺寸更小、通道更多、语义信息更丰富的特征图。在bottleneck部分，将resnet块和多尺度感受野块模块相结合，提取出更具可分辨性和鲁棒性的特征。同时，利用像素注意子网络和通道注意子网络组成的多维注意融合网络，在上采样前融合浅层和深层语义特征，同时在融合过程中抑制冗余特征，增强有意义特征。最后，基于提取的特征，添加四个特定于任务的子网络，分别预测抓取质量、角度（sin（2θ）和cos（2θ）的形式）和宽度（抓取器的打开和关闭距离）。我们将详细说明拟议抓取网络的每个组成部分。

基本网络架构：

所提出的生成性抓取结构由下采样块、瓶颈层、多维注意融合网络和上采样块组成，如图3所示。下采样块由核大小为3x3的共解层和核大小为2x2的最大池层组成，可表示为等式7。
这项工作中，我们在下采样过程中使用了2个下采样块和2个卷积层。具体而言，第一下采样块由4个卷积层（n＝3）和1个最大池层组成，第二下采样层由2个卷积层（n＝1）和1个最大池层组成。在下采样数据通过2个卷积层后，它们被送入由3个剩余块（k=2）和1个感受野块模块（RFBM）组成的瓶颈层，以进一步提取特征。由于RFBM由不同尺度的卷积滤波器组成，因此可以获得更丰富的图像细节。可表示为：等式8
瓶颈的输出被送入多维注意融合网络（MDAFN）和上采样模块。由像素注意子网和通道注意子网组成的多维注意融合网络，在浅层特征和深层特征融合过程中，可以抑制噪声特征，增强有效特征。MDAFN将在第IV-C节中进行更详细的说明。在上采样块中，pixshuffle层[32]用于在比例因子设置为2的情况下提高特征分辨率。在这项工作中，多维注意融合网络和上采样块的数量都是2，并且输出可以表示为等式9。

感受野阻滞模块

最后的网络层由4个内核大小为3x3的特定于任务的卷积滤波器组成。最终输出结果可按公式10给出。
其中，中心点的位置是最大抓取质量gq的像素坐标，抓取器的打开和关闭距离为gw，抓取角度可通过gangle=arctan（gsin（2θ）gcos（2θ））/2计算。

多尺度感受野阻滞模块：

神经科学方面，研究人员发现人类视觉皮层中存在一种偏心功能，可以调节视觉感受野的大小[33]。这种机制有助于强调中心附近区域的重要性。在这项工作中，我们引入了一种多尺度感受野块（RFB）[34]来组装系统的瓶颈层为了提高提取多尺度信息的能力，增强特征识别能力，本文提出了一种新的检测结构。感受野阻滞模块由多个分支的共价层组成，不同的核对应不同大小的感受野。此外，扩张的卷积层用于控制偏心率，并且由不同感受野的分支提取的特征被重新组合以形成最终表示，如图4所示。在每个分支中，具有特定内核大小的卷积层之后是具有相应扩展率的扩展卷积层，其使用不同内核大小的组合（1x1、3x3、7x1、1x7）。将从四个分支提取的特征串联起来，然后添加到输入数据中，以获得最终的多尺度特征输出。

多维注意融合网络：

当人类观看一幅图像时，我们不会关注图像中的所有内容，而是关注我们感兴趣的内容。视觉系统中的注意机制将有限的注意力集中在重要信息上，从而节省资源并快速获得最有效的信息。在计算机视觉领域，已经开发出一些参数少、速度快、效果好的注意机制[35]、[36]、[37]、[38]。为了从复杂背景中有效地感知抓取对象，设计了由像素注意子网络和通道注意子网络组成的多维注意网络，以抑制噪声特征并突出对象特征，如图5
所示。具体来说，将浅特征和深特征连接在一起，并将融合后的特征反馈到多维注意网络中，在像素级和通道级自动学习融合后特征的重要性。在像素注意子网络中，特征映射F通过一个3x3的协解层，通过协解操作生成一个注意映射。注意图进一步使用sigmoid计算，以获得相应的像素权重分数。此外，SENet[36]被用作通道注意子网，该子网通过全局平均池获得1xC特征，然后使用两个全连接层和对应的激活函数Relu建立通道间的相关性，最后通过sigmoid运算输出特征通道的权重得分。像素权重贴图和通道权重贴图均与特征贴图F相乘，以获得具有降低噪声和增强对象信息的输出

损失函数：

对于包含抓取对象o={O1…On}，输入图像i={I1…In}，以及相应抓取标签L={L1…Ln}的数据集，我们提出了一个轻量级的完全卷积神经网络来逼近复函数f:I →ˆG，其中F提出了一个带有加权参数、I输入图像数据和ˆG定义抓取预测的神经网络模型。我们通过优化抓取预测ˆG和相应标签L之间的最小误差来训练我们的模型学习映射函数F。在这项工作中，我们考虑了抓取位姿估计作为回归问题，因此smooth L1损失被用作我们的回归损失函数。我们的抓取检测模型的损失函数定义为：式子
其中抓取候选项为N。q、w分别表示抓取质量和抓取器的打开和关闭距离，并且（cos（2θ），sin（2θ））是方向角的形式。在smoothL1函数中，σ是控制平滑区域的超参数，在本工作中，它被设置为1。

机械臂抓取学习笔记四相关推荐

机械臂抓取学习笔记三
论文:Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous Robot ...
机械臂抓取学习笔记二
论文: Antipodal Robotic Grasping using Generative Residual Convolutional Neural Network 摘要: 本文提出了一个模块化 ...
机械臂抓取实验笔记总结
要求配置环境: PC笔记本端:内存16G及以上,磁盘200G及以上,GPU 英伟达3060以上/6-8G linux ubuntu 20.04 ROS noetic发行版 Anaconda虚拟环境中安 ...
基于深度学习的旋翼无人机机械臂抓取
基于深度学习的旋翼无人机机械臂抓取摘要:随着空中机器人技术的快速发展与日益成熟,无人机在越来越多的领域得到了广泛的应用.而多旋翼无人机作为最常用的无人机之一,以其体积小.运动灵活.定点悬停等优势广泛 ...
基于学习的机械臂抓取研究综述
1.基于学习的机械臂抓取研究综述 Kleeberger, K., Bormann, R., Kraus, W. et al. A Survey on Learning-Based Robotic Gr ...
【实战+源码】基于RGB-D（深度视觉）的具有机械臂抓取功能的自主规划移动服务机器人的设计与实现（一）——准备工作
目录一,实物or仿真 1,实物或仿真的利弊 2,从哪些角度去考虑是选择实物还是仿真二,环境准备 1,首推ROS 2,其他环境三,理论学习四,实物搭建一,实物or仿真我想这个问题是在开发之前 ...
基于机器视觉的ROS机械臂抓取实验
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨曾三来源丨混沌无形点击进入->3D视觉工坊学习交流群摘要:为了减少机械臂在产品分类 ...
边做边思考，谷歌大脑提出并发RL算法，机械臂抓取速度提高一倍！
选自arXiv 作者:Ted Xiao 等机器之心编译机器之心编辑部 RL 算法通常假设,在获取观测值.计算动作并执行期间环境状态不发生变化.这一假设在仿真环境中很容易实现,然而在真实机器人控制当 ...
【详细讲解附全部代码】【openmv控制三自由度机械臂抓取物品】硬件+软件
前言: 这份代码很难得的是纯自己写的,虽然openmv梯子都搭成这样了也没什么大技术含量,只有一丢丢细小的逻辑.. 整体代码放在最后了,有需要的自取吧实现功能机械臂抓取一定范围内任意位置的物品,将 ...

机械臂抓取学习笔记四

机械臂抓取学习笔记四相关推荐

最新文章

热门文章