A Robot 3C Assembly Skill Learning Method by Intuitive Human Assembly Demonstration论文解析

1. 概述
2. 简介
3. 系统综述
4. 数据预处理和策略学习
- 4.1 异常点识别（Outliers Identification）
- 4.2 轨迹分割（Trajectory Segmentation）
- 4.3 策略学习（Policy Learning）
5. 实验和讨论

论文网址：https://ieeexplore.ieee.org/document/8931930
论文出处：2019 WRC Symposium on Advanced Robotics and Automation (WRC SARA)
论文视频：https://v.qq.com/x/page/o3146q7wwj4.html
团队介绍：哈工大深圳楼云江老师团队

1. 概述

论文提出了一种离线的（off-line）示教编程方法用于自动3C产品的装配线。
包括2个步骤：
（1）用光学动作捕捉设备捕捉人手装配过程中的位置和方向信息。
（2）通过示范和手的相关信息来导出机器人控制策略。

2. 简介

Programming by demonstration (PbD) 可以解决目前3C产品的工业装配问题。
3C产品的装配过程包括：手的运动、精细的移动、快速变化速度。
传统在线示教方法：动觉教学（kinesthetic teaching）和遥操作（teleoperation）存在精度低、灵活性差的问题，如法应用于3C装配的具体需求。
与之对比，离线数据的获取和处理（offline data acquisition and processing）更加便捷、有效。
目前的示教方法根据获取数据和执行数据可以分为2类：
（1）映射方法（mapping method）：采用外部传感器，如视觉、数据手套等直接获取人体的运动。
缺点：suffer from the nonlinear correspondence（非线性一致性） issue。
（2）遥操作方法（teleoperation method）：示教器通过机器人末端的动觉教学来控制机器人的运动，或通过遥控手柄、外骨骼、示教盒来远程控制机器人的运动。
优点：不存在一致性问题。
缺点：操作者很难演示出期望的轨迹。
对于3C产品的装配，需要：small work space, high precision, and complicated movement。
本文采用光学动作捕捉平台，通过映射方法，获取手部运动信息。再设计机械臂控制的策略推导方法，避免大多数PbD 文献中的直接映射运动轨迹。
基于使用示范数据，策略推导方法包括：策略学习（policy learning）和奖励学习（reward learning ）方法。
策略学习，又称为行为克隆（behavioral cloning），是一种映射方法，能够直接学习示范数据的状态到运动。
策略学习代表性方法：
动态模型，如Dynamic movement primitive (DMP)
概率模型：将示范的噪音考虑进去，产生可能的机械臂运动轨迹的概率分布。如Gaussian Mixture Model, Gaussian Process, Hidden Markov Model and Probabilistic Movement Primitive。
奖励学习不直接产生策略，而是从示范数据中产生奖励函数。
奖励学习代表性方法：Inverse Reinforcement Learning
作者团队之前的工作：设计了一个low-cost的3D手部运动捕捉平台。
用3个Leap Motion获取装配过程中手部6D轨迹（3D位置和3D方向）。
相关论文：Hand trajectory extraction of human assembly based on multi-leap motion
本文方法是使用反光marker和光学动作捕捉设备来获得更可靠的人手运动。
通过异常识别方法（outlier identification method）和轨迹分割方法（trajectory segment method）来去掉不需要的示范点。
最后，通过概率策略生成无抖动的轨迹。

3. 系统综述

光学运动捕捉系统采用NOKOV，如上图3所示。
它能记录人手上贴的反光marker点的运动，340fps的采样频率。使用红外相机，达到了亚毫米级别的定位。
之后，通过数据处理，可以得到平滑的运动轨迹。
最后，通过策略学习算法可以为机器人生成不同位姿起始和目标点的装配运动轨迹。
机器人部分的实验平台包括：一个UR5机械臂，一个3D结构光相机。相机用来估计被装配件的初始位姿。

4. 数据预处理和策略学习

学习策略就是让机器人在装配部件处于任意初始和目标位姿的状态下灵巧的生成运动轨迹。
这个问题可以公式化为：从状态空间到运动空间的一个参数映射。
状态就是随时间 t 变化的一系列的查询点，运动就是机械臂末端执行器的位姿。
通过给定的示范点来为机器人生成一个平滑轨迹。

4.1 异常点识别（Outliers Identification）

异常点指光学运动捕捉系统感知的错误的点。
使用局部异常因子local outlier factor(LOF)来评估每个点是否为异常点。

4.2 轨迹分割（Trajectory Segmentation）

在示范操作过程，会记录一些冗余的、无用的示范数据，需要从所有示范数据中分割出抓取到装配的轨迹。
分割过程被公式化为一个聚类问题。
使用基于密度的噪声聚类应用（densitybased clustering of applications with noise (DBSCAN)）算法解决轨迹分割。

4.3 策略学习（Policy Learning）

一个任务可以有多个示范轨迹，可以将这些示范融合，来学习任务的内在特征。而不是仅仅学习示范轨迹。
本文采用GMM作为概率模型来学习。
给定一个具有新目标位姿的相同的装配任务，可以通过GMM算法计算机器人的运动轨迹。
策略步骤：
（1）先做时间对齐；
（2）GMM进行特征提取；
（3）Gaussian mixture regression (GMR)回归出新起始和终点下的机器人轨迹。

5. 实验和讨论

装配3C部件：PCB板，手机锂电池，手机背板。
实验分2个阶段：示范阶段，机器人装配阶段。
轨迹分割的结果
根据示范轨迹推导出生成轨迹

A Robot 3C Assembly Skill Learning Method by Intuitive Human Assembly Demonstration论文解析相关推荐

【论文笔记】A Reinforcement Learning Method for Multi-AGV Scheduling in Manufacturing
目录 Abstract Keywords 1 INTRODUCTION 2 REINFORCEMENT LEARNING 3 PROBLEM FORMULATION A. Problem Statem ...
文献记录(part84)--A nearest neighbor-based active learning method and its application to time ...
学习笔记,仅供参考,有错必纠 A nearest neighbor-based active learning method and its application to time series cl ...
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 来源背景 Motivation 强化学习训练过程实 ...
[论文翻译]DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 0 总结名称项目题目 DeepPath: A Re ...
Re-ID: Person Re-identification by Local Maximal Occurrence Representation and Metric Learning 论文解析
注: 刚刚看完了这篇论文,顺便整理了一下这篇论文的思路,对论文的方法表示666 项目主页:http://www.cbsr.ia.ac.cn/users/scliao/projects/lomo_xqd ...
人体姿态估计--Learning Feature Pyramids for Human Pose Estimation
Learning Feature Pyramids for Human Pose Estimation ICCV2017 Torch: https://github.com/bearpaw/PyraN ...
Supervised Descent Method(人脸对齐之SDM论文解析）
Supervised Descent Method(人脸对齐之SDM论文解析) 标签: SDM NLS Jacobian Hessian FaceAlignment 作者:贾金让本人博客链接:htt ...
论文解析：Deep Reinforcement Learning for List-wise Recommendations
论文解析:Deep Reinforcement Learning for List-wise Recommendations 简介京东在强化学习推荐系统方面的工作背景推荐系统存在的问题: 无法通 ...
Adam算法_Tensorflow实现——论文解析：ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION
目录 Adam优化器论文解析:ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION 摘要背景算法介绍偏差修正收敛性理论证明相关算法实验 ADAMAX 结论 ...

A Robot 3C Assembly Skill Learning Method by Intuitive Human Assembly Demonstration论文解析

A Robot 3C Assembly Skill Learning Method by Intuitive Human Assembly Demonstration论文解析

1. 概述

2. 简介

3. 系统综述

4. 数据预处理和策略学习

4.1 异常点识别（Outliers Identification）

4.2 轨迹分割（Trajectory Segmentation）

4.3 策略学习（Policy Learning）

5. 实验和讨论

A Robot 3C Assembly Skill Learning Method by Intuitive Human Assembly Demonstration论文解析相关推荐

最新文章

热门文章