现在深度学习这么火,大家都会想着看看能不能用到自己的研究领域里。所以,将深度学习融入到机器人领域的尝试也是有的。我就自己了解的两个方面(视觉与规划)来简单介绍一下吧。

物体识别

这个其实是最容易想到的方向了,比较DL就是因为图像识别上的成果而开始火起来的。

这里可以直接把原来 CNN 的那几套网络搬过来用,具体工作就不说了,我之前在另一个回答amazon picking challenge(APC)2016中识别和运动规划的主流算法是什么?下有提到,2016年的『亚马逊抓取大赛』中,很多队伍都采用了DL作为物体识别算法。

物体定位

当然,机器视觉跟计算机视觉有点区别。机器人领域的视觉除了物体识别还包括物体定位(为了要操作物体,需要知道物体的位姿)。

2016年APC中,虽然很多人采用DL进行物体识别,但在物体定位方面都还是使用比较简单、或者传统的算法。似乎并未广泛采用DL。

当然,这一块也不是没人在做。我们实验室的张博士也是在做这方面尝试。我这里简单介绍一下张博士之前调研的一偏论文的工作。

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

这个工作大概是这样的:对于一个物体,取很多小块RGB-D数据;每小块有一个坐标(相对于物体坐标系);然后,首先用一个自编码器对数据进行降维;之后,用将降维后的特征用于训练Hough Forest。

这样,在实际物体检测的时候,我就可以通过在物体表面采样RGB-D数据,之后,估计出一个位姿。

抓取姿态生成

这个之前在另一个问题(传统的RCNN可以大致框出定位物体在图片中的位置,但是如何将这个图片中的位置转化为物理世界的位置?)下有介绍过,放两个图

↑ Using Geometry to Detect Grasp Poses in 3DPoint Clouds

↑ High precision grasp pose detection in dense clutter

控制/规划

这一块是我现在感兴趣的地方。

简单地说,我们知道强化学习可以用来做移动机器人的路径规划。所以,理论上将,结合DL的Function Approximation 与 Policy Gradient,是有可能用来做控制或规划的。当然,现在的几个工作离取代原来的传统方法还有很长的距离要走,但是也是很有趣的尝试。

放几个工作,具体可以看他们的paper。

1.Learning monocular reactive uav control in cluttered natural environments

↑ CMU 无人机穿越森林

2. From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots

↑ ETH 室内导航

3.Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection

↑ DeepMind 物体抓取

4. End-to-end training of deep visuomotor policies

↑ Berkeley 拧瓶盖等任务

有哪些难点

1、在视觉领域,除了物体识别、还需要进行物体定位。这是一个 regression 问题,但是目前来看, regression 的精度还没办法直接用于物体操作,(可能是数据量还不够,或者说现在还没找到合适的网络结构),所以一般还需要采用ICP等算法进行最后一步匹配迭代。

2、机器人规划/控制等方面,可能存在的问题就比较多了。我之前在雷锋网『硬创公开课』直播(运动规划 | 视频篇)的时候有提到我碰到的一些问题,这里简单列在下面:

可观性问题

简单地说,我们这些不做DL理论的人,都是先默认DL的收敛、泛化能力是足够的。我们应该关心的是,要给DL喂什么数据。也就是说,在DL能力足够强的前提下,哪些数据才能让我需要解决的问题变得可观。

当然,目前的几个工作都没有提到这点,Berkeley的那个论文里是直接做了一个强假设:在给定数据(当前图像、机器人关节状态)下,状态是可观的。

实际机器人操作中,系统状态可能跟环境有关(例如物体性质),所以这一个问题应该是未来DL用在机器人上所不能绕过的一个问题。

数据量

一方面,我们不了解需要多少数据才能让问题收敛。另一方面,实际机器人进行一次操作需要耗费时间、可能会造成损害、会破坏实验条件(需要人工恢复)等,采集数据会比图像识别、语音识别难度大很多。

是否可解决

直播的时候我举了个例子,黑色障碍物位置从左到右连续变化的时候,规划算法输出的最短路径会发生突变。(具体看视频可能会比较清楚)

这对应于DL中,就是网络输入连续变化、但输出则会在某一瞬间突变。而且,最短路径可能存在多解等问题。

DL的 Function Approximattion 是否能很好地处理这一状况?

是吧,这几件事想想都很有趣,大家跟我一起入坑吧~

有没有将深度学习融入机器人领域的尝试?有哪些难点?相关推荐

  1. 深度强化学习在机器人领域的研究与应用

    前言 机器学习方法主要可以分为四类,监督学习.半监督学习.无监督学习.以及强化学习.其中,强化学习不同于连接主义的监督学习方法,是智能体通过与环境的交互,观测交互结果以及获得相应的回报.这种学习的方式 ...

  2. 深度学习在文本领域的应用

    背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进. ...

  3. 【AI in 美团】深度学习在文本领域的应用

    背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进. ...

  4. 60深度学习在文本领域的应用666

    https://tech.meituan.com/2018/06/21/deep-learning-doc.html 背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界, ...

  5. 超全!深度学习在计算机视觉领域的应用一览

    作者 | 黄浴,奇点汽车美研中心首席科学家兼总裁 转载自知乎 简单回顾的话,2006年Geoffrey Hinton的论文点燃了"这把火",现在已经有不少人开始泼"冷水& ...

  6. 收藏 | 深度学习在计算机视觉领域的应用总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|计算机视觉联盟 还是做一些背景介绍.已经是很热的深度学习, ...

  7. 深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源 | 黄浴 原文 |  https://zhuanlan.zhihu.com/p/55747295 ...

  8. 深度学习在推荐领域的应用

    深度学习在推荐领域的应用 2017-05-31 20:50youtube/微博/社交 作者: 吴岸城,菱歌科技首席算法科学家,致力于深度学习在文本.图像.预测推荐领域的应用.曾在中兴通讯.亚信(中国) ...

  9. 【A】超全!深度学习在计算机视觉领域的应用一览

    作者 | 黄浴,奇点汽车美研中心首席科学家兼总裁 转载自知乎 简单回顾的话,2006年Geoffrey Hinton的论文点燃了"这把火",现在已经有不少人开始泼"冷水& ...

最新文章

  1. [导入][转]跨越域的Cookie
  2. Linux下主DNS与辅助DNS的配置(上)
  3. 谈谈重载(overload)覆盖(override)与隐藏
  4. java程序 扑克牌概率_java – 最简单的扑克牌评估算法
  5. 一级计算机电子表格试题,计算机一级考试电子表格题都是出什么样的题目或题型?以及幻灯片?【excel一级考试题目及解析】...
  6. php getlastid,PHP-获取最后一个插入ID
  7. 带你走近AngularJS - 体验指令实例
  8. C语言实现24点小游戏,C语言解24点游戏程序
  9. 使用 Hibernate 二级缓存的步骤
  10. Chrome浏览器的跨域设置----包含新老版本两种设置
  11. 笔记本window7安装虚拟机centos7后通过笔记本无线网卡上网
  12. TPshop电商平台购物车自动化测试
  13. 【Auto Proxy】自研Go语言自动代理工具软件
  14. 成长的思考:如何在工作中保持高速的自我成长
  15. 第一型曲线和曲面积分总结
  16. 巴拿赫空间的基本性质
  17. html怎么制作扇形,css3绘制画圆、扇形
  18. Docker-入门基础知识(1)
  19. Oracle执行UPDATE语句的步骤
  20. 人脸识别 无法打开相机 笔记本_笔记本上的人脸识别怎么用?需要安装驱动吗?...

热门文章

  1. 水系图一般在哪里找得到_一款支持智能抠图、钢笔抠图的在线抠图工具上线了 速抠图 sukoutu.com...
  2. 计算机技术应用参考文献,计算机毕业论文参考文献格式
  3. 的主机名_Mac教程——修改mac 下主机名、电脑名、局域网主机名
  4. 编写程序,输出所有3位数的水仙花数
  5. linux vim 高级,Vim命令高级用法
  6. vue读取redis 值_Jmeter连接Redis,一定很容易学会吧
  7. centos6重启网络命令_虚拟机-linux系统中图形界面和命令行界面切换
  8. Rabbitmq 相关介绍之双机镜像模式集群配置
  9. 基于layer mobile手机端弹出框,询问框(PC端推荐layer和artDialog:http://download.csdn.net/download/cometwo/9437895)...
  10. win系统下nodejs安装及环境配置