2020-12-01 21:15:31

随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。今年以来,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,本期与大家分享《机器人学习的思考》。

近期,在《Science》期刊中刊登了《The foundation of efficient robot learning》文章。在智能机器人方面,我们的目标是创造出能够在各种环境中执行常规任务且具有一般人类水平的机器人。然而过去10年中机器学习领域中取得的巨大突破尚未给智能机器人领域带来革命性的变化,困难在于机器人学习所依赖的数据只能来自于机器人在各种现实环境中的行动。因为在通用机器人必须应对的情况中存在巨大的可变性,获取这些数据的成本很高。因此,需要结合新技术、自然界的灵感和多层次的机器学习来实现具有通用智能的机器人技术革命。

在深度学习应用中,大多数成功的例子都是基于监督学习方法,在这种情况下,学习算法被给予成对的输入和期望输出的例子,然后学会输入输出的对应关系。而对于机器人执行的动作序列,更合适的是强化学习(RL),agent通过环境奖励行为时的信号来学会选择采取的动作。监督学习和RL之间的一个本质区别是,主体的行为对它所获得的数据有实质性的影响。

图1 通用型机器人用来做家务。然而,开发让机器人承担简单的任务学习应用也极具挑战性。

RL的最初灵感来自于利用奖惩机制来进行动物行为学习的模型。如果RL要应用于现实世界中的问题,它必须被扩展到能够处理非常大的输入和动作空间,而且在做出关键动作很久之后才可能获得奖励。深度强化学习(DRL)方法,使用复杂的多层神经网络,包括解决国际象棋的游戏和用机械手解决Rubik’s Cube。在这些成功的基础上,人们很容易想象,RL可能会完全取代机器人或其他具有复杂行为的物理世界系统的传统工程方法。

然而,设想一个机器人被设计用来帮助老年人做家务,这个机器人必须具备相当多的先验知识和能力,并且它还需要能够在工作中学习。这种学习必须是高效采样的(需要相对较少的训练实例),可泛化的(适用于许多情况,而不是它学习的情况),组合的(以一种形式表示,允许它与以前的知识相结合),增量的(能够随着时间的推移增加新的知识和能力)。大多数当前的DRL方法没有这些特性:它们可以学习新能力,但通常它们需要大量的经验,不能很好地泛化,并且在训练和执行过程中是统一的(既不是增量的,也不是组合的)。

如何在智能系统中实现样本效率、通用性、组合性和增量?现代神经网络已被证明是有效的在插值:给定大量的参数,它能够记住训练数据和对相似的例子做出可靠预测。要获得泛化能力,有必要提供以内置的形式或结构知识的归纳偏差给学习算法。一般来说,归纳偏差提高采样效率和泛化性。组合性和增量性可以通过构建特定类型的结构化归纳偏差来获得,其中通过学习获得的知识被分解为具有独立语义的因子,这些因子可以组合起来解决指数级的新问题。

建立先验知识或结构的想法有些令人担忧。RL先驱者Richard Sutton,主张人类不应该试图在一个学习系统中建立任何先前的知识。他指出了系统设计中的关键问题:什么样的归纳偏差可以构建到一个学习系统中,使其从合理数量的数据中学习可归纳的知识,而不会因不准确或过度约束而使其丧失能力呢?

有两种策略来寻找合适的偏差,有不同时间尺度和权衡,可以一起使用来发现强力和灵活的学习主体先验结构。一种策略是在“元”层次上使用机器学习技术—也就是在系统设计中离线使用机器学习时间发现结构、算法和先验知识,这使其能够有效地在线学习。

元学习的基本思想在20世纪80年代就已经出现在机器学习和统计学中。其基本思想是,学习过程可以获得许多系统在部署时可能面临的任务或环境的样本,而不是试图在单一环境中学习有益策略,甚至是在所有的环境中都适用的策略。当面对一个新的任务,一个meta-learner则是试图将学习尽可能有效。它可以通过诱导训练任务之间的共性,并利用它们形成一种强烈的先验或归纳偏差,从而使个体学习新任务与训练任务之间的差异。

元学习可以形式化为一种分层贝叶斯概率推理,另一种方法是明确地将元学习描述为两个嵌套优化问题。元优化试图找到内部学习过程本身的参数,使学习能够在新环境中很好地工作,这些新环境来自于与元学习使用的相同分布的环境。

最近,报道了一种名为模型不确定元学习(MAML)模式 。MAML是一个嵌套优化框架,其中外部优化选择一些内部神经网络权值的初值,这些权值将通过标准的梯度下降优化方法在wild进一步调整。RL2算法使用factory中的DRL来学习在wild运行的通用小程序,但不一定具有机器学习程序的形式。

自然界的进化过程可以被认为是元学习的一个极端,即大自然为动物寻找一个高度不受约束的可能的学习算法空间(当然,在自然界,动物的生理机能也会发生变化),机器人在生命周期内所解决的内部优化问题的灵活性越强,就需要更多的资源,包括factory中的实例环境、wild中坏掉的机器人,以及两个阶段的计算能力。在某种程度上,这又回到了最初的问题。标准RL被拒绝的原因是,尽管它是一种通用的学习方法,但它需要大量的wild经验。然而,meta-RL需要大量的factory经验,这可能会使开发变得极其缓慢和昂贵。因此,元学习可能也不是一个好的解决方案。

剩下的是什么?有很多好的方向可以探索,包括由人类进行教学,与其他机器人进行协作学习,以及在软件的同时改变机器人的硬件。在所有这些情况下,设计一种有效的开发机器人软件的方法仍然很重要。应用从计算机科学和工程中获得的见解,再加上从认知神经科学中获得的灵感,可以帮助找到可以构建到学习代理中的算法和结构,并为在factory和wild学习提供杠杆作用。

卷积神经网络的发展是这种方法的一个典型例子。我们的想法是设计一个神经网络来处理图像,这样它就可以在整个图像上使用相同的计算模式对局部图像块进行卷积处理。该设计同时编码了物体无论在图像中的哪个位置都具有基本相同外观的先验知识(平移不变性)和相邻像素组共同提供了图像内容信息的先验知识(空间局部性)。用这种方式设计神经网络意味着它需要的参数要少得多,因此比不使用卷积结构设计的神经网络需要的训练也少得多。图像卷积的想法来自于工程师和大自然。这是早期信号处理和计算机视觉中的一个基本概念,哺乳动物视觉皮层中的细胞似乎也在进行类似的计算。

有必要来发现更多像卷积这样的想法,也就是说,基本的结构或算法约束为学习提供了实质性的杠杆作用,但不会阻止机器人发挥其潜力实现一般智能行为。其他的想法包括使用行为影响的心智模型做某种形式的前向搜索的能力,类似于计划或推理能力;学习和表达知识的能力,从个体对象中抽象出来的,但可以更广泛地应用;以及对三维空间进行推理的能力,包括在其中规划和执行动作。还有许多其他问题需要解决,包括如何开发factory和wild的训练,以及帮助人类确定奖励和维护安全的方法。它将结合工程原理、生物灵感、学习机制最终创造出一般智能的机器人。

本文由CAAI认知系统与信息处理专委会供稿

学术分享丨机器人学习的思考相关推荐

  1. 学术分享丨面向机器人的学习算法简述

    2021-02-24 20:28:11 ​以下文章来源于CAAI认知系统与信息处理专委会 ,作者马晓健 在强化学习,模仿学习及其衍生的算法之外,机器人学习还有许多其他的范式.如基于高斯过程回归和贝叶斯 ...

  2. 分享丨强化学习是针对优化数据的监督学习?

    来源:AI科技大本营 作者 | Ben Eysenbach.Aviral Kumar.Abhishek Gupta  编译 | 凯隐 出品 | AI科技大本营(ID:rgznai100) 强化学习(R ...

  3. 侯伯薇|学习、思考与分享—快速有效提升能力的正向循环

    扉页图:Free-Photos@Pixabay 作者:侯伯薇 编辑:冷锋 前言:在当今这个快节奏.高强度.竞争激烈的时代环境下,你是否期望: • 拥有更好的职位 • 拥有更高的业界地位 • 为团队做出 ...

  4. 程序员应知——学习、思考与分享

    有人说,程序员是个苦差事,一辈子总是要不停地学习,学习新的技术,学习新的架构,学习新的工具,一旦一段时间不学习,就会发现其他人嘴里冒出来的新鲜词,自己已经搞不懂是什么了. 的确,作为程序员,学习很重要 ...

  5. 【转载学习】数据代码分享丨1990-2020年中国省级行政区1km分辨率NDVI数据

    数据代码分享丨1990-2020年中国省级行政区1km分辨率NDVI数据 原创 等你关注的 地理学人GeoCompany 2023-03-31 10:00 发表于广东 收录于合集 #植被变化3个 #数 ...

  6. 第六期大咖实战分享回顾 | 联邦学习落地金控集团的挑战与思考

    11月18日,FATE开源社区第六期「大咖实战分享」圆满落幕.本次活动,社区邀请了光大科技有限公司副总经理向小佳博士,分享<联邦学习落地金控集团的挑战与思考>. 接下来,让我们一起回顾经典 ...

  7. 分享丨10年DBA老司机整理的Oracle学习路线图

    微思10年资深DBA吴老师呕心沥血的分享总结-Oracle学习路线图,看完没收获你打我. 学习Oracle的前提是:熟悉Linux操作系统.Unix操作系统. 学习方法 1.sql.pl/sql 作为 ...

  8. 针对杂乱环境下抓取物体的机器人学习

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:脱贫钉子户 https://zhuanlan.zhihu.com/p/98990794 本文仅做 ...

  9. 机器人学习--智能移动机器人的有关技术演讲(浙大-熊蓉教授-2021年)

    链接都是链接http://www.imrobotic.com/news/detail/27452 参考:http://www.imrobotic.com/news/detail/27452 浙江大学熊 ...

最新文章

  1. js判断是否在iframe和禁止网页在iframe中显示
  2. 从零开始开发JVM语言(十三)代码生成与ASM
  3. 常见的邮件服务器有哪三种,常见邮件服务器的种类有哪些?分别用什么协议?,常见服务器类型...
  4. ERROR: org.apache.hadoop.hbase.PleaseHoldException:Master is initializing
  5. Tomcat正常启动,可以访问其主页,却不能访问webapp中的项目的jsp文件
  6. E - More is better (并查集)
  7. Zabbix 配置钉钉脚本告警(4)
  8. 定义域可以写成不等式吗_证单变量不等式(一)
  9. 如何设置照片的高度没有滚条_10分钟看懂Photoshop 照片修饰(照片修复工具)
  10. Java高级程序员面试大纲——备战金三银四跳槽季
  11. 试议软件开发与硬件开发的异同。
  12. 郭天祥 十天搞定单片机 (2)流水灯+蜂鸣器+调试
  13. windows出于安全原因某些设置由系统管理员管理解决方法
  14. 会长大人的《从小麦到馒头的过程》
  15. 【移动网络】5G NR: 压缩设计与帧结构等核心操作特性
  16. 「产品读书」增长黑客:创业公司的用户与收入增长秘籍
  17. 毕业后,他年薪百万,我年薪刚破十万,人和人之间的差距怎么这么大?
  18. Cadence(virtuoso)集成电路设计软件基本操作——库管理
  19. 好设计如何诞生:关于好设计的100件事
  20. Win7升为Win10以及win7系统的重装

热门文章

  1. oracle+cast函数+长度,oracle cast() 函数问题
  2. android连接不上socket,关于socket通信的android与pc端连接,为什么我定义的socket是为空的,连接不上pc端...
  3. java基础学习(1)-jre与jdk
  4. nvidia:未找到命令
  5. 正则表达式中的*,+,?以及\w和\W的区别等常见问题的总结
  6. Please make sure you have the correct access rights and the repository exists.问题解决
  7. Torch not compiled with CUDA enabled
  8. xml命名空间只是标记区分不同的空间的作用,一般与上网无关,虽然通常都写的是URL网址
  9. AttributeError: module 'tensorflow' has no attribute 'random_normal'
  10. 借鉴丰田方法对大型软件组织进行敏捷改造 (上)