每日学术速递5.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses(CVPR 2023 Highlight)
标题:加速坐标编码:学习使用 RGB 和姿势在几分钟内重新定位
作者:Eric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu
文章链接:https://arxiv.org/abs/2305.14059
摘要:
基于学习的视觉重定位器表现出领先的姿势准确性,但需要数小时或数天的培训。由于训练需要在每个新场景上再次进行,长时间的训练使得基于学习的重定位对于大多数应用来说是不切实际的,尽管它具有高精度的承诺。在本文中,我们展示了这样的系统如何在不到 5 分钟的时间内实际达到相同的精度。我们从显而易见的地方开始:重定位网络可以分为场景不可知的特征主干和场景特定的预测头。不太明显:使用 MLP 预测头允许我们在每次训练迭代中同时优化数千个视点。这导致稳定和极快的收敛。此外,我们使用稳健的姿势求解器将有效但缓慢的端到端训练替换为重投影损失的课程。我们的方法不需要特权知识,如深度图或 3D 模型,即可进行快速训练。总的来说,我们的方法在映射方面比最先进的场景坐标回归快 300 倍,同时保持相同的精度。
Subjects: cs.RO
2.Imitating Task and Motion Planning with Visuomotor Transformers
标题:使用 Visuomotor Transformers 模拟任务和运动规划
作者:Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox
文章链接:https://arxiv.org/abs/2305.16309
摘要:
模仿学习是训练机器人操作策略的强大工具,使它们无需手动编程或反复试验即可从专家演示中学习。然而,人工监督等常见的数据收集方法由于费时费力,因此难以扩展。相比之下,任务和运动规划 (TAMP) 可以自主生成各种演示的大规模数据集。在这项工作中,我们展示了由 TAMP 监督员生成的大规模数据集与适合它们的灵活 Transformer 模型的组合是机器人操作的强大范例。为此,我们提出了一种名为 OPTIMUS 的新型模仿学习系统,它通过模仿 TAMP 代理来训练大规模视觉运动 Transformer 策略。OPTIMUS 引入了一种用于生成 TAMP 数据的管道,该管道专门用于模仿学习,可用于训练基于 Transformer 的高性能策略。在本文中,我们对模仿 TAMP 所需的设计决策进行了全面研究,并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务,其中包含 70 多种不同的对象,包括远距离拾取和放置任务, 对货架和铰接物体的操纵,达到 70% 到 80% 的成功率。此 https 网址的视频结果
3.Iterative Forward Tuning Boosts In-context Learning in Language Models
标题:迭代前向调整促进语言模型中的上下文学习
作者:Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li
, Fei Huang, Yongbin Li
文章链接:https://arxiv.org/abs/2305.13016
项目代码:https://github.com/AlibabaResearch/DAMO-ConvAI
摘要:
大型语言模型 (LLM) 表现出一种新兴的上下文学习 (ICL) 能力。然而,可以解决普通案例的 ICL 模型很难通过一次处理演示示例来扩展到解决更复杂的任务。这种单轮 ICL 与人类通过类比学习的决策过程不协调。在本文中,我们提出了一种有效且高效的两阶段框架,通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。具体来说,我们将 ICL 过程分为“深度思考”和推理阶段。“Deep-Thinking”阶段对演示进行迭代前向优化,通过多次“思考”演示,有望提升LLM在考试时的推理能力。它通过操纵 Transformer 的自注意力模块中的键值矩阵来产生累积的元梯度。然后,推理阶段仅将测试查询作为输入而不连接演示,并通过注意力应用学习的元梯度进行输出预测。这样,在推理阶段不需要演示,因为它们已经被学习并存储在最终的元梯度中。LLM 可以有效且高效地适应下游任务。对十个分类和多项选择数据集的大量实验表明,我们的方法在准确性和效率方面都比标准 ICL 取得了更好的性能。
更多Ai资讯:公主号AiCharm
每日学术速递5.30相关推荐
- 每日学术速递1.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: 今天带来的arXiv上最新发表的3篇文本图像的生成论文. Subjects:cs. ...
- 每日学术速递4.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Masked Frequency Modeling for Se ...
- 每日学术速递2.16
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Efficient Teacher: Semi-Supervis ...
- 每日学术速递1.26
CV - 计算机视觉 今天带来的是北航IRIP实验室被国际人工智能联合会议IJCAI-ECAI 2022接收的3篇论文. IJCAI 是人工智能领域中最主要的学术会议之一,原为单数年召开,自2015年 ...
- 每日学术速递1.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 前沿推介: ICLR 2023 ICLR 全称为国际学习表征会议(International Conference on L ...
- 每日学术速递4.17
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.DreamPose: Fashion Image-to-Vide ...
- 每日学术速递3.15
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.MVImgNet: A Large-scale Dataset ...
- 每日学术速递5.29
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Custom-Edit: Text-Guided Image E ...
- 每日学术速递1.29
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: Subjects:cs.CV 1. Compact Transformer Trac ...
最新文章
- Java访问控制修饰符作用域
- boost::mp11::mp_take相关用法的测试程序
- 【机器视觉】 dev_set_paint算子
- idea自动生成not null判断语句
- 10、jeecg 默认为空的字段值是如何被填充的?
- Java11.0.2怎么生成JRE_java环境变量配置,jdk13.0.1中没有jre解决办法
- 算法应用一:【指纹识别】+【图像分割】一种面向“感兴趣区域”的指纹图像分割算法
- 【干货】如何搭建靠谱的数据仓库.pdf(附下载链接)
- 汲取 IE6、IE8 消亡的经验,如何“杀死” IE11?
- 《DOM编程艺术》中CSS—DOM的总结(一)
- 聚类 | Map-Equation多级网络聚类模型——InfoMap
- 封装工具类DBUtils、DateUtils详解
- PHP 实现微信公众号网页授权登录
- 机器人断脚_超强算法让机器人脚断了照样跑
- SFP光纤收发器搭配光模块的交换机连接方案解决方案
- [毒]QQ空间出现的伪装QQ登录窗口诈骗
- 树莓派Raspberry Pi上手报告
- 合并pd.merge()含有相同的某一列两个不同的dataframe表格
- 百度站长工具之 流量与关键词
- springboot整合dubbox+zookeeper
热门文章
- 1352: 兔子繁殖问题
- Window flag
- jasper iReport 插入图片问题
- 大尺度衰落matlab,31 大尺度衰落和信道建模 - read.doc
- java -- 每日一题
- mysql安装包安装_mysql安装包安装
- vue修改config后怎么生效_vue组件中修改样式怎么不生效?
- Java C++ 实现第十二届蓝桥杯 C++ B组 省赛真题(希望能和各位佬能一起讨论算法题:讨论群:99979568)
- python argparse命令行参数解析
- 李弘毅机器学习笔记:第三章—Error的来源