《PaLM-E: An Embodied Multimodal Language Model》

摘要

大语言模型已被证明可以执行复杂的任务。不过，要在现实世界中实现通用推理，例如解决机器人问题，则需要解决概念落地的挑战。本文提出具现化的语言模型，将现实世界的连续传感器模态直接整合到语言模型中，并建立单词和感知之间的联系。具现化模型的输入是多模态的语句，包含视觉、连续状态估计估计和文本输入encodings。本文将这些encodings预训练的大语言模型一起进行端到端训练，用于多个具体任务，包括 sequential robotic manipulation planning, visual question answering, and captioning。本文的评估实验表明，PaLM-E这种单一的大型具现化多模态模型，可以解决多种具体推理任务，从多种观测模态到多种具象任务，并且表现出positive的迁移效果：该模型从互联玩规模的语言、视觉和 visual-language域的多样化联合训练中受益。本文最大的模型，具有562B参数的 PaLM-E-562B，除了在机器人任务上进行训练外，还是一个 visual-language generalist，在 OK-VQA上具有最先进的性能，并随着规模的增加保持通用的语言能力。

1. 引言

大型语言模型（Large Language Model, LLM）在各个领域展示了强大的推理能力，包括对话【Glaese_2022, Thoppilan_2022_LaMDA】，逐步推理【Wei_2022_Chain-of-Thought, Kojima_2022_Zero_Shot_Reasoners】，数学问题求解【Lewkowycz_2022_Solving_Quantitative_Problems, Polu_2022_Mathematics_Statement】和代码编写【Chen_2021a_Evaluating_LLM_on_Code】。然而，这类模型在现实世界中的推理中存在一个限制，即概念落地的问题：虽然，将LLMs在大规模文本数据上训练，可能会产生与当前物理世界相关的representations，但将这些表示与现实世界的视觉和物理传感器模态connecting起来，对于解决计算机视觉和机器人领域的更广泛的现实世界问题才是最为重要的【Tellex_2020_Robots_Use_Language】。之前的工作将LLM的输出与学习到的机器人策略和可使用的函数相结合以作出决策，但其局限性在于LLM本身仅提供文本输入，这对于许多需要了解场景几何构造的任务来说是不够的。此外，本文的实验表明当前最先进的 visual-language模型在典型的 vision-language任务上进行训练，无法直接解决机器人推理任务。

本文提出具现化语言模型，它直接将来自 embodied agent 的传感器模态的连续输入纳入模型中，从而使语言模型本身能够为现实世界中的顺序决策做出更有根据的推理。

【Transformer】《PaLM-E: An Embodied Multimodal Language Model》译读笔记相关推荐

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 Training a GPT-2 language model Steps 2 to 6
自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Training a GPT-2 language model Steps 2 to 6 目录 Step 2: C ...
自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 Training a GPT-2 language model Steps 10
自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Training a GPT-2 language model Steps 10 目录 Step : Creati ...
自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 Training a GPT-2 language model
自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Training a GPT-2 language model 目录 GPT模型简介 Training a GPT ...
【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】
<Multimodal Transformer for Unaligned Multimodal Language Sequences>论文翻译 <用于非对齐多模态语言序列的多模态T ...
2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences
Multimodal Transformer for Unaligned Multimodal Language Sequences 论文地址:https://arxiv.org/abs/1906.0 ...
LLMs：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》翻译与解读
LLMs:<BLOOM: A 176B-Parameter Open-Access Multilingual Language Model>翻译与解读导读:BLOOM(BigScienc ...
【NLP】AutoRegressive Language Model
AutoRegressive Language Model 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法.AutoRegressiv ...
UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL
简介 Text2SQL(也称为NL2SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义.Text2SQL的本质,是将用户的自然语言语句转化 ...
Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM
Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM 1 INTRODUCTION 在这篇文章中 ...

【Transformer】《PaLM-E: An Embodied Multimodal Language Model》译读笔记

《PaLM-E: An Embodied Multimodal Language Model》

摘要

1. 引言

【Transformer】《PaLM-E: An Embodied Multimodal Language Model》译读笔记相关推荐

最新文章

热门文章