Facebook AI的多任务多模态的统一Transformer

点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：作者：Synced

编译：ronghuaiyang

导读

一个模型完成了CV，NLP方向的7个任务，每个任务上表现都非常好。

论文链接：https://arxiv.org/pdf/2102.10772.pdf

Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功，但大多仅限于单个领域或特定的多模态领域的任务。例如，ViT专门用于视觉相关的任务，BERT专注于语言任务，而VILBERT-MT只用于相关的视觉和语言任务。

一个自然产生的问题是：我们能否建立一个单一的Transformer，能够在多种模态下处理不同领域的广泛应用？最近，Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战，该模型在不同的模态下联合训练多个任务，并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。

Transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域，甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调，并获得良好的结果，但这种模型微调方法会导致为每个下游任务创建不同的参数集。

Facebook的人工智能研究人员提出，一个Transformer可能就是我们真正需要的。他们的UniT是建立在传统的Transformer编码器-解码器架构上，包括每个输入模态类型的独立编码器，后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式：图像和文本。首先，卷积神经网络骨干网提取视觉特征，然后BERT将语言输入编码成隐藏状态序列。然后，Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后，Transformer解码器的表示将被传递到特定任务的头，该头将输出最终的预测。

UniT模型概要

评估UniT的性能，研究人员进行了实验，需要共同学习来自不同领域的许多流行的任务：COCO目标检测和 Visual Genome数据集，语言理解任务的GLUE基准(QNLI, QQP、MNLI-mismatched SST-2)，以及视觉推理任务VQAv2 SNLI-VE数据集。

多任务训练的UniT性能优于单独训练的目标检测和VQA

基于UniT模型的目标检测与VQA的分析

UniT模型在8个数据集的7个任务上的性能

具有共享解码器的UniT模型的预测

结果表明，所提出的UniT 模型同时处理8个数据集上的7个任务，在统一的模型参数集下，每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构，向更通用的智能的目标迈进了一步。

—END—

英文原文：https://medium.com/syncedreview/facebook-ais-multitask-multimodal-unified-transformer-a-step-toward-general-purpose-98db2c858603

点个在看 paper不断！

Facebook AI的多任务多模态的统一Transformer相关推荐

来自Facebook AI的多任务多模态的统一Transformer：向更通用的智能迈出了一步
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货作者:Synced 编译:ronghuaiyang 导读一个模型完成了CV,NLP方向的7个任 ...
独家 | Facebook AI发布DETR一种基于Transformer的对象检测方法！
作者:PRATEEK JOSHI 翻译:陈之炎校对:王晓颖本文约1800字,建议阅读8分钟. 每隔一段时间,一些新的机器学习的框架或者库就会改变整个领域的格局.今天,Facebook开源了-DET ...
Facebook AI的DETR:一种基于Transformer的目标检测方法
介绍机器学习框架或库有时会更改该领域的格局.前不久,Facebook开源了一个这样的框架,DETR(DEtection TRansformer) 在本文中,我们将快速了解目标检测的概念,然后研究DE ...
【自然语言处理】【多模态】UniT：基于统一Transformer的多模态多任务学习
UniT:基于统一Transformer的多模态多任务学习 <UniT:Multimodal Multitask Learning with a Unified Transformer> ...
更精准地生成字幕！哥大Facebook提出Vx2Text：多模态融合，性能更强！
点击上方"CVer",选择加"星标"置顶重磅干货,第一时间送达子豪发自凹非寺本文转载自:量子位(QbitAI) 现在,给视频添加字幕,又有了新玩法. ...
人脑启发AI设计：让神经网络统一翻译语音和文本
来源:图灵人工智能作者:Glaciohound 编辑:陈彩娴能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因.那么,人工智能是否也能如此?最近,来自字节跳动和UIUC的研究人员借鉴这 ...
复旦提出M2TR：首个多模态多尺度Transformer
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达本文授权转载自:我辈怎是蓬篙人(系粉丝投稿) M2TR: 首个多模态多尺度Transformer CNN?是 ...
【20210109期 AI周报】该重视 Vision Transformer 了
当你还在研究目标检测中one2one的时候,当你还在死磕模型lantency的时候,当你还在折腾模型NPU部署的时候,当...,我不得不提一下:该重视Vision Transformer了.自2020 ...
Facebook AI新架构：全景FPN，同时完成图像实例与语义分割 | 极客头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑ 整理 | 刘旭坤.Jane 出品 | AI科技大本营(id:rgznai100) 实例分割和语义分割长期以来都是运用不同的神经网络架构来完成的, ...

Facebook AI的多任务多模态的统一Transformer

Facebook AI的多任务多模态的统一Transformer相关推荐

最新文章

热门文章