再次刷新单模型纪录！快手登顶多模态理解权威榜单VCR

点击上方“AI遇见机器学习”，选择“星标”公众号

重磅干货，第一时间送达

来自：机器之心

多模态理解领域的权威排行榜纪录，又被来自国内的技术团队刷新了。

近日，多模态理解领域国际权威榜单 VCR（视觉常识推理，Visual Commonsense Reasoning）刷新了排名，来自国内短视频平台快手研究团队MMU（Multimedia understanding）自研的 VLUA 多模态模型以两个单项成绩「82.3、87.0」和总成绩「72.0」的分数登上榜首。

快手自研 VLUA 多模态模型登顶 VCR 榜单。

近年来，多模态理解技术在视频内容社区、电商等领域有着广泛的应用场景，VCR 榜单由华盛顿大学等研究机构于 2018 年发起，基于大规模图文多模态数据集，旨在将图像和自然语言理解二者结合，验证多模态模型高阶认知和常识推理的能力，让机器拥有「看图说话」的能力，是多模态理解领域最权威的排行榜之一。

VCR 任务设置了问答 (question answering) 和解释 (rationale) 两个子任务。具体而言，在问答任务中，给定一张图片，计算机要回答一个用自然语言描述的和图片相关的问题；在解释任务中，计算机将在给出答案的基础上，给出为什么选择这个答案的原因。

比如在上图示例中，第一轮需要选出「person 4 为什么指着 person 1」的答案，第二轮则需要解释选择的理由。

一直以来，国内外众多企业和学术机构都围绕这一领域开展了深入的研究工作。因此，榜单自发布起成绩不断被刷新，来自百度、腾讯、英特尔、卡内基梅隆大学、加州大学伯克利分校等企业和研究机构都在围绕榜单做技术探索。

如图所示，分别为机器眼中的世界、人眼中的世界，以及通过 VLUA 后机器眼中世界的变化。

快手自研 VLUA，有何过人之处？

快手团队自主研发的 VLUA（Vision and Language Understanding via a Unified Architecture）多模态算法模型采用单流的 transformer 结构，针对视觉特征和文本特征输入的多样性，设计了统一的多模态特征处理模块，构建了图像背景和前景的信息互补策略，支持局部、全局、浅层、高层等各个维度的特征抽取。

相比目前主流的多模态算法模型，VLUA 设计了自适应的预训练任务范式单元，不仅能够支持多模态混合训练，也能够支持单模态的独立训练。预训练任务上包含文本预训练任务、视觉预训练任务及跨模态对比学习，VLUA 改进了模型的训练流程，通过隐性地引入代表图像全局的抽象信息以及多任务学习，使得模型可以从不同视角学习数据的特征，从而避免模型陷入局部最优解和过拟合。在训练方式上，VLUA 使用了噪声对抗学习，进一步提高了模型的鲁棒性。

快手研究团队将基于大规模图文多模态和单模态数据训练得到的 VLUA 预训练模型在 VCR 数据集上进行迁移学习。现有的 VCR 方法均使用 BUTD 算法提取的前景特征作为视觉特征，除了前景信息，快手的研究者们认为背景信息对于理解图片内容也具有至关重要的作用。在实践中，VLUA 使用网格特征对图片的整体信息进行提取，让模型可以更好地理解图片内容。

VLUA 通过统一化的输入特征及模型架构设计，不仅能够支持视觉、文本模态的融合，也支持音频、用户行为等更多跨域的模态特征融合。除了能够应用在视觉常识推理的任务上，VLUA 在视觉问答，跨模态检索、caption 生成等任务上都能够快速的迁移及获得效果的提升，最终以「82.3,87.0,72.0」的成绩登顶 VCR 榜单。

世界纪录背后，是一支什么样的队伍？

VLUA 来自快手的 MMU（Multimedia understanding）团队。作为国民级的短视频社区平台，快手每天有海量的短视频上传、直播开播，MMU 是快手的核心的 AI 技术团队，使命是通过多模态内容理解技术，让机器像人类一样理解视频内容及用户生产的各种内容，理解内容后会应用在搜索、推荐、广告、垂类运营、生态分析、内容安全等多个场景。

面向快手生态下内容的规模庞大、多模态、高实时性、形式丰富等多种特点，MMU 在多个技术领域广泛布局，比如视觉方向，在视频、直播、图像的分析和理解、视觉检索、视频生成等技术上有成熟应用和投入；音频方向，在语音识别 & 合成、音乐理解与生成、音频前端与分类等技术上达到行业先进水平，同时也有知识图谱、NLP、智能创作、内容商业价值理解等多种能力，为实现跨模态内容理解奠定坚实基础。

目前，VLUA 已应用于快手视频审核、推荐、搜索、创作等多个业务场景，能够根据应用场景的不同灵活的产出子模型及不同维度的多模态特征。

在视频审核业务中，基于 VLUA 产出的视频内容质量理解模型将视频内容质量进行分层，精确的识别了劣质视频和优质视频，极大了提升了视频审核的效率和社区内优质内容的供给；
在视频推荐业务中，以冷启动场景为例，基于 VLUA 产出的多模态内容理解特征，大幅提升了冷启动的效率，帮助更多的优质内容及优质作者在社区内获得更好的成长；
在视频搜索场景，通过 VLUA 提供的视觉文本对齐的多模态特征，大幅提升了搜索召回的相关性；
在视频创作方面，通过 VLUA 对视频多模态信息实现高层次的理解，为智能创作过程提供更加精准的素材检索能力，提升生成内容的流畅性及可读性。例如在直播场景，定位直播中的精彩片段，混剪形成有趣、高密度的短视频；在商业化场景，通过分析广告主广告素材或者挖掘站内优质素材，混剪形成新的创意广告，丰富广告数量。

据统计，MMU 团队有数百名算法工程师，博士占比 15%，硕士及以上占比 95%，拥有人工智能领域专利 394 件，每年发表论文数十篇。

欢迎关注我们，看通俗干货！

再次刷新单模型纪录！快手登顶多模态理解权威榜单VCR相关推荐

屠榜大杀器UniMP！百度登顶图神经网络权威榜单三项榜首
允中发自凹非寺量子位编辑 | 公众号 QbitAI 近日,百度在图神经网络领域取得新突破,提出融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),在 ...
全面提升AI语言理解能力，达摩院自研语言模型体系登顶6大权威榜单
8月26日,阿里达摩院语言技术实验室取得一系列突破,斩获自然语言处理(NLP)领域6大权威技术榜单冠军.据介绍,参与竞赛的6项自研AI技术均采用模仿人类的学习模式,全方位提升了机器的语言理解能力,部分 ...
5分钟让你在大火的多模态领域权威榜单VQA上超越人类
ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态预训练视觉问答模型mPLUG,小编激动的搓搓小手,迫不及待的体验了一下. 一探:浅草才能没马蹄市面上有好多号称&qu ...
重磅！百度多模态模型ERNIE-ViL刷新5项任务纪录，并登顶权威榜单VCR
** 关注[百度NLP]微信官方公众号,及时获取更多自然语言处理技术干货! ** 阅读原文,获取相关论文地址:https://mp.weixin.qq.com/s/nB_yCkEXkgjv7saKpc ...
刷新4项文档智能任务纪录，百度TextMind打造ERNIE-Layout登顶文档智能权威榜单
来源:机器之心本文约2300字,建议阅读5分钟文档智能国际权威榜单文档视觉问答 DocVQA 迎来了新霸主. 百度提出跨模态文档理解模型 ERNIE-Layout,首次将布局知识增强技术融入跨模态文 ...
百度ERNIE新突破，登顶中文医疗信息处理权威榜单CBLUE冠军
医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...
百度ERNIE新突破登顶中文医疗信息处理权威榜单CBLUE冠军
医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...
PaddleNLP新增AutoPrompt自动化提示功能，登顶FewCLUE小样本学习榜单
近年来,预训练语言模型已逐渐成为NLP任务的主流解决方案.但是在业务场景中,往往会遇到标注数据不足的问题,如何利用少量样本将模型快速迭代至可用状态成为了必要的研究方向. 近期,PaddleNLP团队开 ...
腾讯优图刷新人体姿态估计国际权威榜单，相关论文被ECCV2020收录
本文转载自腾讯优图. 近日,腾讯优图实验室在人体2D姿态估计任务中获得创新性技术突破,其提出的基于语义对抗的数据增强算法Adversarial Semantic Data Augmentation ( ...

再次刷新单模型纪录！快手登顶多模态理解权威榜单VCR

再次刷新单模型纪录！快手登顶多模态理解权威榜单VCR相关推荐

最新文章

热门文章