杨净 萧箫 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

近日,视觉常识推理任务VCR(Visual Commonsense Reasoning)榜单又被刷新了。

VCR是华盛顿大学研究人员2018年提出的推理任务,是多模态理解领域最权威的排行榜之一。它不仅要求模型识别出图中人物的属性和关系,还需要在此基础上,去进一步推理人物的意图等。

腾讯微视视频理解团队在多模态领域长期耕耘,此次以BLENDer单模型,夺得高分「81.6,86.4,70.8」,占领榜首。据团队介绍,BLENDer研发时间不到3个月。

百度微软曾称霸的VCR榜单被微视刷新

传统的视觉问答(VQA)任务主要面向识别(recognition)层面的问题,例如,「一张图里有几个橘子?」

而VCR的目标是将识别提升到认知(cognition),例如「为什么人物4指向人物1?」,更进一步,计算机在第一步做出答案选择之后,还要在第二步解释选择这个答案的理由(rationale)。如下图分别展示了这两步的问题和答案选项。

这就要求机器同时理解图像中的视觉内容以及问题对应的文本内容。

目前,VCR榜单上的任务给出的场景图片有11万张,问题一共有29万个。而给出的问题,都需要对图片中的人物和场景进行一定程度的理解和推理,才能得到正确的答案。

正因如此,VCR任务对机器的多模态理解和推导能力提出了相当大的挑战,是当前图像理解和多模态领域层次最深、门槛最高的任务之一。

在此之前,包括谷歌、Facebook、微软、百度在内的很多企业和团队曾参与VCR竞赛,但以往最好效果都是基于多模型融合,包括百度(15个模型)、微软(10个模型)。腾讯微视的BLENDer单模型超越了此前榜单上的多模型提交结果,让这项技术有了更强的应用价值。

腾讯微视如何凭单模型霸榜?

团队参赛成员介绍到,BLENDer是在流行的视觉-语言Bert模型的基础上进行了改进。

BLENDer第一阶段算法模型

训练主要分为三个阶段:

  • 以NLP BERT为起点,采用150万张图像+文本,采用词语/物体掩膜等技术,进行预训练,使模型能够学习到图像和文本两个模态的语义信息和关联。

  • 在VCR数据集上进行类似第一阶段的预训练,使模型熟悉VCR的图像和语料,为第三阶段的特定任务训练做准备。

  • 针对最终的视觉常识推理任务,进行微调训练。

为了同时在VCR榜单要求的三个任务上做到性能最优,腾讯微视在模型中额外加入了人物-物体的关系推理部分。该模型的速度和大小都很优秀:BLENDer模型在运算速度方面,每秒钟可以推理50-60张图片。而且,这一个模型的大小约为1.3G,只相当于其他团队多融合模型中的单个模型。

在模型训练的过程中,该团队也解决了很多难题。

例如,在第一和第二阶段的预训练,团队为每一个子任务设计了权重和训练参数能够自动调节的算法机制。让模型能够有效地从各个任务中学到有价值信息。

为了让模型能够更加有的放矢地训练,团队设计了更有针对性的文本和图像的掩膜技术,提升了重要词汇和物体的预测精度。

而只是预训练效果好,还不够。在最终的任务训练时,模型又出现了过拟合现象。为了解决过拟合的问题,团队用反向翻译技术对文本进行了扩增,还加入了对抗噪声进行训练。

腾讯微视团队还透露,目前团队还在对模型进行优化,也是为了日后更好地将模型应用到业务中。而BLENDer模型,还不是该团队的最优模型。

本次竞赛夺得榜首,得益于技术方案的创新、以及团队长期基于短视频业务场景所积累的海量跨模态数据。

微视语义理解团队输出的多项技术,已经应用在包括审核、推荐、多媒体信息挖掘等多个微视业务场景中,此次的BLENDer方案赋予了机器更强大的理解和认知能力,将进一步推动AI技术在短视频业务中智能交互场景的落地。

在更好地服务产品的同时,团队也计划向业界开源相关技术方案,助力多模态语义理解领域的技术研究和落地,进一步提高AI能力的通用性。

据了解,腾讯微视技术团队关于AI相关研究还有很多,也希望吸引更多技术精英人才加入。

阅读原文即可获得相关职位信息。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

腾讯微视AI新技术曝光:斩获VCR榜单第一相关推荐

  1. 数据 3 分钟 | PolarDB、OceanBase 相继宣布开源;OceanBase 斩获 TPC-H 榜单第一

    数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦-三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布.公司大事件.行业新闻等. 本期内容概览 ...

  2. NLP强者!小i机器人再入“AI最佳掘金案例年度榜单”

    12月18日,雷锋网正式揭晓 "2018 AI最佳掘金案例年度榜单",小i机器人作为AI+金融领域的杰出代表获得"最佳NLP综合应用解决方案奖",这也是小i机器 ...

  3. 倍赛科技荣登2022中国AI企业商业落地TOP100榜单

    近日,专业研究平台亿欧智库重磅发布了<2022中国AI商业落地研究报告>,集中呈现中国人工智能商业落地最新进展,并揭晓了"2022中国AI企业商业落地Top100"榜单 ...

  4. 2021全球权威AI性能竞赛MLPerf最新榜单: 浪潮获18项冠军几近半壁江山

    4月22日,全球权威AI基准评测MLPerf公布2021年最新榜单,在全部有效41个项目中,浪潮获得18项性能第一,斩获几近半数冠军. MLPerf™由图灵奖得主大卫•帕特森 (David Patte ...

  5. 再获肯定,云畅科技旗下腾云畅翼入榜2021腾讯云启创新生态企业年度榜单

    文章来源:云畅科技 2022年伊始,云畅科技喜获捷报.近日,2021腾讯云启创新生态「产业新势力」年度榜单正式出炉,云畅科技旗下浙江腾云畅翼科技有限公司(后文简称:腾云畅翼)作为腾讯云启产业基地(宁波 ...

  6. 阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎...

    11月16日,阿里云大数据+AI技术沙龙,首站上海站取得圆满成功.我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历:高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流. ...

  7. 昇思MindSpore超级英雄榜发布!超300位开发者入选国内首个AI开源社区开发者进阶榜单...

    点击蓝字 MindSpore 关注我们 小说界有武侠英雄榜,游戏界有王者英雄榜,那么AI届的超级英雄榜,你了解多少呢?作为人工智能届的明珠昇思MindSpore,从2020年3月28日开源至今,已有4 ...

  8. 短视频特效“耍花招”:线上投篮、摆摊,让画中人摇摆,浅谈腾讯微视的AR基建...

    出品 | AI科技大本营 魔性的背景音乐.酷炫的AR特效.多元的内容题材,让大众欲罢不能的短视频App正在成为内容生产和传播主要渠道之一. 而短视频平台为了抢夺用户,正在通过各种方式提升用户体验.其中 ...

  9. 斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

    出品 | CSDN(ID:CSDNnews) 视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,我国<新一代人工智能发展规划> ...

最新文章

  1. ViewPager图片切换的简单案例
  2. Mac安装code blocks以及解无法打开的问题
  3. React是什么及特点
  4. spring mvc学习(46):自定义配置类
  5. 暑期训练日志----2018.8.22
  6. 没有可用软件包 docker-compose。_R语言CRAN软件包Meta分析
  7. linux使用RAM_DISK根文件系统基本过程
  8. 管理新语:不愿意做的事情,与其应付,不如直接明说
  9. Vue隐藏技能:运行时渲染用户写入的组件代码!
  10. MATLAB----光学之分量振幅反射率和分量振幅透射率
  11. 信号(进程间的通信方式)
  12. 华为存储OceanStor 5110V5 CA证书即将过期告警处理
  13. 详解JVM类加载机制
  14. 解释VR的时间扭曲(time-warp)
  15. 梯度笔记本电脑软件测试,软件测试性能报告.pdf
  16. 猛将赵云java,三国武将实力排行,赵云仅排第五,而他确实是三国第一公认猛将...
  17. 硬盘里的文件被替换了怎么恢复
  18. 空气质量实时监控平台
  19. isar舰船 matlab,一种isar图像舰船目标特征提取方法
  20. 支付宝运行报错页面找不到resolved to pages/login/login not found

热门文章

  1. 如何在C ++中使用数组?
  2. nuget.org 发布自己的程序包
  3. 设计模式(十二):通过ATM取款机来认识“状态模式”(State Pattern)
  4. HACKER'S DELIGHT[算法心得]笔记
  5. [转]使用QT开发GoogleMap瓦片显示和下载工具
  6. 再见,备份——你好,真正的数据保护
  7. html5手机页面的那些meta
  8. iptables总结
  9. iOS进阶之底层原理-cache_t
  10. 最近24小时记录:虚拟机与Wireshark 2.0