斩获VCR竞赛榜第一，腾讯微视推出BLENDer单模型，超越多模型最好效果

出品 | CSDN（ID:CSDNnews）

视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题，我国《新一代人工智能发展规划》中也将从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”纳入五大智能方向。

近日，腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微软、Facebook等多家研究机构的模型效果，一举成为单、多模型的三项指标第一，值得注意的是，BLENDer仅凭单模型效果便超越了此前榜单上的多模型最好效果，赋予了机器更强大的理解和认知能力，并深度应用到短视频领域。

赶超百度、谷歌等，腾讯微视AI团队登顶VCR榜首

VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出，任务旨在将图像和自然语言理解二者结合，验证多模态模型高阶认知和常识推理的能力，让机器拥有“看图说话”的能力, 例如VCR能够通过图片中人物的行为，进一步推理出其动机、情绪等信息。

VCR榜单是多模态理解领域最权威的排行榜之一，也是当前图像理解和多模态领域层次最深、门槛最高的任务之一，吸引了微软、谷歌、Facebook、百度、UCLA等国内外公司和研究机构纷纷参与。

此次拔得头筹的单模型BLENDer来自腾讯微视视频理解团队，超越上一届榜首百度团队的多模态预训练模型 ERNIE-ViL-large成为新的VCR榜单霸主。

据相关负责人介绍，BLENDer模型已经应用到腾讯微视产品中，赋予了平台更强大的认知能力，使得包含文本、音频、视频等多种媒体信息在内的短视频内容，能够更好的做到分类和识别，更加精准理解和挖掘这些海量的跨媒体信息。例如当腾讯微视用户创作视频后平台可识别内容并精准推荐适合的话题，也能根据内容属性快速推荐给感兴趣的用户，增强创作内容的曝光。

腾讯微视视频理解团队提出的单模型BLENDer，是基于前沿的视觉语言Bert模型，将整个学习过程分成三个阶段，最终将任务的三项问答准确率一举提高到了81.6, 86.4, 70.8的水平，仅是BLENDer单模型上的表现已经超过此前各业界公司和研究机构的多模型融合效果。

在BLENDer模型中，第一阶段以NLP中的Bert模型为起点，结合海量数据中抽取得到的数百万张图片和对应描述文本作为BLENDer的输入进行多模态训练；第二阶段，在视觉常识推理数据集上学习电影中的场景和情节，使模型在新数据上获得更好的迁移能力；第三阶段，引入最终问答任务，让BLENDer利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理，得到最终的答案。

腾讯微视将人工智能技术赋能短视频

一直以来，腾讯微视视频理解团队长期深耕多模态语义理解领域，持续进行技术突破和落地，将相关技术应用在海量图像、视频、文本等跨媒体信息的认知推理中。

同时，腾讯微视团队也不断从业务出发探索前沿领域，并将人工智能技术应用到短视频生态中，贯穿内容创作、内容审核以及内容分发的各个环节。

在内容创作环节，腾讯微视将3D人脸、人体、GAN等AI技术结合AR技术辅助用户进行内容创作，让创作过程更加便捷、有趣和普惠；在视频审核环节，腾讯微视借助图像检测、分类、多模态理解等AI技术精准识别视频内容，提升审核效率，使得用户生产的内容最快时间触达消费者，目前腾讯微视内容处理效率已取得业界领先水平；而在视频分发环节，腾讯微视借助AI技术从非结构化的图像、音频、文本数据中提取结构化信息输出，如标签、特征等，支撑分发精准匹配用户。

未来，人工智能将具备更加多元、深度的交流学习能力，而技术的创新和精进将进一步推动AI技术在短视频业务中智能交互场景的落地。

更多精彩推荐

☞做数据中心，腾讯是认真的
☞首次公开！阿里巴巴云原生实时数仓核心技术揭秘
☞起底 Windows 35 年发展史
☞赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

☞想在边缘运行计算机视觉程序？先来迎接挑战
☞《中国区块链发展报告（2020）》导读：全球区块链政策及监管重点趋势

点分享点点赞点在看

斩获VCR竞赛榜第一，腾讯微视推出BLENDer单模型，超越多模型最好效果相关推荐

北大图灵班学子斩获全球竞赛本科生第一名，攻关EDA“卡脖子”技术难题
近日,2022年度国际计算机学会(ACM)学生科研竞赛 (SRC) 全球总决赛获奖名单正式出炉!其中,来自北京大学图灵班的郭资政凭借其在芯片设计自动化(EDA)领域的贡献,斩获了本科生组全球第一名(F ...
北大图灵班学子斩获全球竞赛本科生第一名，攻关EDA“卡脖子”技术难题！
整理 | 于轩出品 | 程序人生(ID:coder_life) 近日,2022年度国际计算机学会(ACM)学生科研竞赛 (SRC) 全球总决赛获奖名单正式出炉!其中,来自北京大学图灵班的郭资政凭借其 ...
腾讯微视AI新技术曝光：斩获VCR榜单第一
杨净萧箫发自凹非寺量子位报道 | 公众号 QbitAI 近日,视觉常识推理任务VCR(Visual Commonsense Reasoning)榜单又被刷新了. VCR是华盛顿大学研究人员 ...
男神青涩时纤毫毕现！腾讯AI模型GFPGAN火上GitHub热榜第一，Demo在线可玩
包浆老图立刻清晰到头发丝是一种怎样的体验? 看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动: (这就是用AI修复的高圆圆童年照) 时间更久远的历史名人照片也能搞定. 鲁迅先生年轻时意气风发 ...
女神青涩时纤毫毕现！腾讯AI模型GFPGAN火上GitHub热榜第一，Demo在线可玩
明敏发自凹非寺量子位报道 | 公众号 QbitAI 包浆老图立刻清晰到头发丝是一种怎样的体验? 看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动: (这就是用AI修复的高圆圆童年照) ...
这群理想主义者，在腾讯用10年做到了畅销榜第一
壹 2010年,在国内做了6年MMO的杨峰,因为一次网友见面决定加入腾讯. 这位网友名叫于海鹏,曾经是育碧上海的资深制作人.两个人在MSN上聊了2个月,聊MMORPG,聊次世代,聊武侠,颇觉相见恨晚. ...
女神青涩时纤毫毕现，腾讯 AI 模型 GFPGAN 火上 GitHub 热榜第一，Demo 在线可玩
来源:量子位作者:明敏包浆老图立刻清晰到头发丝是一种怎样的体验?看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动(这就是用 AI 修复的高圆圆童年照). 甚至时间更久远的历史名人照片也能 ...
短视频特效“耍花招”：线上投篮、摆摊，让画中人摇摆，浅谈腾讯微视的AR基建...
出品 | AI科技大本营魔性的背景音乐.酷炫的AR特效.多元的内容题材,让大众欲罢不能的短视频App正在成为内容生产和传播主要渠道之一. 而短视频平台为了抢夺用户,正在通过各种方式提升用户体验.其中 ...
技术探秘: 360数科夺得ICDAR OCR竞赛世界第一
ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一.近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Chal ...

斩获VCR竞赛榜第一，腾讯微视推出BLENDer单模型，超越多模型最好效果

斩获VCR竞赛榜第一，腾讯微视推出BLENDer单模型，超越多模型最好效果相关推荐

最新文章

热门文章