https://gitee.com/AI-Mart/ERNIE/tree/repro/ernie-vil

ERNIE-ViL 是面向视觉-语言任务的知识增强预训练框架,首次在视觉-语言预训练中引入了结构化的知识。ERNIE-ViL利用场景图中的结构化知识,构建了物体预测,属性预测,关系预测三种预训练任务,精细地刻画了视觉-语言模态之间细粒度语义的对齐,从而获得了更好的视觉-语言联合表示。

模型框架
基于文本中解析出的场景图,ERNIE-ViL提出了三个多模态场景图预测任务:

物体预测:随机选取图中的一部分物体,然后对其在句子中对应的词进行掩码和预测;
属性预测:对于场景图中的属性-物体组合,随机选取一部分词对其中属性词进行掩码和预测;
关系预测:对于场景图中的物体-关系-物体三元组,对其中的关系词进行掩码和预测。

ERNIE-ViL-理解相关推荐

  1. 本周AI热点回顾:最强的目标检测网络开源、ERNIE动静合一全新升级、假笑再也不能骗到AI了

    01 54.7 AP!最强的目标检测网络:DetectoRS(已开源) 许多现代目标检测器通过使用两次looking和thinking的机制,表现了出色的性能.在本文中,作者探索了用于目标检测的bac ...

  2. 万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型

    来源:AI科技评论 编译:Jocelyn 编辑:陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设 ...

  3. 万字深度好文!VL最强总结!

    点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 本文转自AI科技评论 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014 ...

  4. 《预训练周刊》第66期:智源2022大模型创新论坛、 ChatGPT手把手debug代码、AI与物理的交融...

    No.66 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  5. 视频与图片检索中的多模态语义匹配模型 ——原理、启示、应用与展望

    前言 三多前笔者在<万字长文漫谈视频理解>[1]一文中,曾经将自己对视频理解的认识进行过简单总结,幸而获得了朋友们的认可,能让读者认可是笔者最为骄傲的成就.现在看来文中观点有不少纰漏狭隘之 ...

  6. 百度集团副总裁吴甜发布文心大模型最新升级,AI应用步入新阶段

    11月30日,由深度学习技术与应用国家工程研究中心主办.百度飞桨承办的WAVE SUMMIT+2022深度学习开发者峰会如期举行.百度集团副总裁.深度学习技术及应用国家工程研究中心副主任吴甜带来了文心 ...

  7. 大模型,化繁为简归文心

    大模型,已经变成今天AI产业最为关注.最受期待的技术方向,甚至没有之一. 其原因在于,大模型带来了强大的泛化能力以及优异的效果,并且能够实现AI模型研发-部署-应用的标准化提升.这些价值与各界对AI工 ...

  8. 瞄准自然语言处理,百度与鹏城实验室共建实验室

    4月16日,百度与鹏城"自然语言处理联合实验室"签约暨揭牌仪式在鹏城实验室举行. 中国工程院院士.鹏城实验室主任高文出席仪式并致辞,鹏城实验室人工智能研究中心主任李革教授和百度集团 ...

  9. NLP界的「MVP」再次夺冠,刷新GLUE榜单

    视学算法发布 机器之心编辑部 刷新多项任务分数,百度自研的语义理解技术与平台文心 ERNIE 再次登上了 GLUE 的榜首. 近日,自然语言处理领域权威排行榜--GLUE(通用语言理解评估基准)新排名 ...

  10. 是什么给了150万开发者拥抱深度学习的底气?

    导语:飞桨真正意义上开始走向工业级成熟. 在企业数字化转型的浪潮中,对于AI等新技术的应用,先进与落后的企业之间,会有多大的差异? 与南方电网广东能源技术公司过去一年的合作中,百度为其提供全方位的AI ...

最新文章

  1. Java开发自学技巧!【漫画(1)
  2. 3springboot:springboot配置文件(外部配置加载顺序、自动配置原理,@Conditional)
  3. 《Excel 职场手册:260招菜鸟变达人》一第 1 招 快捷键的妙用(基于Windows操作系统)...
  4. mysql 创建唯一索引_Mysql创建索引
  5. 调用bash shell脚本的方式
  6. MySQL数据库:存储过程Procedure
  7. 四川一级计算机课程编码,四川省计算机一级考试真题
  8. python3串口通信16进制_STM32串口通信——16进制数形式
  9. oracle游标遍历的三种方式
  10. matlab怎么安装compiler,关于MATLAB中compiler配置问题
  11. ubuntu命令行启动浏览器_Ubuntu 秘笈之命令行下管理浏览器书签
  12. 作者:赵晨(1980-),男,深圳般若计算机系统股份有限公司气象大数据应用负责人...
  13. android中的屏幕单位介绍
  14. AndroidUI的基本结构
  15. DBPN:Deep Back-Projection Networks For Super-Resolution
  16. cfree——好用的c语言编辑器(附注册码)
  17. SimpleITK读取DCM文件
  18. 《Python程序设计基础(第2版)》习题答案
  19. 系统与软件过程改进09年年会,CMMI vs 敏捷PK赛参赛感言
  20. linux systemd.service说明

热门文章

  1. App测试中有哪些常见的性能测试指标?出具App测试报告的软件测试机构推荐
  2. android 摄像头检测工具,检摄app下载-检摄软件(检测摄像头)下载 v1.0.7安卓版_5577安卓网...
  3. 数据可视化项目(一)
  4. 单工通信、半双工通信和全双工通信之间有什么区别。
  5. OpenCV C++开发 第一节:Win7开发环境搭建
  6. 腾讯47岁T13大佬被裁,厂龄15年依然被毕业?
  7. 实战开发企业级ERP进销存管理项目视频教程下载
  8. MeterSphere一站式开源持续测试平台
  9. “甲流疫情死亡率”较标准程序
  10. 成都中忻嘉业:抖音小店商品不出单,如何做好优化