本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象、属性、关系。

本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词(sub-word),这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别:1.传统掩蔽的单位是子词,是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式,对句子中的所有词一视同仁,但是实际上句子中的词也是有主次之分的(对象、属性、关系三类词是更为重要的)

本文中利用到了一种叫场景图片剖析(Scene Graph Parser)的工具,这个工具可以将图片和文字转化为场景图片(scene graph),即划分(对象、属性、关系)为三个部分的形式,并以依存树的方式展现出来,在mask的时候对树的各个节点进行mask对应三种不同的预训练任务。

【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH相关推荐

  1. ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

    目录 Introduction Scene Graph (场景图) ERNIE-ViL Model Architecture Scene Graph Prediction (SGP) Experime ...

  2. 11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH

    1.介绍 为了学习图片和文本的联合表征,我们提出了知识增强的方法ERNIE-Vil, ERNIE-Vil尝试构建详细的语法连接(物体,属性,以及物体在视觉场景的关系) 目前模型不区分常见词,本文将其分 ...

  3. 论文笔记: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case s

    论文笔记1: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case ...

  4. 【论文笔记】Hierarchical Paired Channel Fusion Network for Street Scene Change Detection

    论文 论文题目:Hierarchical Paired Channel Fusion Network for Street Scene Change Detection 收录:IEEE Transac ...

  5. 论文笔记《Knowledge Enhanced Contextual Word Representations》

    Motivition 作者的出发点有几个: 尽管BERT这种预训练模型取得了state-of-art的成绩.但是.因为他们没有包含真实世界的实体,所以导致这些模型也很难覆盖真实世界的知识. 没有实体没 ...

  6. 【论文笔记】Program synthesis using natural language

    摘要 随着计算机进入千家万户,人机交互变成了一项极其普遍的活动.一些重复性或专业性任务通常需要创建小型的.一次性的程序.为了实现这些一次性程序,终端用户(End-User)可能需要花费大量时间和精力去 ...

  7. 论文笔记Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signa

    Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals 引 ...

  8. 论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

    2022 ICML 1 Intro 长时间序列问题是一个研究很广泛的问题 RNN以及变体会遇到梯度消失/梯度爆炸,这会在很大程度上限制他们的表现 Transformer的方法会导致很高的计算复杂度,以 ...

  9. (论文笔记)An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

    An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 文章目录 An ...

最新文章

  1. Go的异常处理 defer, panic, recover
  2. PYthon3:函数实现“自动售卖机”功能
  3. 【python教程】对多线程中join()的详细教程
  4. 我理解的HBSE应用场景(交流篇)
  5. 水晶报表-横向设计页面,设置网格高度
  6. Android 布局之GridLayout
  7. 启动go服务_内网穿透工具 FRP公网服务端、内网客户端快速配置文件说明
  8. 使用函数输出水仙花数
  9. python行与缩进_Python行结构与缩进的简单介绍
  10. Linq中常用的方法
  11. 小白如何快速学会C++?
  12. 2741. [济南集训 2017] 掰巧克力
  13. 以Epson 1600k 打印机为例解决使用SC登录虚拟机不能使用问题
  14. 用数字计算机公式表白,爱情数学简单表白公式
  15. 话费充值哪里便宜?这样充帮我省了不少钱,推荐给您
  16. 赖特 因果分析_量子至上的赖特的东西
  17. 文件传输工具FileZillaWinSCP
  18. ARM要一统天下?华为已掘了它的后路
  19. 一文讲解单片机、ARM、MUC、DSP、FPGA、嵌入式错综复杂的关系
  20. 我的世界java皮肤展开图,我的世界情侣皮肤,我的世界皮肤展开图做图片

热门文章

  1. 微信v3native支付设置的结束时间处理办法
  2. 使用Gitbook写电子书
  3. python连乘函数_python 连乘
  4. html页面多层次结构布局,网页简单布局之结构与表现原则分享
  5. 马赛克与反马赛克技术
  6. 华为语音合成服务,为用户提供实时、可替换、多音调的语音播放体验
  7. Win_XP_SP3系统下成功安装WinccV6.0_SP3a 经验分享
  8. 最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+邀请分佣功能+支持后台一键更新+网站后台管理+永久更新!
  9. 这可能是京东考前焦虑最重的一次618
  10. python: pc端QQ窗口发送多条消息