【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH
本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象、属性、关系。
本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词(sub-word),这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别:1.传统掩蔽的单位是子词,是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式,对句子中的所有词一视同仁,但是实际上句子中的词也是有主次之分的(对象、属性、关系三类词是更为重要的)
本文中利用到了一种叫场景图片剖析(Scene Graph Parser)的工具,这个工具可以将图片和文字转化为场景图片(scene graph),即划分(对象、属性、关系)为三个部分的形式,并以依存树的方式展现出来,在mask的时候对树的各个节点进行mask对应三种不同的预训练任务。
【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH相关推荐
- ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
目录 Introduction Scene Graph (场景图) ERNIE-ViL Model Architecture Scene Graph Prediction (SGP) Experime ...
- 11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH
1.介绍 为了学习图片和文本的联合表征,我们提出了知识增强的方法ERNIE-Vil, ERNIE-Vil尝试构建详细的语法连接(物体,属性,以及物体在视觉场景的关系) 目前模型不区分常见词,本文将其分 ...
- 论文笔记: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case s
论文笔记1: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case ...
- 【论文笔记】Hierarchical Paired Channel Fusion Network for Street Scene Change Detection
论文 论文题目:Hierarchical Paired Channel Fusion Network for Street Scene Change Detection 收录:IEEE Transac ...
- 论文笔记《Knowledge Enhanced Contextual Word Representations》
Motivition 作者的出发点有几个: 尽管BERT这种预训练模型取得了state-of-art的成绩.但是.因为他们没有包含真实世界的实体,所以导致这些模型也很难覆盖真实世界的知识. 没有实体没 ...
- 【论文笔记】Program synthesis using natural language
摘要 随着计算机进入千家万户,人机交互变成了一项极其普遍的活动.一些重复性或专业性任务通常需要创建小型的.一次性的程序.为了实现这些一次性程序,终端用户(End-User)可能需要花费大量时间和精力去 ...
- 论文笔记Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signa
Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals 引 ...
- 论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting
2022 ICML 1 Intro 长时间序列问题是一个研究很广泛的问题 RNN以及变体会遇到梯度消失/梯度爆炸,这会在很大程度上限制他们的表现 Transformer的方法会导致很高的计算复杂度,以 ...
- (论文笔记)An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 文章目录 An ...
最新文章
- Go的异常处理 defer, panic, recover
- PYthon3:函数实现“自动售卖机”功能
- 【python教程】对多线程中join()的详细教程
- 我理解的HBSE应用场景(交流篇)
- 水晶报表-横向设计页面,设置网格高度
- Android 布局之GridLayout
- 启动go服务_内网穿透工具 FRP公网服务端、内网客户端快速配置文件说明
- 使用函数输出水仙花数
- python行与缩进_Python行结构与缩进的简单介绍
- Linq中常用的方法
- 小白如何快速学会C++?
- 2741. [济南集训 2017] 掰巧克力
- 以Epson 1600k 打印机为例解决使用SC登录虚拟机不能使用问题
- 用数字计算机公式表白,爱情数学简单表白公式
- 话费充值哪里便宜?这样充帮我省了不少钱,推荐给您
- 赖特 因果分析_量子至上的赖特的东西
- 文件传输工具FileZillaWinSCP
- ARM要一统天下?华为已掘了它的后路
- 一文讲解单片机、ARM、MUC、DSP、FPGA、嵌入式错综复杂的关系
- 我的世界java皮肤展开图,我的世界情侣皮肤,我的世界皮肤展开图做图片
热门文章
- 微信v3native支付设置的结束时间处理办法
- 使用Gitbook写电子书
- python连乘函数_python 连乘
- html页面多层次结构布局,网页简单布局之结构与表现原则分享
- 马赛克与反马赛克技术
- 华为语音合成服务,为用户提供实时、可替换、多音调的语音播放体验
- Win_XP_SP3系统下成功安装WinccV6.0_SP3a 经验分享
- 最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+邀请分佣功能+支持后台一键更新+网站后台管理+永久更新!
- 这可能是京东考前焦虑最重的一次618
- python: pc端QQ窗口发送多条消息