Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...

弄懂基本上的专有术语以后，阅读理解论文的速度就会大大增快，所以，看到每篇论文的生词就记录下来，方便以后查阅和学习！

2.中的术语：object dection（目标检测），region proposal network（RPN 区域推荐网络），

bilinear interpolation（双线性插值），Faster-RCNN，

3.中subject-predicate-object（主语-谓语-宾语），relation annotation（关系采样），softmax（回归模型），Feature Extraction（特征提取），

Visual Feature（视觉特征），weighted concatenation（加权连接），ROI pooling解析,non-maximum suppression (NMS 非极大值抑制)，

intersection over union (IoU 重叠区域)，Optimization(优化)，

confident region(置信区域)，

4.中的术语：JointBox（联合标记框），State of The Arts（时下最优算法），Phrase Detection（短语检测）。

2.3视觉关系检测不仅仅是标记出目标们所在区域，更要描述它们的相互关系。

3.2位置特征不但在检测空间或者借此关系时有用，而且在检测动词时也有用，比如，当谓语是“骑”的时候，主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。

3.3训练用的图片使用一个“主谓宾”三元组来标记，其中每个不同的主体或者目标用边界框注释出来。在测试阶段，VTransE输入一张图片，输出一个检测到的目标的集合，并且输出每一对目标的集合，并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数，这就使得目标和关系能够相互学习。

4.1目前主要有两个大规模关系检测数据集，VRD（视觉关系数据集）和VG。

4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测，VTransE则对一对主体和目标进行预测。为了较为公平的比较，我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明，大部分谓词VTransE都能预测正确，而联合框方法在某些确定的模式下很可能产生偏差。比如，联合框预测“park on”这个动作仅局限于汽车，而VTransE方法则可以将这个动作扩展到飞机和公共汽车（问题，VTransE具体是怎么样工作的，为什么能扩展到飞机和公共汽车）。VTransE则可以则表现地更理解“beneath”的含义。
4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法，是的关系预测产生的错误能够反向传播到目标检测模块。

4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。

转载于:https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...相关推荐

论文浅尝 | Improved Neural Relation Detection for KBQA
Yu M, Yin W, Hasan K S, etal. Improved Neural Relation Detection for Knowledge Base QuestionAnswerin ...
【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering
分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录二.动机三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...
论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题用于视觉问答的关系感知图注意力网络二.引 ...
Learning the Best Pooling Strategy for Visual Semantic Embedding
学习视觉语义嵌入的最佳池策略摘要介绍多模态匹配的视觉语义嵌入具有广义池化算子的VSE∞ 概括不同的池策略实现广义池操作符使用GPO生成VSE∞ 相关工作实验综合检索实验比较GPO与可 ...
【论文笔记】Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection
论文标题:Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection 论文链接:https://s ...
A Semi-supervised Graph Attentive Network for Financial Fraud Detection 个人总结
A Semi-supervised Graph Attentive Network for Financial Fraud Detection 个人总结写在前面:为方便阅读,尽量使用中文总结,对于翻 ...
论文精读：Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection
1.JML方法这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务. 在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片.而联 ...
PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Locali
arXiv 2021 Mar 图像的篡改检测分为隐式检测和显式检测隐式检测说明了图像整体篡改的概率显式检测说明逐像素篡改的概率即判定一张图片是否经过篡改和像素级别的定位篡改近年来的算法 ...
论文阅读 - Social Bot-Aware Graph Neural Network for Early Rumor Detection - CCF B
目录摘要: 1 绪论 2 问题定义 3 SBAG模型 3.1社交机器人检测 3.2 机器人感知图神经网络 3.2.1基于GCN的用户发布 3.2.2 基于GAT的用户交互 3.2.3文本编码器 3. ...

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...相关推荐

最新文章

热门文章