弄懂基本上的专有术语以后,阅读理解论文的速度就会大大增快,所以,看到每篇论文的生词就记录下来,方便以后查阅和学习!

2.中的术语:object dection(目标检测),region proposal network(RPN  区域推荐网络),

bilinear interpolation(双线性插值),Faster-RCNN,

3.中subject-predicate-object(主语-谓语-宾语),relation annotation(关系采样),softmax(回归模型),Feature Extraction(特征提取),

Visual Feature(视觉特征),weighted concatenation(加权连接),ROI pooling解析,non-maximum suppression (NMS 非极大值抑制),

intersection over union (IoU 重叠区域),Optimization(优化),

confident region(置信区域),

4.中的术语:JointBox(联合标记框),State of The Arts(时下最优算法),Phrase Detection(短语检测)。

2.3视觉关系检测不仅仅是标记出目标们所在区域,更要描述它们的相互关系。

3.2位置特征不但在检测空间或者借此关系时有用,而且在检测动词时也有用,比如,当谓语是“骑”的时候,主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。

3.3训练用的图片使用一个“主谓宾”三元组来标记,其中每个不同的主体或者目标用边界框注释出来。在测试阶段,VTransE输入一张图片,输出一个检测到的目标的集合,并且输出每一对目标的集合,并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数,这就使得目标和关系能够相互学习。

4.1目前主要有两个大规模关系检测数据集,VRD(视觉关系数据集)和VG。

4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测,VTransE则对一对主体和目标进行预测。为了较为公平的比较,我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明,大部分谓词VTransE都能预测正确,而联合框方法在某些确定的模式下很可能产生偏差。比如,联合框预测“park on”这个动作仅局限于汽车,而VTransE方法则可以将这个动作扩展到飞机和公共汽车(问题,VTransE具体是怎么样工作的,为什么能扩展到飞机和公共汽车)。VTransE则可以则表现地更理解“beneath”的含义。
4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法,是的关系预测产生的错误能够反向传播到目标检测模块。

4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。

转载于:https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...相关推荐

  1. 论文浅尝 | Improved Neural Relation Detection for KBQA

    Yu M, Yin W, Hasan K S, etal. Improved Neural Relation Detection for Knowledge Base QuestionAnswerin ...

  2. 【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering

    分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录 二.动机 三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...

  3. 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering

    论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...

  4. Learning the Best Pooling Strategy for Visual Semantic Embedding

    学习视觉语义嵌入的最佳池策略 摘要 介绍 多模态匹配的视觉语义嵌入 具有广义池化算子的VSE∞ 概括不同的池策略 实现广义池操作符 使用GPO生成VSE∞ 相关工作 实验 综合检索实验 比较GPO与可 ...

  5. 【论文笔记】Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection

    论文标题:Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection 论文链接:https://s ...

  6. A Semi-supervised Graph Attentive Network for Financial Fraud Detection 个人总结

    A Semi-supervised Graph Attentive Network for Financial Fraud Detection 个人总结 写在前面:为方便阅读,尽量使用中文总结,对于翻 ...

  7. 论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

    1.JML方法 这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务. 在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片.而联 ...

  8. PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Locali

    arXiv 2021 Mar 图像的篡改检测分为隐式检测和显式检测 隐式检测 说明了图像整体篡改的概率 显式检测 说明逐像素篡改的概率 即判定一张图片是否经过篡改 和 像素级别的定位篡改 近年来的算法 ...

  9. 论文阅读 - Social Bot-Aware Graph Neural Network for Early Rumor Detection - CCF B

    目录 摘要: 1 绪论 2 问题定义 3 SBAG模型 3.1社交机器人检测 3.2 机器人感知图神经网络 3.2.1基于GCN的用户发布 3.2.2 基于GAT的用户交互 3.2.3文本编码器 3. ...

最新文章

  1. 如何动态添加菜单/菜单项、子菜单、右键菜单
  2. python画三维几何图-Python常见几何图形绘制
  3. 动画代码Android动画学习笔记动画代码
  4. RocketMQ最佳实战
  5. 【Python】Python办公自动化 | 一键给PDF文件加密,超方便
  6. 选择题_一级造价师选择题的分值是多少
  7. c# 获取路径的盘符_c#获取驱动器盘符
  8. ajax,jsonp,axios面试题
  9. 如何升软件开发项目的利润
  10. int和double究竟占多少个字节?c++等
  11. 微服务架构及其最重要的10个设计模式
  12. DSP using MATlAB 示例Example2.10
  13. css div 分页样式,3种简洁漂亮的CSS分页按钮样式
  14. 在win7中chm打不开的多种解决方法
  15. python中文转化gb2321_使用Python进行中文繁简转换的实现代码
  16. 破解 --- apk文件解析
  17. 一种基于优先级轮询调度负载均衡的crossbar结构
  18. php查找最高分最低分,​热播网剧评分最高8.6分,最低只有5.3分,你猜到哪部剧最低吗?...
  19. 有理样条曲线学习笔记(一)
  20. 浙江大学计算机科学排名,2017浙江大学专业排名结果

热门文章

  1. html5中加亮文本,html实现高亮关键字
  2. 平流式初沉池贮砂斗计算_除磷药剂如何投加效果最好?投加量如何计算?
  3. php html xml,xml和html之间的区别有哪些
  4. springboot处理参数再转发请求_SpringBoot是如何解析HTTP参数的
  5. python故事书_python的故事
  6. 鼠标右键转圈圈_win10系统右键一直转圈
  7. 【Spring Boot】【Thymeleaf】The SpringStandard Dialect
  8. 【Error】Provider com.sun.xml.stream.ZephyrParserFactory not found
  9. c加加语言编译程序的首要工作是,选择题(综合答案)
  10. go语言实现将word文件转成pdf_超实用的PDF在线转换器,你绝对用的到~