论文链接:论文

论文简介:

这是一篇CVPR2018的论文,主要针对的是Visual Relationship Detection任务。论文主要利用谓词及<object,subject>对之间的强相关性(strong correlations)来推断谓词。同样由于这个原因,联合建模比独立建模更能准确地反映三个实体之间的关系,但是由于视觉关系的语义空间巨大(种类过多),训练数据有限,这会使得学习变得复杂。为了解决这个问题,论文利用语言统计学的知识来学习视觉模型,从训练注释和外部知识之中来计算给定<object,subject>对时谓词的概率分布。同时,作者认为,仅依靠单纯的visual cue难以准确的识别出谓词,提出联合object,subject和他们的空间位置来对谓词进行综合预测。

主要贡献:

利用视觉和语言表征在视觉关系检测中的作用,利用内部和外部语言知识来规范端到端深层神经网络的学习过程,以显著提高其预测能力和泛化能力。

论文笔记:

(1)、论文针对的分类方法是将一整个三元组<object,relationship,subject>看作一类,这种方法面临的是巨大的语义空间,因此论文提出用训练注释和外部知识来作为规范化信息来帮助CNN的训练。

(2)、论文框架:

给定一幅图像,提取其中的三个特征:

①、检测到的物体的联合剪裁图像

②、对象的语义表示

③、从检测到的边界盒对中或得到的空间特征

论文将三个特征连接起来,然后使用真实标签GT和得到的知识来训练一个FC层进行预测输出,将数据驱动的模型称为student Network,语言规范化模型成为Teacher Network

(3)、语言知识提炼(Linguistic Knowledge Distillation)

在语言知识提炼这一模块之中,分为两个部分:

①、初步在DNNs中整合知识及将知识提炼用于Visual Relationship Detection

虽然论文中这两个部分是分开的,但是个人觉得这两部分基本是紧密相连,就放到一块说了。这一步采用的是X. Ma等人在论文<Harnessing deep neural networks with logic rules>的思路,这里放一位大佬的解读

指路:<Harnessing Deep Neural Networks with Logic Rules>解读

所谓knowledge distillation,就是使student network的输出的概率分布不断接近teacher network输出的概率分布。另外teacher network的输出也不是一成不变的,teacher network是根据student network的概率输出及规则空间联合决定的(这里我个人觉得可以理解为生成-判别之间的相互学习,判别网络需结合一些现有的规则,以更符合实际情况),因此在每一轮更新上都需重新构建teacher network:

使用KL-divergence(又称相对熵(relative entropy)) ,衡量两个概率分布之间的相似程度。

②、语言知识集合(Linguistic Knowledge Collection)

为了得到语言知识的一个先验P(predict|object,subject),一种简单的方法是统计训练数据的注释信息,但这会带来很严重的Long-Tail问题,论文搜集互联网上的更多不可见的语言知识

(4)、 Semantic and Spatial Representations

论文认为,语义和空间表征捕获了视觉关系之间的相似性,可以更好地概括不可见视觉关系的相似性,使用word embedding来代表语义标签,而空间表征则由如下计算:

​​​​​​​        

而后根据语义表征、空间特征、及区域的联合表示来决定谓词的预测:

​​​​​​​        ​​​​​​​

<Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读相关推荐

  1. 《基于卷积神经网络的深度迁移学习,用于燃气轮机燃烧室的故障检测》论文阅读

    目录 突出 抽象 引言 1.1动机 1.2文献综述获得的结论 1.3贡献 1.4组织 2方法 2.1燃汽轮机组故障知识共享 2.2迁移学习 2.3 基于卷积神经网络的深度迁移学习 2.4用于燃气轮机燃 ...

  2. 基于卷积神经网络和投票机制的三维模型分类与检索 2019 论文笔记

    作者:白静 计算机辅助设计与图形学学报 1.解决的问题 由于三维模型投影得到的视图是由不同视点得到,具有相对独立性,这种像素级的融合运算并没有直接的物理或者几何意义,更有可能造成图像有益信息淹没和混淆 ...

  3. TextCNN——基于卷积神经网络的文本分类学习

    1.CNN基础内容 CNN的全称是Convolutional Neural Network,是一种前馈神经网络.由一个或多个卷积层.池化层以及顶部的全连接层组成,在图像处理领域表现出色. 本文主要学习 ...

  4. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  5. 一种基于卷积神经网络的图像去雾研究-含matlab代码

    目录 一.绪论 二.去雾卷积网络 2.1 特征提取 2.2 多尺度映射 2.3 局部均值 2.4 非线性回归 三.实验与分析 四.Matlab代码获取 一.绪论 雾是一种常见的大气现象,空气中悬浮的水 ...

  6. 机械臂论文笔记(一)【基于卷积神经网络的二指机械手 抓取姿态生成研究 】

    基于卷积神经网络的二指机械手 抓取姿态生成研究 论文下载 摘要 第1章 绪论 1.1 抓取生成国内外研究现状 1.1.1已知物体抓取生成 1.1.2相似物体抓取生成 1.1.3 未知物体抓取生成 1. ...

  7. 毕业设计 - 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

    文章目录 1 前言 2 前言 3 数据集 3.1 良性样本 3.2 病变样本 4 开发环境 5 代码实现 5.1 实现流程 5.2 部分代码实现 5.2.1 导入库 5.2.2 图像加载 5.2.3 ...

  8. 基于卷积神经网络与迁移学习的油茶病害图像识别

    基于卷积神经网络与迁移学习的油茶病害图像识别 1.研究思路 利用深度卷积神经网络强大的特征学习和特征表达能力来自动学习油茶病害特征,并借助迁移学习方法将AlexNet模型在ImageNet图像数据集上 ...

  9. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

  10. 基于卷积神经网络实现图片风格的迁移 1

    卷积神经网络详解 一.实验介绍 1.1 实验内容 Prisma 是最近很火的一款APP,它能够将一张普通的图像转换成各种艺术风格的图像.本课程基于卷积神经网络,使用Caffe框架,探讨图片风格迁移背后 ...

最新文章

  1. 表格中的border-spacing与border
  2. Unity 游戏开发技巧集锦之创建部分光滑部分粗糙的材质
  3. swing查询输入框无值时出现null异常_如何优雅处理代码中 Null 值引起的 Bug?告别 Null 恐惧症!...
  4. python实现文件上传预览_前端实现文件预览功能
  5. MyBatis之PageHelper分页操作
  6. 烧录imx6需要的linux空间,IMX6Q学习笔记——开发板的Linux系统更新和烧录
  7. 织梦cms第四版仿七猫技术导航源码 附安装教程
  8. ES6语法---箭头函数/关于this指向
  9. 保证一致性吗_谈了千百遍的缓存数据一致性问题
  10. Algorithm:十大经典排序算法C++实现及总结
  11. 渗透实例:The Game Of Bob_1.0.1
  12. Sencha Touch Hello World(转)
  13. Java二十三设计模式之-----桥接模式
  14. Linux安装Diamond软件,Diamond软件比对蛋白质数据库
  15. Java调用百度API实现翻译
  16. Total Variation
  17. 木吉他学习的高频问答(持续更新)
  18. yarn : 无法加载文件 C:\Users\Emily\AppData\Roaming\npm\yarn.ps1,因为在此系统上禁止运行脚本。
  19. win10停止更新_win10电脑更新不动的解决方案
  20. 放弃Dubbo了,不太适合小系统

热门文章

  1. 用生成模型来做图像恢复的介绍和回顾:上下文编码器
  2. 财路网每日原创推送:科普:分片技术
  3. DNW PL2303驱动解决问题
  4. RestTemplate设置通用header 并获取header请求参数
  5. 读书笔记 - 《史蒂夫·乔布斯传》
  6. [HARDWARE] ddr、ddr2、ddr3的区别
  7. 运行时异常与一般异常有何异同
  8. Tello:无人机新姿势识别(小创实验)
  9. TwinCAT3 C++ ——数字签名证书无法成功
  10. 抓取报表ALV GRID上的数据 转于elliott