目录

  • 1 原理介绍
  • 2 代码实现
  • 3 参考文献

1 原理介绍

是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。 门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。

我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。 我们使用同时为各种特征分配重要性的乘法门,创建不需要手动调整的丰富的多模态表示,而是直接从训练数据中学习。

这项工作的主要假设是,与手动编码的多模态融合架构相比,使用门控单元的模型将能够学习一种依赖于输入的门控激活模式,该模式决定了每种模态如何对隐藏单元的输出做出贡献 。

每个 x i x_i xi​ 对应一个与模态 i i i 相关的特征向量。 每个特征向量都为神经元提供一个 t a n h tanh tanh 激活函数,该函数旨在根据特定的模态对内部表示特征进行编码。 对于每个输入模态 x i x_i xi​,都有一个门神经元(在图中由 σ 节点表示),它控制从 x i x_i xi​ 计算的特征对单元整体输出的贡献。 当一个新样本被馈送到网络时,与模态 i i i 相关的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i i i 是否有助于特定输入的内部编码样本。

图 2.b 显示了用于两种输入模态 x v x_v xv​(视觉模态)和 x t x_t xt​(文本模态)的 G M U GMU GMU 的简化版本,将在本文的其余部分中使用。 应该注意的是,这两个模型并不完全等效,因为在双峰情况下,门是绑定的。 这种权重绑定限制了模型,因此单元在两种模式之间进行权衡,同时它们使用的参数少于多模式情况。 控制这个 GMU 的方程如下

2 代码实现

class GatedMultimodalLayer(nn.Module):""" Gated Multimodal Layer based on 'Gated multimodal networks, Arevalo1 et al.' (https://arxiv.org/abs/1702.01992) """def __init__(self, size_in1, size_in2, size_out=16):super(GatedMultimodalLayer, self).__init__()self.size_in1, self.size_in2, self.size_out = size_in1, size_in2, size_outself.hidden1 = nn.Linear(size_in1, size_out, bias=False)self.hidden2 = nn.Linear(size_in2, size_out, bias=False)self.hidden_sigmoid = nn.Linear(size_out*2, 1, bias=False)# Activation functionsself.tanh_f = nn.Tanh()self.sigmoid_f = nn.Sigmoid()def forward(self, x1, x2):h1 = self.tanh_f(self.hidden1(x1))h2 = self.tanh_f(self.hidden1(x2))x = th.cat((h1, h2), dim=1)z = self.sigmoid_f(self.hidden_sigmoid(x))return z.view(z.size()[0],1)*h1 + (1-z).view(z.size()[0],1)*h2

3 参考文献

[1]【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记
[2]https://github.com/IsaacRodgz/GMU-Baseline/tree/master/runs_pl

【多模态】多模态特征融合策略——门控多模态融合方法相关推荐

  1. GFF: 北大等提出的门控全融合语义分割

    论文地址:https://arxiv.org/pdf/1904.01803.pdf 目录 0.摘要 1.引言 2.本文方法 2.1.GFF模块 2.2.DFP模块 2.3.整体网络结构 3.实验结果 ...

  2. 【图像融合】基于matlab低频融合策略小波图像融合【含Matlab源码 2319期】

    ⛄一.小波变换彩色图像融合简介 1 基于小波的图像融合 1.1 小波的分解和重构 小波变换是一种能够用来检测信号局部特征的数学工具.当然也可以将二维信号分解成不同分辨率的子带信号.由于图像为二维信号, ...

  3. Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记

    文章目录 1.摘要 2.导论 3. 提出的方法 3.1 上下文话语表示 3.2 自注意力 3.3 交叉注意 3.5 深度多模态融合 4.实验 4.1 实施细节 4.2 实验结果 5. 结论 1.摘要 ...

  4. 【Gated Context Aggregation Network for Image Dehazing and Deraining用于图像去雾和去雨的门控上下文聚合网络】,个人笔记,勿喷

    摘要 图像去雾旨在从模糊图像中恢复未损坏的内容.我们没有利用传统的低级或手工图像先验作为恢复约束,例如暗通道和增加的对比度,而是提出了一个端到端的门控上下文聚合网络来直接恢复最终的无雾图像.在这个网络 ...

  5. 【CVPR 2020】一种新的门控通道注意力转换单元

    的点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]今天给大家推荐一篇百度联合Syndney在CVPR2020上发表的关于Attenti ...

  6. 门控时钟:Clock fating

    1.门控时钟定义 门控时钟是低功耗设计的一种方法,在数据无效时将寄存器的时钟关闭,以此来降低动态功耗.主要应用于低功耗领域.具体实现为:在寄存器输入数据无效时,将寄存器输入时钟置0. 门控时钟在 AS ...

  7. 多模态信息抽取(一)——融合知识图谱和多模态的文本分类研究(论文研读)

    融合知识图谱和多模态的文本分类研究 引言: 1 相关工作 1.1文本分类 1.2知识融合 1.3多模态融合 2 融合知识图谱和多模态的文本分类模型 2.1文本特征表示 2.2实体特征表示 2.3图像特 ...

  8. 深度学习多模态融合_3D目标检测多模态融合综述

    0前言 本篇文章主要想对目前处于探索阶段的3D目标检测中多模态融合的方法做一个简单的综述,主要内容为对目前几篇几篇研究工作的总结和对这个研究方面的一些思考. 在前面的一些文章中,笔者已经介绍到了多模态 ...

  9. 在多模态模型训练时,如何合适地融合单模态损失

    在多模态模型训练时,如何合适地融合单模态损失 FesianXu 20220420 at Baidu Search Team 前言 文章[1]的作者发现在多模态分类模型中,经常出现最好的单模态模型比多模 ...

最新文章

  1. ios 三种颜色画笔和橡皮擦的画图板demo
  2. [翻译] 聚集索引表 VS 堆表
  3. [QNAP crontab 定時執行程式
  4. 开发者都应该知道的15个API
  5. netbeans php 断点调试,windows7 + iis7 + fastcgi + php5 + netbeans + xdebug 调试 php
  6. ios跨线程通知_iOS多线程编程指南(三)Run Loop
  7. vim python3开发环境_[宜配屋]听图阁 - ubuntu16.04制作vim和python3的开发环境
  8. oracle脚本转mpp脚本,范本:使用expdp/impdp克隆生成一个新数据库
  9. [转]coolfire黑客入门教程系列之(七)
  10. java编程手册_java编程手册下载
  11. 【浙大翁恺】C语言习题
  12. wifi模块连接远程服务器,ESP8266 WIFI 模块与 Arduino 串口通信实现远程控制
  13. UI设计师应聘面试攻略看这篇就够了
  14. 搭建私人博客踩过的坑(心酸)
  15. 线性独立成分分析(ICA)与鸡尾酒会问题
  16. java learn 日期
  17. 【Android】BLE:蓝牙低功耗基础
  18. execl 截取函数 =LEFT(F2,9) 不管用,回车还是 =LEFT(F2,9)
  19. HDU 4883 TIANKENG’s restaurant (贪心)
  20. UE4 设置漂浮物移动到主角的位置

热门文章

  1. 工作杂谈之说说工作中的二宗罪
  2. linux下查找文件并按时间顺序排序的方法
  3. git踩坑——中途才使用.gitignore文件
  4. 【烈日炎炎战后端】Elecsticsearch(1.5万字)
  5. Kettle Carte简介
  6. (软件构造) 关于JDK版本更换问题(附jdk下载链接以及jdk环境变量全教程)
  7. 【项目】森林预言家——森林火灾预防系统
  8. CDN: trunk URL couldn‘t be downloaded的解决办法
  9. 笔记本电脑怎么录音?电脑专业录音软件下载
  10. TSINGSEE青犀视频云-边-端架构视频智能分析平台EasyNVR如何实现直播地址和录像地址统一