1 原理介绍

是多模态分类任务——也就是融合视觉和文本特征，并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制，提出了一种基于门控神经网络的多模态学习新模型。门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元，其目的是根据来自不同模态的数据的组合找到中间表示。 GMU 学习使用乘法门来决定模态如何影响单元的激活。

我们提出的模块基于门的想法，用于选择输入的哪些部分更有可能有助于正确生成所需的输出。我们使用同时为各种特征分配重要性的乘法门，创建不需要手动调整的丰富的多模态表示，而是直接从训练数据中学习。

这项工作的主要假设是，与手动编码的多模态融合架构相比，使用门控单元的模型将能够学习一种依赖于输入的门控激活模式，该模式决定了每种模态如何对隐藏单元的输出做出贡献。

每个 x i x_i xi 对应一个与模态 i i i 相关的特征向量。每个特征向量都为神经元提供一个 t a n h tanh tanh 激活函数，该函数旨在根据特定的模态对内部表示特征进行编码。对于每个输入模态 x i x_i xi，都有一个门神经元（在图中由 σ 节点表示），它控制从 x i x_i xi 计算的特征对单元整体输出的贡献。当一个新样本被馈送到网络时，与模态 i i i 相关的门神经元接收来自所有模态的特征向量作为输入，并使用它们来决定模态 i i i 是否有助于特定输入的内部编码样本。

图 2.b 显示了用于两种输入模态 x v x_v xv（视觉模态）和 x t x_t xt（文本模态）的 G M U GMU GMU 的简化版本，将在本文的其余部分中使用。应该注意的是，这两个模型并不完全等效，因为在双峰情况下，门是绑定的。这种权重绑定限制了模型，因此单元在两种模式之间进行权衡，同时它们使用的参数少于多模式情况。控制这个 GMU 的方程如下

2 代码实现

class GatedMultimodalLayer(nn.Module):""" Gated Multimodal Layer based on 'Gated multimodal networks, Arevalo1 et al.' (https://arxiv.org/abs/1702.01992) """def __init__(self, size_in1, size_in2, size_out=16):super(GatedMultimodalLayer, self).__init__()self.size_in1, self.size_in2, self.size_out = size_in1, size_in2, size_outself.hidden1 = nn.Linear(size_in1, size_out, bias=False)self.hidden2 = nn.Linear(size_in2, size_out, bias=False)self.hidden_sigmoid = nn.Linear(size_out*2, 1, bias=False)# Activation functionsself.tanh_f = nn.Tanh()self.sigmoid_f = nn.Sigmoid()def forward(self, x1, x2):h1 = self.tanh_f(self.hidden1(x1))h2 = self.tanh_f(self.hidden1(x2))x = th.cat((h1, h2), dim=1)z = self.sigmoid_f(self.hidden_sigmoid(x))return z.view(z.size()[0],1)*h1 + (1-z).view(z.size()[0],1)*h2

3 参考文献

[1]【多模态】《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》论文阅读笔记
[2]https://github.com/IsaacRodgz/GMU-Baseline/tree/master/runs_pl

【多模态】多模态特征融合策略——门控多模态融合方法相关推荐

GFF: 北大等提出的门控全融合语义分割
论文地址:https://arxiv.org/pdf/1904.01803.pdf 目录 0.摘要 1.引言 2.本文方法 2.1.GFF模块 2.2.DFP模块 2.3.整体网络结构 3.实验结果 ...
【图像融合】基于matlab低频融合策略小波图像融合【含Matlab源码 2319期】
⛄一.小波变换彩色图像融合简介 1 基于小波的图像融合 1.1 小波的分解和重构小波变换是一种能够用来检测信号局部特征的数学工具.当然也可以将二维信号分解成不同分辨率的子带信号.由于图像为二维信号, ...
Gated Mechanism For Attention Based Multimodal Sentiment Analysis基于注意力的多模式情感分析的门控机制——阅读笔记
文章目录 1.摘要 2.导论 3. 提出的方法 3.1 上下文话语表示 3.2 自注意力 3.3 交叉注意 3.5 深度多模态融合 4.实验 4.1 实施细节 4.2 实验结果 5. 结论 1.摘要 ...
【Gated Context Aggregation Network for Image Dehazing and Deraining用于图像去雾和去雨的门控上下文聚合网络】，个人笔记，勿喷
摘要图像去雾旨在从模糊图像中恢复未损坏的内容.我们没有利用传统的低级或手工图像先验作为恢复约束,例如暗通道和增加的对比度,而是提出了一个端到端的门控上下文聚合网络来直接恢复最终的无雾图像.在这个网络 ...
【CVPR 2020】一种新的门控通道注意力转换单元
的点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]今天给大家推荐一篇百度联合Syndney在CVPR2020上发表的关于Attenti ...
门控时钟：Clock fating
1.门控时钟定义门控时钟是低功耗设计的一种方法,在数据无效时将寄存器的时钟关闭,以此来降低动态功耗.主要应用于低功耗领域.具体实现为:在寄存器输入数据无效时,将寄存器输入时钟置0. 门控时钟在 AS ...
多模态信息抽取（一）——融合知识图谱和多模态的文本分类研究（论文研读）
融合知识图谱和多模态的文本分类研究引言: 1 相关工作 1.1文本分类 1.2知识融合 1.3多模态融合 2 融合知识图谱和多模态的文本分类模型 2.1文本特征表示 2.2实体特征表示 2.3图像特 ...
深度学习多模态融合_3D目标检测多模态融合综述
0前言本篇文章主要想对目前处于探索阶段的3D目标检测中多模态融合的方法做一个简单的综述,主要内容为对目前几篇几篇研究工作的总结和对这个研究方面的一些思考. 在前面的一些文章中,笔者已经介绍到了多模态 ...
在多模态模型训练时，如何合适地融合单模态损失
在多模态模型训练时,如何合适地融合单模态损失 FesianXu 20220420 at Baidu Search Team 前言文章[1]的作者发现在多模态分类模型中,经常出现最好的单模态模型比多模 ...

【多模态】多模态特征融合策略——门控多模态融合方法

目录

1 原理介绍

2 代码实现

3 参考文献

【多模态】多模态特征融合策略——门控多模态融合方法相关推荐

最新文章

热门文章