JML(2021 EMNLP) 关联图像和文本
论文题目(Title):Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal
Relation Detection
研究问题(Question):多模态方面级情感分析(MALSA)
研究动机(Motivation):方面术语抽取(ATE)和方面情感分类(ASC)是方面级情感分析(ALSA)中两个基础的细粒度子任务。在文本分析中,联合提取方面术语和情感极性比单独的子任务具有更好的实用性。然而,在多模态场景下,现有研究局限于独立处理每个子任务,未能建模上述两个目标之间的固有联系,并忽略了更好的应用。
主要贡献(Contribution):文中首次联合执行了多模态ATE (MATE)和ASC (MASC),并提出了一种辅助跨模态关系检测的多模态联合学习方法用于多模态方面级情感分析(MALSA)。
研究难点:
一方面,视觉模态不一定对文本模态下的信息有拓展作用。因此,一个表现良好的方法应该确定视觉信息是否添加到文本模态中(跨模态关系检测)以及视觉信息对文本的贡献有多大。
另一方面,两个多模态子任务的特点不同:一个是序列标注问题,另一个是方面依赖分类问题。不同的任务似乎关注不同的图像信息(前者只用观察粗粒度的信息就可判断是文本中的具体的人,而后者需要观察更加细致的表情)。因此,一个良好的方法应该分别挖掘这两个子任务的视觉信息,而不是使用相同的视觉输入进行折叠标记。
研究思路(Idea):
- 首先构建一个辅助的文本-图像关系检测模块,以控制视觉信息的合理利用
- 其次,利用联合分层框架代替折叠标签框架,分别关注每个子任务的有效视觉信息
- 最后,根据联合提取的特定方面情感极性,得到所有方面级情感极性
研究方法(Method):
Task Definition
词嵌入是有BERT预先操作得到的,因为BERT对于文本表达的出色表现
同时图片嵌入是由ResNet预先操作得到的,因为ResNet在图像表达上有出色的表现
1)Cross-modal Relation Detection
这个模块的目的是为后面的联合任务探索有效的视觉信息,而不是想传统方法那样将所有的视觉信息都投入使用。
Module Design.
- 首先,将两种原始模态分别引入BERT和ResNet的预训练模块,其中预训练模块独立参与跨模态关系检测模块。
- 将两个模态表示合并到一个自注意力块中,以捕获每个模态的模态内交互。
- 然后,将文本和图像的输出状态输入到交叉注意力块捕获的模态间交互中。
2)Multi-modal Aspect Terms Extraction
首先利用文本-图像关系控制视觉输入,使文本和视觉信息相互注意;
然后让文本信息考虑进高效的上一步得到的视觉信息
结束部分同理
3)Multi-modal Aspect Sentiment Classification
对于一个方面a,我们利用上述得到的位置标记可以确定位置范围 (si,ei) ,将其标记为 Ha (一个提取的方面词),我们利用注意力机制对其进行总结
将视觉表达结合到跨度向量
最后经过两个线性层和softmax得到最终分类概率
4)Joint Loss
因为是两个联合任务,因此计算了两个不同的损失
研究过程(Process):
1.数据集(Dataset)
2.评估指标(Evaluation):F1,精度(precision),召回(recall)
3.实验结果(Result)
总结(Conclusion):之前有工作提出将图像信息引入到方面级情感分析中,但这篇文章提出,将有用的信息引入,无用的信息筛掉,有可借鉴之处。
参考知乎:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection - 知乎 (zhihu.com)
JML(2021 EMNLP) 关联图像和文本相关推荐
- 医疗多模态预训练:如何利用非天然配对的医疗图像和文本做对比学习?
©PaperWeekly 原创 · 作者 | 王子丰 单位 | 伊利诺伊大学香槟分校 研究方向 | AI for healthcare EMNLP 2022 一共接收了我的三篇文章(两篇主会一篇 fi ...
- 文本自动生成研究进展与趋势之图像到文本的生成
图像到文本的生成 1 国际研究现状 图像到文本的生成技术是指根据给定的图像生成描述该图像内容的自然语言文本,例如新闻图像附带的标题.医学图像附属的说明.儿童教育中常见的看图说话.以及用户在微博等互联网 ...
- 1个模型横扫40+个SOTA!22位华人共同打造佛罗伦萨模型,一统图像视频文本,含9亿图像-文本对...
关注公众号,发现CV技术之美 本文转载自新智元 编辑:小咸鱼 好困 LRS [导读]近日,微软正式发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),要用一个模型一统多模态天下!Floren ...
- 个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖
在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析 ...
- LeCun点赞!data2vec:适用于图像/语音/文本的自监督算法来了!拿下多项SOTA
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:陈萍.小舟 人类似乎对不同的学习模式有着相似的认知,机器也应该如此! 自监督学 ...
- CVPR2022 | ZeroCap:零样本图像到文本生成的视觉语义算法
CVPR2022 | ZeroCap:零样本图像到文本生成的视觉语义算法 [写在前面] 最近的文本到图像匹配模型将对比学习应用于大量未经管理的图像和句子对.虽然此类模型可以为匹配和后续的zero-sh ...
- R语言使用ggpubr包的ggarrange函数组合多张结论图:使用ggpubr包将图像、文本、表格组合在一起展示
R语言使用ggpubr包的ggarrange函数组合多张结论图:使用ggpubr包将图像.文本.表格组合在一起展示 目录 R语言使用ggpubr包的ggarrange
- Python为图像添加文本内容(Writing Text on Image)
Python为图像添加文本内容(Writing Text on Image) #原始图像 #图像添加文本 # from PIL import Image, ImageDraw, ImageFontim ...
- pdfContentByte 类 图像和文本的绝对位置
在PDF中当涉及到布局问题时(不再是自动地添加文本.图片等等,对元素在页面上的位置有一定的要求),有时我们希望将一些图像或者文本放置在某页的指定位置,为实现该功能,我们将使用PdfContentByt ...
最新文章
- 2022-2028年中国汽车工业行业研究及前瞻分析报告
- 宿松长铺程集高中2021年高考成绩查询,2017宿松程集中学录取分数线(附2017高考成绩喜报)...
- 2018创投圈风云再起,企服征途百家争鸣,寻找中国创业最强音!
- 【java】java开发中的23种设计模式详解
- 32位汇编第七讲,混合编程,内联汇编
- 从no-code到low-code:企业级hpaPaaS的未来
- 北斗三号b1c频点带宽_北斗三号导航信号的创新设计(一)
- Zookeeper日志文件事务日志数据快照
- 数字化转型方法论_老板让我搞数字化转型?成功之后,我整理了这套超全的方法论...
- BubbleGum96 开箱杂谈与软件资源
- php的seeder是什么,Seeder(一)
- MongoDB操作内嵌文档
- 【多任务学习】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD18
- AI虚拟模特会被普及吗?
- [18考研]如何给导师发邮件?(模版)
- 软件开发的四个模型优缺点
- 鲜肉大葱包子的做法和配方
- Echarts —自定义label标签的样式(formatter,rich,添加图标等操作)
- ar8161网卡 linux,解决Qualcomm Atheros AR8161 Gigabit Ethernet网卡Linux下坏掉的问题
- 演示gradients基本用法