2021-08-25 多模态反讽识别系列文章阅读(二)
面对文本的反讽识别
文章目录
- 面对文本的反讽识别
- 1、论反讽的几种形式(文学层次)
- 2、反讽分类(研究层面)
- 基于内容的反讽识别
- 基于上下文的反讽识别
- 图文反讽识别
- 3、社交文本的特点
1、论反讽的几种形式(文学层次)
参考《论反讽的几种形式》
反讽的基本特征是:字面意义与深层意义 不一致,即 言在此而意在彼,如它以反讽性褒扬予以责备,或者以反讽性责备予以褒扬,这一基本特征存在于反讽的各种变体形式之中。反讽称为一种思维、感情和表达的模式。
反讽的形式可分为:言语反讽,情景反讽和戏剧反讽。
言语反讽(较明显)—— 局部性矛盾
在言语反讽中,说的是一回事,指的却是另外一回事。在言语反讽中不可避免地存在着表面意义和隐藏意义,语言外壳与真实意指之间的对照与矛盾就显得相当强烈和鲜明。进一步地,其大致包含四种情况:- 反语 :运用与本意正好相反的词语,达到特殊的修辞。
- 语境误置:“反讽,是承受语境的压力。”语境的压力会使得言语产生字面之外的潜台词。
- 悖逆语词并置( × \times ×):作品刻意通过典型的语义悖逆语词组合、交错、并置,使语词之间相互干扰、融合、冲突,借以形成反讽性,在语言的狂欢中扩大语言的张力。
- 句式与内容不和( × \times ×):句子形式与内容的不一致,这种不协调暗示了作者并不相信自己所说的话。
情景反讽(隐蔽性)—— 整体性矛盾
- 语调反讽( × \times ×):通过叙述态度、语调与叙事内容、表达旨意的相悖,形成具有反讽意味的叙述语调,从而更加突出了作者的真实表现意图。
- 视点反讽:通过异常叙述者的独特视角进行叙述,与人们所熟悉的惯常视角形成对照,产生反讽意义。
- 戏仿反讽( × \times ×):通过模仿别人的诗文而作的游戏文字或讽刺诗文。
戏剧反讽( × \times ×)
戏剧反讽来源于戏剧。它发挥作用在于观众(读者)的全知全能与剧中人的无知之间 的张力。在戏剧中,台下的观众知道事情的本末来由,但台上的人物却被蒙在鼓里,任由事情发展。反讽作品的故事是在两个层面上展开的,一个是叙述者或剧中人看到的表象,另一个是读者体味到的事实。通过表象与事实间的对立张力,产生强烈的艺术效果。二者的反差越大,反讽越鲜明。
2、反讽分类(研究层面)
反讽修辞的具体形式多种多样,依据反讽成因可将其分为三类,分别为:前后情感矛盾式反讽、情景反讽与其他反讽,其中第一类反讽占69.9%。基于上述分类,目前的研究可以分为基于内容(上下文无关)和基于上下文(上下文相关)两方面的反讽研究。
基于内容的反讽识别,又称为上下文无关的发讽识别,即不考虑识别目标句的上下文信息,仅仅从目标句本身出发判定其是否为反讽表达。
隐式情感包括:事实性隐式情感 和 修辞性隐式情感。反讽是一种修辞性隐式情感。
基于内容的反讽识别
假设:目标句是否反讽与上下文无关。
上下文无关的反讽识别任务可分为 “词对矛盾”模型和 “半句对矛盾”模型。
1. “词对矛盾”模型
简介:针对句中的矛盾词对使用词对注意力机制,通过计算句中任意两个词的注意力分数得到注意力分数矩阵。在此基础上,可得到包含任意两个词的矛盾程度信息的句子表示。 最后,在监督信号的作用下迫使模型特别留意句子中的矛盾词。
为了能够关注到前后不一致(矛盾)的词对,模型可以记录词对注意力分数,并绘制注意力分数热力图提升模型的可解释性。计算注意力分数的两种方法:
(1)max pooling (2)二次 attention
上述注意力分数与词对向量结合,生成句子表示。然后进入分类层进行分类。
2. “半句对矛盾”模型
简介:将一句话分成两个半句,针对句子前半句与后半句的矛盾性, 利用孪生神经网络模型对“半句对”建模, 模型通过检测 两个半句 的一致性推断是否为反讽。还可以在孪生神经网络的基础上加入注意力机制,从而使模型突出两个半句中的关键词。可以看出, 在某种程度上 “半句对矛盾” 模型是对“词对予盾”模型的一种改进, 即由单一词级别扩展到了多个词(半句)级别。
孪生神经网络
孪生神经网络可看作一种“连体”的神经网络,即两个结构类似的子网络共享权重。主要思想:将一对样本映射到同一个目标空间(主要是通过共享权重实现),然后利用常用的距离函数(如:欧氏距离,余弦距离等)进行相似性对比。
网络结构如下图所示:
孪生网络是一种重要的图像或文本相似性判定模型。模型的输入:一对文本,输出:类别(1或0)。常用于样本种类多且每个类别的样本数量都很少的情况。
在孪生网络的基础上增加 self-attention 机制,可以使得孪生网络的左右两个子网络可以有侧重的关注某些重点词,使得两个半句的向量表示更加紧凑。
对抗学习 研究团队:哈尔滨工业大学 徐睿峰
CNN+注意力机制(对抗样本,领域迁移的对抗学习)
基于上下文的反讽识别
假设:反讽修辞本身是一种与上下文相关的表达方式。上下文,广义上包括叙述人的语调、表情、肢体动作,当时的心里状态,文本在长文中的环境,文本的转发、回复、评论情况等。
原则上,使用上下文信息可以极大提升自动化反讽识别的准确率上限。
常考虑的上下文信息包括:
- 用户信息(用户贝叶斯先验信息和用户写作风格信息)
- 主题信息。
图文反讽识别
基本思路:
- 表示层:分别学习文本和图像的特征表示
- 融合层:双线性融合
- 分类层:0/1分类
3、社交文本的特点
社交文本(Twitter)存在的问题及常见处理方式:
- 口语化,语法错误,缩写,稀疏的一次性词(如:连续重复的字符或单词) ,可进行正则化处理。
- 带有大量URL链接,可删除。
- 标签或表情符号,常见的是使用 hashtag“#” 强调文本中关键部分或主题。可以将 hashtag“#” 拆分成单独的词。
- Emoji 表情符,可将其替换成文本形式。
- 稀疏的非法词汇会极大增加网络的词汇量,可将其删除。
2021-08-25 多模态反讽识别系列文章阅读(二)相关推荐
- 2021-08-23 多模态反讽识别系列文章阅读(一)
Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model(2019 ACL) 提示:文章写完后,目录可以自动生成, ...
- oracle迁移postsql的,osdba's blog : Oracle迁移PostgreSQL系列文章之二:merge语句
Oracle迁移PostgreSQL系列文章之二:merge语句 Posted on 2015-03-06 11:12:46 by osdba 我们知道,Oracle中有一个特别的merge语句.而P ...
- PHP 使用 hprose RPC 服务 系列文章之二——Codeigniter3中使用Hprose
PHP 使用 hprose RPC 服务 系列文章之一--安装扩展 PHP 使用 hprose RPC 服务 系列文章之二--Codeigniter3中使用Hprose PHP 使用 hprose R ...
- 一步步实现windows版ijkplayer系列文章之二——Ijkplayer播放器源码分析之音视频输出——视频篇...
一步步实现windows版ijkplayer系列文章之一--Windows10平台编译ffmpeg 4.0.2,生成ffplay 一步步实现windows版ijkplayer系列文章之二--Ijkpl ...
- .Net Discovery系列文章阅读索引--带你探索未知的.Net世界
.Net Discovery系列文章是讲述.Net平台机制的文章,目前已有12篇,分别讲述了.Net垃圾收集.实时编译.字符串等部件的机制,现在推出1周年之际总结文章阅读索引,希望对大家有所帮助. ...
- 【理解 Cilium 系列文章】(二) 理解网络数据包的流转过程
Cilium 作为近两年最火的云原生网络方案,可谓是风头无两.作为第一个通过 ebpf 实现了 kube-proxy 所有功能的网络插件,它的神秘面纱究竟是怎样的呢?本系列文章将带大家一起来慢慢揭晓 ...
- DM 源码阅读系列文章(二)整体架构介绍
2019独角兽企业重金招聘Python工程师标准>>> 作者:张学程 本文为 DM 源码阅读系列文章的第二篇,第一篇文章 简单介绍了 DM 源码阅读的目的和规划,以及 DM 的源码结 ...
- openstack系列文章(二)
学习openstack的系列文章-keystone openstack 架构 Keystone 基本概念 Keystone 工作流程 Keystone Troubleshooting 1. open ...
- 2021.08.25学习内容torch.clamp(input, min, max, out=None) → Tensor,torch.mm(matrix multiply)
学习pytorch时,看到了mm和clamp,不甚理解,其他地方也看到过,所以具体了解一下 前向传递:计算预测yh = x.mm(w1)h_relu = h.clamp(min=0) 把 h 张量的最 ...
最新文章
- Java集合框架:EnumMap
- css选择器匹配没有属性x的元素[重复]
- MySQL初识-架构-安装-初始化-连接-管理工具-数据文件
- php正则表达式 重复字符,php正则表达式匹配可能的重音字符
- centos7.1 kvm 虚拟机
- 大数据之-Hadoop_推荐系统框架图---大数据之hadoop工作笔记0015
- 820. 单词的压缩编码
- 明天开始放假了[2.5-2.13],春节期间计划
- js的深拷贝的理解和实现
- Android 自定义万能的抽屉布局(侧滑菜单)GenericDrawerLayout
- java怎么与数据库连接?
- 如何在快手批量下载高清无水印视频方法
- 语音社交app源码,更改ProgressBar颜色(圈圈)
- 计算机怎么格式化硬盘,如何格式化硬盘
- PCManFTP v2.0(CVE-2013-4730)漏洞分析报告
- MySQL添加删除账户及授予权限
- [市场前景]无线流媒体:无线运营商潜在的金矿?(转载)
- 专业学习与职业发展之我见(二)
- 3d游戏建模可以自学吗?小白教程
- android widget 点击事件,Android Widget点击事件