面对文本的反讽识别

文章目录

  • 面对文本的反讽识别
  • 1、论反讽的几种形式(文学层次)
  • 2、反讽分类(研究层面)
    • 基于内容的反讽识别
    • 基于上下文的反讽识别
    • 图文反讽识别
  • 3、社交文本的特点

1、论反讽的几种形式(文学层次)

参考《论反讽的几种形式》

反讽的基本特征是:字面意义与深层意义 不一致,即 言在此而意在彼,如它以反讽性褒扬予以责备,或者以反讽性责备予以褒扬,这一基本特征存在于反讽的各种变体形式之中。反讽称为一种思维、感情和表达的模式。

反讽的形式可分为:言语反讽,情景反讽和戏剧反讽。

  • 言语反讽(较明显)—— 局部性矛盾
    在言语反讽中,说的是一回事,指的却是另外一回事。在言语反讽中不可避免地存在着表面意义和隐藏意义,语言外壳与真实意指之间的对照与矛盾就显得相当强烈和鲜明。进一步地,其大致包含四种情况:

    1. 反语 :运用与本意正好相反的词语,达到特殊的修辞。
    2. 语境误置:“反讽,是承受语境的压力。”语境的压力会使得言语产生字面之外的潜台词。
    3. 悖逆语词并置( × \times ×):作品刻意通过典型的语义悖逆语词组合、交错、并置,使语词之间相互干扰、融合、冲突,借以形成反讽性,在语言的狂欢中扩大语言的张力。
    4. 句式与内容不和( × \times ×):句子形式与内容的不一致,这种不协调暗示了作者并不相信自己所说的话。
  • 情景反讽(隐蔽性)—— 整体性矛盾

    1. 语调反讽( × \times ×):通过叙述态度、语调与叙事内容、表达旨意的相悖,形成具有反讽意味的叙述语调,从而更加突出了作者的真实表现意图。
    2. 视点反讽:通过异常叙述者的独特视角进行叙述,与人们所熟悉的惯常视角形成对照,产生反讽意义。
    3. 戏仿反讽( × \times ×):通过模仿别人的诗文而作的游戏文字或讽刺诗文。
  • 戏剧反讽( × \times ×)
    戏剧反讽来源于戏剧。它发挥作用在于观众(读者)的全知全能与剧中人的无知之间 的张力。在戏剧中,台下的观众知道事情的本末来由,但台上的人物却被蒙在鼓里,任由事情发展。反讽作品的故事是在两个层面上展开的,一个是叙述者或剧中人看到的表象,另一个是读者体味到的事实。通过表象与事实间的对立张力,产生强烈的艺术效果。二者的反差越大,反讽越鲜明。

2、反讽分类(研究层面)

反讽修辞的具体形式多种多样,依据反讽成因可将其分为三类,分别为:前后情感矛盾式反讽、情景反讽与其他反讽,其中第一类反讽占69.9%。基于上述分类,目前的研究可以分为基于内容(上下文无关)和基于上下文(上下文相关)两方面的反讽研究。

基于内容的反讽识别,又称为上下文无关的发讽识别,即不考虑识别目标句的上下文信息,仅仅从目标句本身出发判定其是否为反讽表达。

隐式情感包括:事实性隐式情感 和 修辞性隐式情感。反讽是一种修辞性隐式情感。

基于内容的反讽识别

假设:目标句是否反讽与上下文无关。
上下文无关的反讽识别任务可分为 “词对矛盾”模型和 “半句对矛盾”模型。
1. “词对矛盾”模型
简介:针对句中的矛盾词对使用词对注意力机制,通过计算句中任意两个词的注意力分数得到注意力分数矩阵。在此基础上,可得到包含任意两个词的矛盾程度信息的句子表示。 最后,在监督信号的作用下迫使模型特别留意句子中的矛盾词。

为了能够关注到前后不一致(矛盾)的词对,模型可以记录词对注意力分数,并绘制注意力分数热力图提升模型的可解释性。计算注意力分数的两种方法:
(1)max pooling (2)二次 attention
上述注意力分数与词对向量结合,生成句子表示。然后进入分类层进行分类。

2. “半句对矛盾”模型
简介:将一句话分成两个半句,针对句子前半句与后半句的矛盾性, 利用孪生神经网络模型对“半句对”建模, 模型通过检测 两个半句 的一致性推断是否为反讽。还可以在孪生神经网络的基础上加入注意力机制,从而使模型突出两个半句中的关键词。可以看出, 在某种程度上 “半句对矛盾” 模型是对“词对予盾”模型的一种改进, 即由单一词级别扩展到了多个词(半句)级别。

孪生神经网络
孪生神经网络可看作一种“连体”的神经网络,即两个结构类似的子网络共享权重。主要思想:将一对样本映射到同一个目标空间(主要是通过共享权重实现),然后利用常用的距离函数(如:欧氏距离,余弦距离等)进行相似性对比。
网络结构如下图所示:

孪生网络是一种重要的图像或文本相似性判定模型。模型的输入:一对文本,输出:类别(1或0)。常用于样本种类多且每个类别的样本数量都很少的情况。
在孪生网络的基础上增加 self-attention 机制,可以使得孪生网络的左右两个子网络可以有侧重的关注某些重点词,使得两个半句的向量表示更加紧凑。

对抗学习 研究团队:哈尔滨工业大学 徐睿峰

CNN+注意力机制(对抗样本,领域迁移的对抗学习)

基于上下文的反讽识别

假设:反讽修辞本身是一种与上下文相关的表达方式。上下文,广义上包括叙述人的语调、表情、肢体动作,当时的心里状态,文本在长文中的环境,文本的转发、回复、评论情况等。
原则上,使用上下文信息可以极大提升自动化反讽识别的准确率上限。
常考虑的上下文信息包括:

  1. 用户信息(用户贝叶斯先验信息和用户写作风格信息)
  2. 主题信息。

图文反讽识别

基本思路:

  1. 表示层:分别学习文本和图像的特征表示
  2. 融合层:双线性融合
  3. 分类层:0/1分类

3、社交文本的特点

社交文本(Twitter)存在的问题及常见处理方式:

  1. 口语化,语法错误,缩写,稀疏的一次性词(如:连续重复的字符或单词) ,可进行正则化处理。
  2. 带有大量URL链接,可删除。
  3. 标签或表情符号,常见的是使用 hashtag“#” 强调文本中关键部分或主题。可以将 hashtag“#” 拆分成单独的词。
  4. Emoji 表情符,可将其替换成文本形式。
  5. 稀疏的非法词汇会极大增加网络的词汇量,可将其删除。

2021-08-25 多模态反讽识别系列文章阅读(二)相关推荐

  1. 2021-08-23 多模态反讽识别系列文章阅读(一)

    Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model(2019 ACL) 提示:文章写完后,目录可以自动生成, ...

  2. oracle迁移postsql的,osdba's blog : Oracle迁移PostgreSQL系列文章之二:merge语句

    Oracle迁移PostgreSQL系列文章之二:merge语句 Posted on 2015-03-06 11:12:46 by osdba 我们知道,Oracle中有一个特别的merge语句.而P ...

  3. PHP 使用 hprose RPC 服务 系列文章之二——Codeigniter3中使用Hprose

    PHP 使用 hprose RPC 服务 系列文章之一--安装扩展 PHP 使用 hprose RPC 服务 系列文章之二--Codeigniter3中使用Hprose PHP 使用 hprose R ...

  4. 一步步实现windows版ijkplayer系列文章之二——Ijkplayer播放器源码分析之音视频输出——视频篇...

    一步步实现windows版ijkplayer系列文章之一--Windows10平台编译ffmpeg 4.0.2,生成ffplay 一步步实现windows版ijkplayer系列文章之二--Ijkpl ...

  5. .Net Discovery系列文章阅读索引--带你探索未知的.Net世界

    .Net Discovery系列文章是讲述.Net平台机制的文章,目前已有12篇,分别讲述了.Net垃圾收集.实时编译.字符串等部件的机制,现在推出1周年之际总结文章阅读索引,希望对大家有所帮助.   ...

  6. 【理解 Cilium 系列文章】(二) 理解网络数据包的流转过程

    Cilium 作为近两年最火的云原生网络方案,可谓是风头无两.作为第一个通过 ebpf 实现了 kube-proxy 所有功能的网络插件,它的神秘面纱究竟是怎样的呢?本系列文章将带大家一起来慢慢揭晓 ...

  7. DM 源码阅读系列文章(二)整体架构介绍

    2019独角兽企业重金招聘Python工程师标准>>> 作者:张学程 本文为 DM 源码阅读系列文章的第二篇,第一篇文章 简单介绍了 DM 源码阅读的目的和规划,以及 DM 的源码结 ...

  8. openstack系列文章(二)

    学习openstack的系列文章-keystone openstack 架构 Keystone 基本概念 Keystone 工作流程 Keystone Troubleshooting 1.  open ...

  9. 2021.08.25学习内容torch.clamp(input, min, max, out=None) → Tensor,torch.mm(matrix multiply)

    学习pytorch时,看到了mm和clamp,不甚理解,其他地方也看到过,所以具体了解一下 前向传递:计算预测yh = x.mm(w1)h_relu = h.clamp(min=0) 把 h 张量的最 ...

最新文章

  1. Java集合框架:EnumMap
  2. css选择器匹配没有属性x的元素[重复]
  3. MySQL初识-架构-安装-初始化-连接-管理工具-数据文件
  4. php正则表达式 重复字符,php正则表达式匹配可能的重音字符
  5. centos7.1 kvm 虚拟机
  6. 大数据之-Hadoop_推荐系统框架图---大数据之hadoop工作笔记0015
  7. 820. 单词的压缩编码
  8. 明天开始放假了[2.5-2.13],春节期间计划
  9. js的深拷贝的理解和实现
  10. Android 自定义万能的抽屉布局(侧滑菜单)GenericDrawerLayout
  11. java怎么与数据库连接?
  12. 如何在快手批量下载高清无水印视频方法
  13. 语音社交app源码,更改ProgressBar颜色(圈圈)
  14. 计算机怎么格式化硬盘,如何格式化硬盘
  15. PCManFTP v2.0(CVE-2013-4730)漏洞分析报告
  16. MySQL添加删除账户及授予权限
  17. [市场前景]无线流媒体:无线运营商潜在的金矿?(转载)
  18. 专业学习与职业发展之我见(二)
  19. 3d游戏建模可以自学吗?小白教程
  20. android widget 点击事件,Android Widget点击事件

热门文章

  1. code ELIFECYCLE报错
  2. noip2005篝火晚会
  3. EF Core IQueryable和IEnumerable的不同
  4. javascript getAttribute
  5. C#——关闭窗口的方法——vs
  6. #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022
  7. 2019-多益网络-软件研发工程师-秋招提前批-笔试
  8. Laravel填充数据Seeder出现Target class [xxx] does not exist
  9. 从汇编看volatile与MESI的关系
  10. 业务统计报表(图表)测试点