0.什么是方面级情感分析

先介绍几个概念缩写
ABSA: Aspect-Based Sentiment Analysis方面级情感分析的缩写,下文用ABSA代替方面级情感分析这一概念,给定一个句子,比如 披萨很美味 这句话,
在 ABSA 任务中,我们的目标可以是抽取四方面内容,c、 a、 o、 p 这四方面

  • ccc 方面集或方面策略(aspect category),它可以是句子中的某个实体或者句中实体的某个方面,主要包括常识性的各种方面,一般已经设置好在一个集合 CCC 里了,包括食物、服务、电脑等等, 披萨很美味 中 ccc 就是食物,因为披萨是食物
  • aaa 方面实体(aspect term), 就是文本中明确被提出的方面,披萨很美味 中方面实体就是披萨,一般用方面词来指代
  • ooo 意见项(opinion term,用来解释文本的情绪,披萨很美味 中意见项就是美味
  • ppp 感情极性(sentiment polarity)一般积极、消极、中性
    至于怎么抽取,抽取什么,接下来我们细粒度地介绍这些任务。

1.单任务方面级情感分析(单ABSA)


人如其名,就是 c、a、o、p 这四个方面单独地抽取出来,这方面发文章难度较大尤其是最后一个任务,前人之述备矣,这里不做过多介绍,如果大家感兴趣,可以去这篇文章里面详细看 A Survey on Aspect-Based Sentiment Analysis:Tasks, Methods, and Challenges

2.联合ABSA任务

(以下默认为方面级)

2.0 提取情感对 Pair Extraction

---------------------------------------------待补充----------------------------------------------------

2.1 提取情感三元组 Triplet Extraction

提取方面级情感三元组即 ASTE 任务,Aspect Sentiment Triplet Extraction (ASTE),
这个三元组主要包括(a, o, p) 即(方面实体, 方面意见,情感极性),用来分析句子中要分析的实体是哪个、以及对这个实体的感情、 以及为什么是这个感情(方面意见)。
接下来按照方法和框架介绍几个典型模型或框架

2.1.0评价标准和数据集

最常用的ASTE-Data-V2包括三个数据集SemEval-14res、14lap、15res以及16res, 之前的SemEval-2014(V1)数据集没怎么标方面意见,有人就把数据集补充成了ASTE-Data-V2,这个数据集每一项数据包括(方面实体, 方面意见, 情感极性), 后来又有人补充成了四元组数据集(方面策略,方面实体,方面意见,情感极性),具体的数据分布不再展开。
评价指标一般是 F1值,Precison, Recall 这三个指标,只有三元组中每一项都预测正确, 我们才认为这一条数据预测正确。

2.1.1常用产生三元组的方法

注意: 因为时间有限, 一天之内无法把当下最新最全的 ASTE 方法罗列,因此先简单介绍下2020、2021年的工作, 2022年的工作我们在下一周详细地叙述,

  • CMLA和CMLA+模型:Peng等为ASTE提出的一个pipeline模型.第一阶段设置来提取句子中所有的方面实体和情感倾向,并提取观点项.第二阶段使用一个关系分类器,将第一阶段得到的结果进行配对,形成完整的三元组,最早也是最简单的模型。(也有人称他为Two-stage)
  • (2020)RINANTE+:该方法使用基于依存关系挖掘方面词和方面词提取规则的联合模型RINANTE来抽取带有情感极性的方面词和观点词,然后通过分类器来选择合适的方面词观点词对。简单地说就是先用RINANTE提取 一句话里的a、o、p ,然后再匹配他们。
  • (2020GTS)Grid Tagging Scheme for Aspect-oriented Fine-grained Opinion Extraction
  • (2020)A Multi-task Learning Framework for Opinion Triplet Extraction
  • (2020JET)Position-Aware Tagging for Aspect Sentiment Triplet Extraction
  • (2021SPAN)Learning Span-Level Interactions for Aspect Sentiment Triplet Extraction
  • (2021BARTABSA)A Unified Generative Framework for Aspect-based Sentiment Analysis
  • (2021BMRC)Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction
    -------------------------------------------2022待添加-------------------------------------------------------
  • (2022ACL)Enhanced multi-channel graph convolutional network for aspect sentiment triplet extraction.

2.2 提取情感四元组 Quad Extraction

(2021)Aspect-Category-Opinion-Sentiment Quadruple Extraction with Implicit Aspects and Opinions
(2021)Aspect Sentiment Quad Prediction as Paraphrase Generation

3.抽取三元组目前主流方法

3.0 Two-Stage(Peng最先提出的方法)


我们的设计采用了二阶段模型,如下模型图所示。第一阶段模型(stage one)主要分为两个部分:1. 预测所有评论目标词以及目标词的情感极性;2. 预测所有可能描述目标词的情感词。目标词以及带有其情感极性的标签主要由第一阶段模型的左侧结构标注得出。

句子向量通过第一层 Bi-LSTM 会进行一次序列预测来确定评论目标的范围,然后加以模型右侧图卷积网络(GCN)返回的情感词信息辅助输入第二层 Bi-LSTM 进行二次序列预测,由此获得带有情感极性的标签。描述目标词的情感词由模型第一阶段的右侧结构预测。具体地,句子向量首先通过两层图卷积网络加以模型左侧结构输出的主题词范围来确定相关的情感词。

然后将图卷积网络的隐状态输入 Bi-LSTM 层来进行情感词标签的预测。第一阶段模型是基于前述 E2E-ABSA 工作的改进。第二阶段模型(stage two)对第一阶段模型左侧输出的带情感的目标词和右侧输出的情感词进行配对。首先我们枚举可能出现的配对,加之文本信息以及目标词和情感词之间的距离信息通过分类器来确定哪些是有效的组合。

3.1流水线


如上图例子:“Did not enjoy the new Windows 8 and touchscreen functions”。我们的模型首先通过 300 维度的 Glove 向量和双向长短期记忆网络来得到句子中每一单词在当前句中的特征表达。或者,我们也使用预先训练的 BERT 语言模型作为句子的编码器。然后,我们枚举句子内连续单词的所有可能词组,并拼接开始词、结束词和词组宽度的特征来形成相对应词组的特征表达。

我们的实体模块(mention module)主要由一个前馈神经网络组成,它以 ATE 和 OTE 任务的监督训练来判断主体词以及情感词各自的分数。为了降低大量枚举词组的计算成本,我们也提出了双通道词组剪枝策略,分别选择预测分数较高的主题词和情感词作为候选对象。

从上图中,预测分数最高的主体词候选对象是“Windows 8”和“touchscreen functions”,而情感词候选对象是“not enjoy”和“new”。这提高了将有效的主体词候选对象和情感抽选对象配对在一起的机率。对于主体词和情感词配对在一起的特征表示,我们把主体词组的表达,情感词组的表达以及主题词组和情感词组之间的距离表达来形成一个新的特征表示。

最后,我们使用前馈神经网络来预测两个词组之间的情感对关系。从上图中例子可以看出,该模型抽取了两个三元组:(“Windows 8”、“not enjoy”、Negative)和(“touchscreen functions”,“not enjoy”,Positive)。

3.2端到端

具体参考JET模型
基于我们新提出的的标签形式,我们的模型主要启发于条件随机场模型 以及半马科夫条件随机场模型 [5],该模型可以同时抽取字与词的特征信息来帮助计算标识分数,具体特征分数计算方式如下图所示(详细可以参考原文 Section 2.2.2)。 输入层采用 300 维度的 Glove 词向量,然后输入双向的长短时记忆网络(Bi-LSTM)来获得基于给定语境的每个词的隐式表达。

每个标识的分数主要由四部分组成,1. 通过每个字的隐向量来计算每个字 BIOES 中标识分数,2. 通过情感词起始位置到句末的隐向量来计算情感方向的分数,3. 通过词组向量来计算该词组是情感词的分数, 4. 通过情感词与主体词的距离来计算该情感词是不是该主体词对应的情感词。最后基于前项后项算法来找出每句话最大可能性的标识。

3.3机器阅读理解


A→O方向的非限制性抽取查询和限制性抽取查询如下:
(1)A→O non-restrictive extraction query:“问出”句子中所含有的所有aspect;
(2)A→O restrictive extraction query:构建方式为“What opinions given the aspect a ”即这时候的意见是限制针对于目前aspect的。
O→A方向的非限制性抽取查询和限制性抽取查询对应如下:
(1)O→A non-restrictive extraction query:“问出”句子中所有的意见词;
(2)O→A restrictive extraction query:构建方式为 “What aspect does the opinion o describe?“这时候要去发现每个意见词是修饰哪一个aspect的。
  根据上面说得到的aspect-opinion对,构建情感分类查询来对面向方面的情感进行分类:“What sentiment given the aspect a and the opinion o ”。

[方面级别情感分析]0x01方面级情感分析笔记相关推荐

  1. 华为云获CCF BDCI 2019金融实体级情感分析大赛冠军

    近日,在2019 CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)决赛中,华为云语音语义创新Lab ...

  2. 提高方面级情感分析的性能:一种结合词汇图和句法图的方法

    ©PaperWeekly 原创 · 作者|张咪 学校|武汉大学硕士生 研究方向|情感分析.信息抽取等 本文介绍一篇发表于 EMNLP 2020 的论文<Convolution over Hier ...

  3. 属性级情感分析(于restaurant14和laptop14数据集上使用LSTM和GRU、 MemNet和IAN以及CNN等)的对比分析

    随着人们的社交活动.消费习惯.工作内容也逐渐由线下转移到线上,从互联网上海量文本中自动挖掘出人们对各类事务的需求.喜好.观点.态度等,具有广阔的应用场景和很高的商业价值. 在自然语言处理领域,情感分析 ...

  4. 面向社交媒体的多模态属性级情感分析研究

    每天给你送来NLP技术干货! 分享嘉宾:虞剑飞 南京理工大学 副教授 编辑整理:路人 复旦大学 出品平台:DataFunTalk 导读:随着社交网络的飞速发展,人们在以微博.Twitter为代表的社交 ...

  5. (AFDEN)2022 SIGIR 面向情感分析的方面级特征提取与增强网络

    论文题目(Title):Aspect Feature Distillation and Enhancement Network for Aspect-based Sentiment Analysis ...

  6. R-GAT实现基于方面级情感分析

    文章目录 前言 代码如下 数据预处理 EarlyStopping R-GAT模型 模型参数设置 初始化模型和读取数据 分batch批量训练 评估模型函数 训练模型 可视化训练曲线 前言 这篇博客主要是 ...

  7. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  8. 情感分析与观点挖掘第一章笔记/SentimentAnalysis-and-OpinionMining by Bing Liu

    Chapter 1 情感分析:一个有趣的问题_Sentiment Analysis: A Fascinating Problem 1.1 情感分析的应用 1.2 情感分析的研究 1.2.1 不同级别的 ...

  9. NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...

最新文章

  1. 如何批量文件格式转化
  2. 替换python字典中的key值
  3. LOADRUNNER 登陆功能测试实例(转)
  4. vijos1237-隐形的翅膀【离散化】
  5. mongodb简单的增删改查
  6. Android 系统性能优化(38)---Android内存优化之二:MAT使用进阶
  7. linux基础实验报告6,Linux实验报告6参考答案.doc
  8. mysql carnation_14 springboot+mybatis集成pageHelper分页
  9. H264--1--编码原理以及I帧B帧P帧
  10. JAVA 基础语法(一)——变量以及基本数据类型
  11. WMS仓储管理系统解决方案
  12. Cell Ranger
  13. Kali安装Nessus
  14. ug12无法连接服务器系统,NX许可证错误:无法连接至许可证服务器系统。SPLM_LICENSE_SERVER错误[-15]...
  15. 高中计算机 数制 教案,1.2.2 二进制与数制转换
  16. 【Unity开发小技巧】Unity日志输出存储
  17. 关于 退步编程 和 退步看书的思考
  18. SNPE教程一:基本概念
  19. bernoulli_Python-Bernoulli发行
  20. R:parse函数和eval函数解析字符串为命令并运行

热门文章

  1. 揭密让程序猿谈外包而色变的原因
  2. 使用itextpdf编辑PDF制作电子合同
  3. enfp工具箱怎么用_5个很少人知道的黑科技工具箱,功能奇妙,一个顶十个用
  4. 1. 安装Linux虚拟机:centos7操作系统 2. 安装openstack-rocky版本 allinone环境
  5. 降本增效两不误——云原生赋能航空业数字化转型
  6. 小分子化合物的蛋白靶点(蛋白质、酶、受体) + IC50、EC50、Ki 是什么?
  7. 一卡通综合管理平台中了后缀.[mr.hacker@tutanota.com]的勒索病毒加密的数据库怎么用达思SQL数据库修复软件完美修复?
  8. 规避网络游戏的外挂检测机制
  9. 在高并发的情况下,利用redis来处理库存超卖和遗留问题
  10. 无法定位程序输入点于动态链接库***.dll 网上其他方法无效