Emoticon Smoothed Language Models for Twitter Sentiment Analysis 微博情感分析的表情符号平滑语言模型(A11, AAAI2012)

通常,对于完全监督模型,由于耗人力和耗时间只能得到有限的训练数据,对于带噪声标签的模型,虽然很容易获得大量训练数据,但是由于标签的噪声很难得到满意的性能。最好的策略是利用手工标记的数据和噪声数据来训练。文章中,提出一个新的表情符号平滑语言模型(ESLAM)。基本思想是基于手工标记的数据训练语言模型,然后用噪声表情符号来平滑。
前人工作发现对于长文本,SVM比MNB(multinomial naive Bayes)性能更好,短文本反之。但是使用的都是完全监督数据。也有用弱监督训练数据的工作,由于标签的噪声,正确率不令人满意。考虑完全监督和弱监督方法的缺点,最好的策略是利用两种数据来训练。为了无缝集成两种数据于一个模型,提出ESLAM,它的主要贡献:有能力处理拼错的词,俚语,情态词,缩写和无法预料的词;也可以用于主客观分类;从微博API直接评估词概率,不需要下载任何微博,省时省空间。

情感分析的语言模型

Twitter情感分析(TSA)实际上是一个分类问题。为了对TSA采用语言模型(LM),连结所有同一类的微博形成一个综合文档。在测试阶段,每条文本微博看成一个查询,使用概率排名类。有最高概率的类选为文本微博的标签。使用c 1  c_1和c 2  c_2标记两个语言模型。在极性分类中,c 1  c_1和c 2  c_2分别是积极和消极微博的语言模型,在主客观分类中,c 1  c_1和c 2  c_2分别是主观类和客观类的语言模型。通过计算P(t|c 1 ) P(t|c_1)和P(t|c 2 ) P(t|c_2)评估微博概率,P(t|c)=Π n i=1 P(ω i |c) P(t|c)=\Pi_{i=1}^nP(\omega_i|c),n是词数,P(ω i |c) P(\omega_i|c)是LM评估的类c的多项式分布。一个普遍的评估分布方法是极大似然估计(MLE):P a (ω i |c)=N i,c N c   P_a(\omega_i|c)=\frac{N_{i,c}}{N_c},N i,c  N_{i,c}是词ω i  \omega_i出现在类c训练数据的次数,N c  N_c是类c中训练数据的总词数。为了划分测试集的微博,经常会遇到训练集中没有出现的词,需要平滑,文章使用JM平滑方法线性插值带表情符号的MLE模型。

表情符号模型

提出了非常高效的方法从微博搜索API评估表情符号语言模型P μ (ω i |c) P_μ(\omega_i|c)。微博搜索API是一个专门的跑搜索的API,它的索引包含6~9天的数据。给定一个包含一个或多个词的查询,API返回多于1500的相关微博和它们的发布时间。

极性分类

为了得到ω i  \omega_i在积极类中的概率P μ (ω i |c 1 ) P_μ(\omega_i|c_1),假设所有包含“: )”的微博是积极的。建立查询“ω i  \omega_i : )”,输入到搜索API,返回包含ω i  \omega_i和“: )”的微博以及发布时间。于是得到微博数n ω i   n_{\omega_i}和这些微博的时间范围t ω i   t_{\omega_i}。然后建立查询“: )”,得到返回微博n s  n_s和时间范围t s  t_s。参考文献指出一条微博平均包含15个词。假定Twitter上的微博关于时间均匀分布。得到P μ (ω i |c 1 )=n ω i  /t ω i  n s /t s ∗15 =n ω i  ∗t s 15∗t ω i  ∗n s   P_μ(\omega_i|c_1)=\frac{n_{\omega_i}/t_{\omega_i}}{n_s/t_s*15}=\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s},n ω i  t ω i    \frac{n_{\omega_i}}{t_{\omega_i}}粗略地为一个单位时间内词ω i  \omega_i出现在类c中的次数,n s t s  ∗15 \frac{n_s}{t_s}*15粗略地为一个单位时间内类c中词的总数。
令F μ =∑ |V| j=1 P μ (ω j |c) F_μ=\sum_{j=1}^{|V|}P_μ(\omega_j|c)为标准化因子,|V| |V|是包含见过和没见过的词的词汇表。标准化:P μ (ω i |c):=P μ (ω i |c)/F μ =P μ (ω i |c)∑ |V| j=1 P μ (ω j |c) =n ω i  ∗t s 15∗t ω i  ∗n s  ∑ |V| j=1 n ω i  ∗t s 15∗t ω i  ∗n s   =n ω i  t ω i   ∑ |V| j=1 n ω i  t ω i     P_μ(\omega_i|c):=P_μ(\omega_i|c)/F_μ=\frac{P_μ(\omega_i|c)}{\sum_{j=1}^{|V|}P_μ(\omega_j|c)}=\frac{\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s}}{\sum_{j=1}^{|V|}\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s}}=\frac{\frac{n_{\omega_i}}{t_{\omega_i}}}{\sum_{j=1}^{|V|}\frac{n_{\omega_i}}{t_{\omega_i}}}。
对于消极类的语言模型,假定消极微博是包含“: (”的微博,P μ (ω i |c 2 ) P_μ(\omega_i|c_2)评估过程与P μ (ω i |c 1 ) P_μ(\omega_i|c_1)类似。

主客观分类

主客观分类的两类是主观和客观。假定主观微博是带“: )”或”: (“的微博。对于主观类,建立查询“ω i  \omega_i : ) or : (“。对于LM的客观类,获得P μ (ω i |c 2 ) P_μ(\omega_i|c_2),客观类中ω i  \omega_i的概率更具挑战性。文章提出一个关于客观微博的新颖的假设,包含客观链接的微博是客观的。基于观察,链向图片网址或者视频网址的链接通常是主观的,链向新闻文章的链接是客观的。因此假定一个不是图片或视频的链接为客观链接。基于上面的假设,建立查询”ω i  \omega_i filter : links“得到客观类的统计。

ESLAM

从手工标记的数据评估P a (ω i |c) P_a(\omega_i|c)和从噪声表情符号评估P μ (ω i |c) P_μ(\omega_i|c)后,集成它们为同一个概率框架P co (ω i |c) P_{co}(\omega_i|c)。在结合P a (ω i |c) P_a(\omega_i|c)和P μ (ω i |c) P_μ(\omega_i|c)之前,需要平滑P μ (ω i |c) P_μ(\omega_i|c),因为P μ (ω i |c) P_μ(\omega_i|c)是从表情符号评估的,它可能有偏差,采用Dirichlet平滑。根据JM平滑原则,ESLAM模型P co (ω i |c) P_{co}(\omega_i|c)可以通过以下计算:P co (ω i |c)=αP a (ω i |c)+(1−α)P μ (ω i |c) (1) P_{co}(\omega_i|c)=\alpha P_a(\omega_i|c)+(1-\alpha)P_μ(\omega_i|c)\ (1),α∈[0,1] \alpha \in[0,1]是控制每个成分的参数。

实验

  • 数据集
    公开可用的Sanders语料用于评估。它由5513个手动标记的微博组成。通过去停用词,移除转帖和重复帖等预处理数据。
  • 评估机制和度量
    根据参考文献,采用正确率和F值作为评估度量。
  • 表情符号的效果
    比较ESLAM方法和完全监督语言模型(LM)。对于极性分类,手工标记的数据增加,两种方法的性能增长。在少量手工标记数据的情况下,ESLAM比完全监督LM好,说明噪声数据有一些有用的信息。对于主客观分类,结果相似,基于url链接的方法对于发现客观微博是有效的。
  • 手工标记数据的效果
    比较ESLAM和弱监督LM来证实手工标记的数据是否提供分类的有效信息。对于极性分类和主客观分类,结果相似,随着手工标记数据的增长,它们之间的性能差别越来越大,说明只使用噪声标记数据训练是不够的。
  • 参数的敏感性
    (1)式中参数α \alpha决定手工标记信息和噪声标记信息的贡献,设置α \alpha的不同值,512条标记训练微博的ESLAM比128条的需要更大的α \alpha值来获得最佳性能。

微博情感分析的表情符号平滑语言模型(A11, AAAI2012)相关推荐

  1. Moodlens:一个基于表情符号的中文微博情感分析系统(A3, SIGKDD2012)

    Moodlens: an emoticon-based sentiment analysis system for chinese tweets Moodlens:一个基于表情符号的中文微博情感分析系 ...

  2. 微博情感分析可视化系统

    1 简介 今天向大家介绍一个帮助往届学生完成的毕业设计项目,微博情感分析可视化系统. 搜集了大量微博研究的相关文献之后,目前使用最多的研究方法是情感词典的方法:通过构建相应的微博情感词典,分析微博评论 ...

  3. [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...

  4. java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...

    目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...

  5. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

  6. 微博情感分析——数据的获取(一)

    微博情感分析--数据的获取(一) 本人由于研究生的研究方向是自然语言处理.社会舆情分析这个方向的所以本科生毕业设计就选择了微博情感分析这一方向的题目.主要是完成情感分析这个功能,并把每一步流程都做到. ...

  7. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  8. 图文融合微博情感分析(小记)

    单独基于文本和图片方法,不能充分挖掘微博用户情感问题,提出图文融合的微博情感分析方法.对大规模图片数据集上预训练的CNN模型参数进行迁移,以微调的方式训练图片情感分类模型FCNN:训练词向量输入可提取 ...

  9. Streamlit+Flair开发微博情感分析应用【含源码】

    Streamlit是一个出色的机器学习工具开发库,这个教程将学习 如何使用streamlit和flair开发一个twitter微博情感分析的应用. 相关链接:Streamlit开发手册 1.strea ...

最新文章

  1. Struts1.x系列教程(4):标签库概述与安装
  2. sqlite3自增key设定(创建自增字段)
  3. 基于android的语音识别
  4. 小天才被限定使用时长的应用_家庭腕上社交新场景,OPPO Watch、小天才开启暖心联动...
  5. PostgreSQL的 create index concurrently
  6. 提高 Google 搜索效率的基本语法
  7. 第七章——DMVs和DMFs(4)——用DMV和DMF监控磁盘IO
  8. 数据库工作笔记001---mysql 修改字符集_修改排序规则
  9. dev GridControl Column 背景色
  10. python画柱状图-Python:Matplotlib 画曲线和柱状图(Code)
  11. Qt 学习之路 2(1):序 笔记
  12. gcc动态链接库基本知识 [转]
  13. 二维数组遍历_布尔值数组的状态压缩
  14. 解决SVN汉化不成功问题,下载历史版本
  15. 运维技术相关基础面试
  16. python图像处理之一 - Pillow的基本用法
  17. iOS富文本添加下划线和颜色
  18. 转载:日本动漫发展史(新浪网)
  19. 微信支付 APP支付 Java 服务器端
  20. 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part4):结合问题分类的问题解析与检索语句生成

热门文章

  1. Webrtc 多人视频会议系统 服务器 Licode 介绍
  2. 免费下载思科CCNP 642-861考试题库
  3. 使用tensorboard时http://localhost:6006打不开或desktop-2a1fhsu 已拒绝连接
  4. 【英语:基础进阶_读写专项训练】G3.记叙文写作
  5. C++ 从一幅图片上裁取需要的区域
  6. 1.Cocos跑酷游戏——List工具篇
  7. 高斯坐标反算公式——python实现
  8. element-ui的v-loading不生效
  9. arcengin交互式动图制作
  10. ARM的memory Compiler总结