微博情感分析的表情符号平滑语言模型（A11, AAAI2012）

Emoticon Smoothed Language Models for Twitter Sentiment Analysis 微博情感分析的表情符号平滑语言模型（A11, AAAI2012）

通常，对于完全监督模型，由于耗人力和耗时间只能得到有限的训练数据，对于带噪声标签的模型，虽然很容易获得大量训练数据，但是由于标签的噪声很难得到满意的性能。最好的策略是利用手工标记的数据和噪声数据来训练。文章中，提出一个新的表情符号平滑语言模型（ESLAM）。基本思想是基于手工标记的数据训练语言模型，然后用噪声表情符号来平滑。
前人工作发现对于长文本，SVM比MNB（multinomial naive Bayes）性能更好，短文本反之。但是使用的都是完全监督数据。也有用弱监督训练数据的工作，由于标签的噪声，正确率不令人满意。考虑完全监督和弱监督方法的缺点，最好的策略是利用两种数据来训练。为了无缝集成两种数据于一个模型，提出ESLAM，它的主要贡献：有能力处理拼错的词，俚语，情态词，缩写和无法预料的词；也可以用于主客观分类；从微博API直接评估词概率，不需要下载任何微博，省时省空间。

情感分析的语言模型

Twitter情感分析（TSA）实际上是一个分类问题。为了对TSA采用语言模型（LM），连结所有同一类的微博形成一个综合文档。在测试阶段，每条文本微博看成一个查询，使用概率排名类。有最高概率的类选为文本微博的标签。使用c 1 c_1和c 2 c_2标记两个语言模型。在极性分类中，c 1 c_1和c 2 c_2分别是积极和消极微博的语言模型，在主客观分类中，c 1 c_1和c 2 c_2分别是主观类和客观类的语言模型。通过计算P(t|c 1 ) P(t|c_1)和P(t|c 2 ) P(t|c_2)评估微博概率，P(t|c)=Π n i=1 P(ω i |c) P(t|c)=\Pi_{i=1}^nP(\omega_i|c)，n是词数，P(ω i |c) P(\omega_i|c)是LM评估的类c的多项式分布。一个普遍的评估分布方法是极大似然估计（MLE）：P a (ω i |c)=N i,c N c P_a(\omega_i|c)=\frac{N_{i,c}}{N_c}，N i,c N_{i,c}是词ω i \omega_i出现在类c训练数据的次数，N c N_c是类c中训练数据的总词数。为了划分测试集的微博，经常会遇到训练集中没有出现的词，需要平滑，文章使用JM平滑方法线性插值带表情符号的MLE模型。

表情符号模型

提出了非常高效的方法从微博搜索API评估表情符号语言模型P μ (ω i |c) P_μ(\omega_i|c)。微博搜索API是一个专门的跑搜索的API，它的索引包含6~9天的数据。给定一个包含一个或多个词的查询，API返回多于1500的相关微博和它们的发布时间。

极性分类

为了得到ω i \omega_i在积极类中的概率P μ (ω i |c 1 ) P_μ(\omega_i|c_1)，假设所有包含“: )”的微博是积极的。建立查询“ω i \omega_i : )”，输入到搜索API，返回包含ω i \omega_i和“: )”的微博以及发布时间。于是得到微博数n ω i n_{\omega_i}和这些微博的时间范围t ω i t_{\omega_i}。然后建立查询“: )”，得到返回微博n s n_s和时间范围t s t_s。参考文献指出一条微博平均包含15个词。假定Twitter上的微博关于时间均匀分布。得到P μ (ω i |c 1 )=n ω i /t ω i n s /t s ∗15 =n ω i ∗t s 15∗t ω i ∗n s P_μ(\omega_i|c_1)=\frac{n_{\omega_i}/t_{\omega_i}}{n_s/t_s*15}=\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s}，n ω i t ω i \frac{n_{\omega_i}}{t_{\omega_i}}粗略地为一个单位时间内词ω i \omega_i出现在类c中的次数，n s t s ∗15 \frac{n_s}{t_s}*15粗略地为一个单位时间内类c中词的总数。
令F μ =∑ |V| j=1 P μ (ω j |c) F_μ=\sum_{j=1}^{|V|}P_μ(\omega_j|c)为标准化因子，|V| |V|是包含见过和没见过的词的词汇表。标准化：P μ (ω i |c):=P μ (ω i |c)/F μ =P μ (ω i |c)∑ |V| j=1 P μ (ω j |c) =n ω i ∗t s 15∗t ω i ∗n s ∑ |V| j=1 n ω i ∗t s 15∗t ω i ∗n s =n ω i t ω i ∑ |V| j=1 n ω i t ω i P_μ(\omega_i|c):=P_μ(\omega_i|c)/F_μ=\frac{P_μ(\omega_i|c)}{\sum_{j=1}^{|V|}P_μ(\omega_j|c)}=\frac{\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s}}{\sum_{j=1}^{|V|}\frac{n_{\omega_i}*t_s}{15*t_{\omega_i}*n_s}}=\frac{\frac{n_{\omega_i}}{t_{\omega_i}}}{\sum_{j=1}^{|V|}\frac{n_{\omega_i}}{t_{\omega_i}}}。
对于消极类的语言模型，假定消极微博是包含“: (”的微博，P μ (ω i |c 2 ) P_μ(\omega_i|c_2)评估过程与P μ (ω i |c 1 ) P_μ(\omega_i|c_1)类似。

主客观分类

主客观分类的两类是主观和客观。假定主观微博是带“: )”或”: (“的微博。对于主观类，建立查询“ω i \omega_i : ) or : (“。对于LM的客观类，获得P μ (ω i |c 2 ) P_μ(\omega_i|c_2)，客观类中ω i \omega_i的概率更具挑战性。文章提出一个关于客观微博的新颖的假设，包含客观链接的微博是客观的。基于观察，链向图片网址或者视频网址的链接通常是主观的，链向新闻文章的链接是客观的。因此假定一个不是图片或视频的链接为客观链接。基于上面的假设，建立查询”ω i \omega_i filter : links“得到客观类的统计。

ESLAM

从手工标记的数据评估P a (ω i |c) P_a(\omega_i|c)和从噪声表情符号评估P μ (ω i |c) P_μ(\omega_i|c)后，集成它们为同一个概率框架P co (ω i |c) P_{co}(\omega_i|c)。在结合P a (ω i |c) P_a(\omega_i|c)和P μ (ω i |c) P_μ(\omega_i|c)之前，需要平滑P μ (ω i |c) P_μ(\omega_i|c)，因为P μ (ω i |c) P_μ(\omega_i|c)是从表情符号评估的，它可能有偏差，采用Dirichlet平滑。根据JM平滑原则，ESLAM模型P co (ω i |c) P_{co}(\omega_i|c)可以通过以下计算：P co (ω i |c)=αP a (ω i |c)+(1−α)P μ (ω i |c) (1) P_{co}(\omega_i|c)=\alpha P_a(\omega_i|c)+(1-\alpha)P_μ(\omega_i|c)\ (1)，α∈[0,1] \alpha \in[0,1]是控制每个成分的参数。

实验

数据集
公开可用的Sanders语料用于评估。它由5513个手动标记的微博组成。通过去停用词，移除转帖和重复帖等预处理数据。
评估机制和度量
根据参考文献，采用正确率和F值作为评估度量。
表情符号的效果
比较ESLAM方法和完全监督语言模型（LM）。对于极性分类，手工标记的数据增加，两种方法的性能增长。在少量手工标记数据的情况下，ESLAM比完全监督LM好，说明噪声数据有一些有用的信息。对于主客观分类，结果相似，基于url链接的方法对于发现客观微博是有效的。
手工标记数据的效果
比较ESLAM和弱监督LM来证实手工标记的数据是否提供分类的有效信息。对于极性分类和主客观分类，结果相似，随着手工标记数据的增长，它们之间的性能差别越来越大，说明只使用噪声标记数据训练是不够的。
参数的敏感性
(1)式中参数α \alpha决定手工标记信息和噪声标记信息的贡献，设置α \alpha的不同值，512条标记训练微博的ESLAM比128条的需要更大的α \alpha值来获得最佳性能。