Which Clustering Do You Want? Inducing Your Ideal Clustering with Minimal Feedback 论文翻译
你想要哪一个?用最少的反馈诱导你的理想聚类
摘要:
虽然传统的文本聚类研究主要集中在按主题对文档进行分组,但可以想象,用户可能希望按照其他维度(如作者的情绪、性别、年龄或情绪)对文档进行聚类。在不知道用户意图的情况下,聚类算法只会沿着最显著的维度对文档进行分组,而这可能不是用户想要的维度。为了解决沿着用户期望的维度对文档进行聚类的问题,以前的工作主要集中在从手动标注用户意图的数据中学习相似性度量,或者在聚类过程中让人以交互方式构造特征空间。本文提出了一种新的主动聚类算法,该算法允许用户只需检查少量的单词,就可以方便地选择聚类所需的维度。我们证明了我们的算法在各种常用的情绪数据集的可行性。
文本聚类是一个主要的应用领域,它可以证明聚类算法的可行性。虽然传统的文本聚类研究主要集中在按主题对文档进行分组,但可以想象,用户可能希望按照其他维度(如作者的情绪、性别、年龄或情绪)对文档进行聚类。由于几乎所有现有的文本聚类算法都只能生成给定文档集的一个聚类,因此自然的问题是:这个聚类是否必然是用户所希望的集群?换句话说,文本聚类算法是否总能根据用户所需的维度生成聚类?
这个问题的答案在很大程度上取决于用户能否成功地将自己的意图“传达”给聚类算法。传统上,这可以通过设计一个好的相似度函数来实现,该函数可以捕获一对文档之间的相似度,从而产生她理想的聚类。这通常包括让她识别一组特征,这些特征对于诱导所需的聚类非常有用(Liu、Li、Lee和Yu,2004)。但是,手动识别“正确”的功能集既耗时又需要大量知识,甚至可能需要大量的领域专业知识。从机器学习的角度来看,所得到的相似性函数通常不容易移植到其他领域,这一事实尤其没有吸引力。为了克服这一弱点,研究人员试图从侧边信息(Xing,Ng,Jordan,&Russell,2002)中学习一个相似性度量,例如约束哪些文档对必须或不必须出现在同一个簇中(Wagstaff,Cardie,Rogers,&Schr)¨odl,2001年)。
相比之下,最近的工作集中在主动聚类上,其中聚类算法可以在聚类过程中包含用户反馈,以帮助确保文档根据用户期望的维度进行分组。一种方法是让用户以交互方式逐步构建一组相关的特性(Bekkerman、Raghavan、Allan和Eguchi,2007;Raghavan&Allan,2007年;Roth&Small,2009年)。另一种方法是让用户纠正聚类算法在每次聚类迭代中所犯的错误,方法是指定是否应该合并或拆分两个现有的聚类(Balcan&Blum,2008)。与这些主动聚类算法相关联的一个主要缺点是,它们涉及大量的人类反馈,这需要在聚类过程的每次迭代中提供。此外,在Balcan和Blum的算法中识别用于合并或拆分的簇可能不像看上去那么容易:对于用户做出的每个合并或拆分决策,她必须从簇中抽取大量文档,通读文档,并根据文件之间的相似程度做出决定。
在本文中,我们从不同的角度研究了根据用户兴趣对文档进行聚类的问题。我们的目标是有一个知识精益的方法来解决这个问题-一种方法,可以产生一个聚类的文件沿用户期望的维度,而不依赖人类知识微调相似性函数或选择相关的特征,不同于现有的方法。为此,我们提出了一种新的主动聚类算法,该算法以一个简单的特征表示(仅由单图组成)和一个简单的相似度函数(即点积)作为输入,并通过(1)归纳给定文档集的重要聚类维数1,其中,每个聚类维度由代表该维度的(少量)自动选择的单词表示;以及(2)让用户通过检查这些自动选择的单词来选择要对文档进行聚类的维度。与前面提到的反馈机制相比,我们的反馈机制可以说简单得多:我们只要求用户一劳永逸地粗略查看每个维度的少量特性,与让用户以交互方式生成特征空间或标识在每个聚类迭代中需要合并或拆分的聚类相反。
我们在基于情感的聚类任务中评估了我们的主动聚类算法,该算法的目标是根据作者表达的极性(如“拇指朝上”或“拇指朝下”)对一组文档(如评论)进行聚类,而不使用任何标记数据。我们决定将重点放在基于情感的聚类上是出于几个原因。一个原因是基于情感的聚类研究相对较少。如前所述,文本聚类的现有工作主要集中在基于主题的聚类上,即使对于具有大量类的数据集(例如,20个新闻组),也可以实现高精度聚类;尽管最近在情绪分析和观点挖掘方面做了大量工作,但大部分工作都集中在监督方法上(参见Pang&Lee,2008年对该领域的全面调查)。
我们关注基于情感的聚类的另一个同样重要的原因是这个任务给自然语言处理(NLP)研究人员带来的挑战。广义地说,基于情感的聚类的复杂性来自两个方面。首先,评论在情感上是模棱两可的,既包含积极的情感,也包含消极的情感。表1的评论1显示了DVD领域的评论片段,说明了情感歧义问题:虽然短语“稍微好一点”、“不跳过”和“没有那么坏”传达了积极的情绪,但是短语“没有修复”和“明显跳过”则是消极的情绪。因此,除非情感分析人员进行更深入的语言分析,否则分析人员很难确定评论的极性。其次,评审中客观材料的数量往往大大超过主观材料,因为评审员通常会在给产品打分之前,将评审的大部分时间用于描述产品的特征;因此,任何使用基于单词或短语的特征表示的情感分析器将主要由与极性确定无关的特征组成。在表1的评论2中显示的是一篇书评的片段,它说明了这个问题。正如我们所看到的,除了三个词/短语(“经典”,“好书”,“聪明”)在这篇评论中都符合客观材料。
上述复杂情况甚至对有监督的极性分类系统提出了重大挑战,更不用说基于情感的聚类算法了,因为它们无法访问任何标记数据。为了进一步说明这两种复杂情况给基于情感的聚类带来的困难,请考虑对一组电影评论进行聚类的任务。由于每个评论可能包含对情节和作者情绪的描述,聚类算法可以沿着情节维度或情绪维度对评论进行聚类;在不知道用户意图的情况下,它们将沿着最显著的维度聚集。假设采用通常的文字袋表示法,最突出的维度将更可能是情节,因为评论几乎完全专注于情节并不少见,作者只是在评论结束时简短地表达了自己的观点。即使评论主要包含主观材料,最突出的维度可能仍然不是情绪,因为前面提到的情绪歧义问题:在这些评论中,正面和负面情绪词的存在使得情绪维度被隐藏(即。,不太突出)就聚类而言。
总之,我们在本文中的贡献共有五层
•我们提出了一种新的主动聚类算法,该算法可以将一组文档沿着用户所需的维度进行聚类,而不需要任何标注数据或旁侧信息,例如手动指定或自动获取的必须链接和不能链接约束。与现有的主动聚类方法相比,我们的算法需要更简单的人工反馈。
•我们不仅通过在情感数据集上评估算法的性能,而且通过一组人体实验来证明算法的可行性,这在涉及合并用户反馈算法的论文中通常是不存在的。
•我们的结果加深了对谱聚类的理解。具体地说,我们提出了一个新的应用顶部特征向量产生的谱聚类算法,我们用他们来揭示重要的聚类维度的文本集合。
•我们的研究结果对领域适应也有影响,这个话题最近在NLP社区受到了很多关注。具体地说,我们证明了为一个域手动识别的情感维度可以用于为一个新的但类似的域自动识别情感维度。
•对具有多个聚类维度的数据集的初步结果(例如,书籍和DVD评论的集合,可以根据情感或相关产品的类型进行聚类)表明,我们的算法能够产生一个数据集的多个聚类,每个维度一个。因此,与传统聚类算法相比,我们的算法可以潜在地从数据集中揭示更多的信息,而传统聚类算法只能产生数据的单个聚类。对于不知道如何对文档进行聚类(例如,由于缺乏对数据的了解)的用户来说,生成多个聚类的能力是一个特别有用的特性。即使用户对数据有一定的了解,并且知道如何对文档进行聚类,我们的算法也可以帮助揭示其他“隐藏”的维度,这些维度她以前并不知道,但她可能也感兴趣。
本文的其余部分组织如下。第2节介绍了谱聚类的基础知识,这将有助于在第3节中讨论我们的主动聚类算法。我们在第4节中描述了我们在几个情感数据集上的人体实验和评估结果,在第5节中描述了我们工作的意义。最后,我们将在第6节讨论相关工作,并在第7节中进行总结。
2.谱聚类
当给定一个聚类任务时,一个重要的问题是:我们应该使用哪种聚类算法?一个流行的选择是k-means。然而,众所周知,k-means的主要缺点是不能分离在给定特征空间中不可线性分离的数据点(例如,参见Dhillon、Guan和Kulis,2004;蔡和汉,2005)。此外,由于k-means直接在给定的特征空间中对文档进行聚类,而文本应用程序通常包含数十万个特征,因此其性能可能会受到维数灾难的不利影响。针对这些问题,提出了基于k-均值的谱聚类算法。在本节中,我们首先介绍一种最常用的谱聚类算法(第2.1节)。然后,我们提供了光谱聚类背后的直觉(第2.2节)。最后,我们描述了两种使用生成的特征向量来产生聚类的方法(第2.3节)。
让X={x1,xn}是一组要群集的n个数据点,s:X×十→ ℜ 在x上定义一个相似函数,S是一个相似矩阵,它捕获成对相似性(即,SI,j=S(xi,Xj))。与其他许多聚类算法一样,光谱聚类算法以S为输入,输出k路分区C={C1,C2,…,Ck}(即。,∪ki=1Ci=X和∀i、 j:i=j=⇒ Ci公司∩ 希杰=∅). 同样,人们可以把光谱聚类看作学习分区函数f,在本文的其余部分中,它将被表示为一个向量,这样f(i)∈ {1, . . ., K}指示应该分配席的集群。注意,集群标签是可互换的,甚至可以重命名,而不损失通用性
在著名的谱聚类算法中(如Weiss,1999;Shi&Malik,2000年;Kannan、Vempala和Vetta,2004),我们采用了Ng、Jordan和Weiss(2001)提出的方法,因为它可以说是应用最广泛的方法。以下是Ng等人的光谱聚类算法的主要步骤:
1创建对角线矩阵D,其第(i,i)项是S的第i行的和,然后构造拉普拉斯矩阵x2 L=D−1/2秒−1/2.
2求L的特征值和特征向量。
3.从m个与m个最大特征值对应的特征向量创建一个新矩阵。
4现在,每个数据点的秩减少到m维空间中的一个点。将每个点规格化为单位长度(同时保留每个值的符号)。
5利用得到的m-特征向量,应用k-均值对数据点进行聚类。
换句话说,谱聚类在低维空间中对数据点进行聚类,其中每个维对应于拉普拉斯矩阵的顶部特征向量。
频谱聚类背后的直觉
谱聚类为什么会产生一组点的“有意义的”划分,可能还不清楚。谱聚类背后有理论依据,但由于涉及到大量的数学知识,我们将仅以一种足以让读者理解我们在第3节中的主动聚类算法的方式,对这种聚类技术提供直观的依据,并请感兴趣的读者参阅Shi和Malik(2000)关于谱聚类的开创性论文以了解详细信息。由于在本文的其余部分中,我们将仅应用谱聚类来生成给定数据点集的双向聚类,因此我们将在本小节中集中讨论双向聚类
谱聚类采用图论的概念分组。具体地说,任意特征空间中的一组数据点表示为无向加权图,其中每个节点对应于数据点,两个节点Xi和XJ之间的边缘权重是它们的相似性,SI,J。
给出这个图公式,产生数据点的双向划分的合理方法是最小化得到的两个簇C1和C2之间的相似性。因此,一个合理的最小化目标函数是切割值,其中
在不失一般性的情况下,我们可以定义f如下。
如前所述,当我们使用1和−1作为这里的集群标签,它们是可互换的,实际上可以以我们想要的任何方式重命名
吴和Leahy(1993)注意到,最小化割值的一个问题是,这个目标有利于产生不平衡的簇,其中一个簇包含极少量的节点。换句话说,有一种倾向于隔离一小部分节点。正如Shi和Malik(2000)所提到的,这并不奇怪,因为切割中涉及的边的数量(因此切割值)随着两个簇的大小变得相对平衡而趋于增加。
对最小割准则的进一步研究揭示了这个问题:虽然它最小化了簇间的相似性,但却没有试图最大化簇内的相似性。为了解决这一弱点,Shi和Malik(2000)提出了最小化归一化割值NCut的方法,该方法同时考虑了簇间的差异性和簇内的相似性。更具体地说,
式中,assoc(A,B),计算为Pxi∈A、 许继∈bsi,j是从A中的节点到B中的节点的总连接。根据此定义,由不平衡簇产生的切割将不再具有较小的NCut值。要了解原因,请考虑C1仅由一个节点组成的情况。在这种情况下,assoc(C1,C1∪ C2)=切割(C1,C2),使NCut(C1,C2)变大。
经过一些代数运算,我们可以把NCut表示为:
受(Df)t1=0和函数F的约束
其中d(i)=d(i,i),如第2.1.3节所定义,第一个约束规定Df与1正交,可以直观地理解为:由于1是一个常量向量,其所有条目都是1,不能用于诱导分区,该约束避免了将所有点分配给同一簇的琐碎解决方案。
不幸的是,Papadimitriou证明了最小化规范化割是NP完全问题,甚至对于正则网格上的图的特殊情况也是如此(参见Shi&Malik,2000)。因此,在Shi和Malik之后,我们通过放弃第二个约束并允许f的每个条目采用一个实值而不是两个离散值中的一个,来放松这个最小化问题,寻求以下问题的实值解:
从属于
假设g=D1/2f,我们可以将问题(1)重写为
根据标准的Rayleigh-Ritz定理,可以证明问题(2)的解g是对应于D的第二小特征值的特征向量−1/2(直径− S) D级−1/2,或等效地,对应于D的第二大特征向量的特征向量−1/2秒−1/2,这是第2.1节中定义的拉普拉斯矩阵L。为简单起见,我们将从此简单地将对应于L的第n个最大特征值的特征向量称为其第n个特征向量,并将其表示为en.4
这就是谱聚类背后的思想:L的第二个特征向量是最小化归一化割问题的近似解。5当然,由于第二个特征向量是实值解,我们必须将其转换为一个划分函数,以便用于聚类数据点。第2.3节解释了将该特征向量转换为分区函数的两种简单方法。
事实证明,L的其他特征向量也传递有关数据的有用信息。具体地说,如果我们对问题(2)施加额外的约束,迫使解与L的第二个特征向量正交,那么解就变成了第三个特征向量。因此,第三个特征向量可以被认为是问题(2)的次优解决方案,这意味着它也可以用于对数据点进行“合理良好”的划分。也许更重要的是,由于L的特征向量彼此正交(因为L是对称的),因此通过使用第三特征向量产生的聚类可能对应于与第二特征向量产生的数据不同的维度。更一般地说,如果我们把解空间限定为与L的前mm个特征向量正交的实值向量,那么约束优化问题的解就是L的(m+1)个特征向量。换言之,L的每个顶级特征向量可以直观地被认为是揭示了数据的一个重要维度,尽管就聚类而言,后续的特征向量越来越不理想。
2.3特征向量聚类
正如Ng et al.(2001)指出的,“不同的作者仍然不同意使用哪个特征向量,以及如何从中得到聚类”。在本小节中,我们描述了两种确定使用哪些特征向量的常用方法,对于每种方法,我们将展示如何使用选定的特征向量导出簇。这些方法将作为我们评估的基线。
2.3.1方法一。仅使用第二个特征向量
由于Shi和Malik(2000)证明了第二个特征向量e2是最小化归一化割问题的近似解,因此通常选择e2作为导出分区的唯一特征向量也就不足为奇了。然而,由于e2是约束优化问题的实值解,我们需要指定如何从中导出簇。
使用e2进行聚类很简单:因为我们对点进行了线性化,一种简单的方法是确定划分它们的阈值。然而,我们遵循Ng等人(2001)的方法,在一维空间中使用2-均值对点进行聚类。
2.3.2 方法2:使用前m个特征向量
回想第2.1节,拉普拉斯矩阵特征分解后,每个数据点用m坐标表示。在第二种方法中,我们使用2-means对m维空间中的数据点进行聚类,有效地利用了所有的前m个特征向量。
3.我们的主动聚类算法
如前所述,基于情感的聚类具有挑战性,部分原因是评论可以沿着多个维度进行聚类。在这一节中,我们将描述我们的主动聚类算法,这使得用户可以很容易地指定她想要聚类数据点的维度是情感。回想一下,我们的算法首先应用谱聚类来揭示数据最重要的维度,然后让用户选择所需的维度(即情感)。为了激发用户反馈的重要性,这有助于理解为什么第2.3节中描述的两种基线聚类算法(也基于谱方法,但不依赖于用户反馈)可能并不总是产生基于情感的聚类。首先,考虑第一种方法,其中仅使用第二个特征向量来诱导划分。回想一下,第二个特征向量揭示了数据最显著的维度。因此,如果情感不是最突出的维度(如果非情感词的数量超过评论词袋中的情感词,则可能发生这种情况),那么评论的聚类结果可能不是情感导向的。类似的推理可以用来解释为什么第二个基线聚类算法,即基于所有顶部特征向量的聚类,可能并不总是能很好地工作。由于每个特征向量对应于不同的维度(特别是,其中一些对应于非情感维度),因此使用所有特征向量来表示评论可能会妨碍两个评论的相似度的准确计算,因为要沿着情感维度进行聚类。在本节的其余部分,我们将详细讨论我们的主动聚类算法的主要步骤,该算法允许轻松地合并用户反馈。
步骤1:确定重要的聚类维度
我们依靠一种简单的方法来识别给定文本集合的重要聚类维数:我们使用拉普拉斯算子的顶部特征向量作为重要的聚类维数。这种方法是基于这样一个事实:拉普拉斯算子的第二特征向量e2是谱聚类最小化的目标函数的最优实值解(即归一化割,Shi&Malik,2000),因此是最优聚类维数。更重要的是,我们利用了第2.2节中讨论的一个很少使用的观察结果:虽然剩余的特征向量都是次优解(随着i的增加,ei更次优),但顶部的特征向量(即那些具有小i值的特征向量)不太次优,仍然可以产生相当好的(虽然不是最优的)数据聚类,因此可以作为良好的聚类维度。谱聚类的现有应用主要是将数据点聚集在由所有顶特征向量定义的空间中,并没有尝试分别使用每个ei(i>2)来产生聚类,这与我们的不同。请注意,第一个特征向量是一个常量向量,它只是将所有数据点分配给同一个簇,因此通常被忽略。
步骤2:确定每个分区的相关特性
给定第一步的特征分解,我们首先得到第二到第m个特征向量,它们对应于数据的最重要维度。下一个问题是:我们如何确定哪个维度能够捕获用户的兴趣?一种方法是让用户检查评论的所有m−1分区,并决定哪个最接近基于情感的聚类。这种用户反馈的主要缺点是,用户可能需要阅读大量的评论才能做出决定。因此,为了减少人为的努力,我们采用了另一种方法:我们(1)确定描述每个分区的信息量最大的特征,以及(2)让用户只检查特征,而不是检查评论。为了便于人类识别聚类维度,应选择这些特征,以便它们有助于区分两组中的评论。
为了识别和排序信息特征,我们采用了一种称为最大边际特征排序(MMFR)的方法。6回想一下,最大边际分类器(例如,支持向量机)在最大化分离边缘的同时将数据点从两类中分离出来。具体地说,最大边距超平面由w·x− b=0定义,其中x是表示任意数据点的特征向量,w(权重向量)和b(标量)是通过求解以下约束优化问题学习的参数:
其中ci∈ {+1, −1 }是第i个训练点xi的类,ξI是xi误判分类的程度,C是平衡训练误差和模型复杂度的正则化参数。
我们使用w来识别分区中最有用的特性。注意,信息量最大的特征是那些具有较大绝对权重值的特征:具有较大正(负)权重的特征强烈表示正(负)类。我们利用这一观察结果,通过(1)在分区上训练一个二值支持向量机分类器(SVM),其中假设同一聚类中的数据点具有相同的类值,从而识别分区的最具信息量的特征(2) 根据SVM学习的特征权值对特征进行排序;(3)分别使用顶部和底部的F特征生成信息特征的两个排序列表。
给定为每个m−1分区,用户将根据需要检查排名列表中的任意多个功能,从而选择与情感最相关的分区/维度之一。在选择了最相关的维度之后,用户会将与该维度相关联的两个要素列表中的一个标注为正,另一个标注为负。由于每个特征列表表示一个簇,因此与肯定列表相关联的簇被标记为正,而与否定列表相关联的簇被标记为负。
与现有的用于辅助聚类算法的用户反馈机制相比,我们的算法需要较少的人工干预:我们只要求用户通过检查少量特征来选择维度,与让用户构造特征空间或识别需要与其他方法合并或拆分的簇不同。
步骤3:识别明确的评论
不过,有一个警告。正如导言中所提到的,许多评论中既有正面的,也有负面的情绪词。这些模棱两可的评论比其明确的对应评论更有可能被错误地聚集在一起。由于特征的排序列表是从每个分区派生出来的,因此这些模糊评审的存在会对使用MMFR识别信息性特征产生不利影响。因此,在从分区中获取信息性特征之前,我们先删除模糊的评论。
我们采用一种简单的方法来识别明确的评论。在特征值的计算中,每个数据点都会将与其有亲缘关系的其他数据点的正交投影因子化。模糊数据点接收来自正数据点和负数据点的正交投影,因此它们在枢轴特征向量中具有接近零的值。换句话说,特征向量中接近零值的点比绝对值大的点更模糊。因此,我们根据特征向量中对应的值对数据点进行排序,只保留顶部的n/8和底部的n/8数据点。我们仅从得到的25%的数据点中归纳出信息性特征,并将其呈现给用户以便用户选择所需的分区。
第四步:沿着选定的特征向量聚类
最后,我们使用2-means将所有评论沿着用户选择的特征向量进行聚类,而不管评论是否模糊。
4评价
在这一节中,我们将介绍一些实验,旨在评估我们的主动聚类算法的有效性,并提供一些见解。
4.1实验装置
我们首先讨论了数据集的细节、文档预处理方法、谱聚类的实现以及评价指标。
4.1.1数据集
我们使用了五个情感数据集,包括广泛使用的电影评论数据集[MOV](Pang、Lee和Vaithyanathan,2002)以及四个包含亚马逊四种不同类型产品评论的数据集[Books(BOO)、DVD(DVD)、Electronics(ELE)和Kitchen Appliances(KIT)](Blitzer、Dredze和Pereira,2007)。每个数据集有2000个标记评论(1000个正面评论和1000个负面评论)。为了说明基于主题的聚类和基于情感的聚类之间的区别,我们还将在POL上显示基于主题的聚类结果,POL是一个数据集,它从讨论密码学和政治问题的20个新闻组的两个部分(即sci.crypt和talks.politics)中获取所有文档。
4.1.2文件预处理
为了对文档进行预处理,我们首先对文档进行标记和降格,然后将其表示为未标记的unigram向量,每个unigram都假定一个值为1或0,表示文档中是否存在它。此外,我们从向量中删除标点符号、数字、长度为1的单词以及仅在一次审阅中出现的单词。
按照信息检索界的惯例,我们还排除了文档频率较高的词,其中许多是停止词或特定领域的通用词(例如,电影领域中的“电影”)。对我们的评估数据集的初步检查表明,这些词通常占词汇的1-2%。决定从每个数据集中删除多少术语是主观的:大型语料库通常需要比小型语料库更多的删除。为了保持一致,我们只需按文档频率对词汇表进行排序,并去掉前1.5%的词汇量。从今往后,我们将把这个文件表示称为词袋(BOW)表示。
4.1.3谱学习设置
遵循文本领域谱学习的常见实践(例如,Kamvar、Klein和Manning,2003;Cai等人,2005),我们通过获取两个评论的特征向量的点积来计算它们之间的相似性。与Ng等人(2001)的谱聚类算法一样,我们将相似度矩阵的对角项设置为0。另外,我们把m设为5。换句话说,我们考虑第二到第五个特征向量,假设它们足以捕获所需的簇。
4.1.4评价指标
我们采用了两个评估指标。首先,我们根据准确度报告每个数据集的结果,准确度是系统分配的标签与金标准标签相同的文档的百分比。其次,根据Kamvar等人(2003),我们使用调整后的Rand指数(ARI)对我们的方法产生的聚类与金标准聚类进行了评估,ARI是Rand指数的修正概率版本。更具体地说,给定一组N个数据点和这些点的两个簇,U和V,其中U={U1,U2,有m个簇,V={V1,V2,Vn}有n个簇,ARI的计算如下:
在这个公式中,nij是Ui和Vj中公共对象的数目;而ai和bj分别是Ui和Vj中的对象数。ARI范围从−1对1;较好的聚类具有较高的ARI值。
4.2基线系统
在本小节中,我们将描述我们的基线结果。前两个基线系统是在第2.3节中描述的,后两个可以说是更复杂的聚类算法,用于加强我们的基线结果。
4.2.1仅使用第二特征向量的聚类
作为我们的第一个基线,我们采用Shi和Malik(2000)的方法,仅使用第二个特征向量e2对评论进行聚类,如第2.3节所述。POL和情绪数据集的结果(以准确度和ARI表示)分别显示在表2a和2b的第1行。由于2-均值的种子选择的随机性,这些和所有其他涉及2-均值的实验结果在10次独立运行中平均。
如我们所见,该基线在POL上的准确率为93.7%,但在情绪数据集上的准确率要低得多(50–70%)。ARI也可以观察到同样的性能趋势。这些结果提供了一个提示性的证据,即产生基于情感的聚类需要不同于产生基于主题的聚类的特征,并且在许多情况下,更显著的特征往往是基于主题的。两者的区别
第4.7节的实验将进一步说明基于情感的聚类和基于主题的聚类。
此外,值得注意的是,这个基线在BOO、DVD和ELE上实现的精确度和ARI值比在其余两个情绪数据集上要低得多。由于e2是最显著的维度,这些结果表明情绪维度不是这三个数据集中最显著的维度。事实上,这在直觉上是合理的。例如,在图书领域,正面书评通常包含对内容的简短描述,书评人只在书评的某个地方简短地表达自己的观点。与电子领域类似:电子产品评论通常是面向方面的,评论人谈论产品每个方面(如电池、耐用性)的优缺点。由于评论可能同时包含正面和负面情绪词,因此基于情绪的聚类不太可能被e2捕获。
4.2.2使用前五个特征向量进行聚类
作为我们的第二个基线,我们使用前五个特征向量(即e1到e5)表示每个数据点,并在这个五维空间中使用2-均值对它们进行聚类,如第2.3节所述。因此,这可以被认为是“集成”方法,其中聚类决策由五个特征向量共同作出。
结果见表2a和2b第2行。与第一个基线相比,我们发现POL和第一个基线表现较差的三个情绪数据集(即BOO、DVD和ELE)的准确性和ARI都有所提高,其中ELE的改善幅度最大。然而,其余两个情绪数据集的性能恶化。这些结果可以归因于这样一个事实:对于BOO、DVD和ELE,e2没有捕获情感维度,但是由于集合中的其他一些特征向量捕获了情感维度,我们看到了改进。另一方面,e2已经在MOV和KIT中捕捉到了情感维度;因此,采用额外的维度(可能与情绪无关)可能只会在计算评论之间的相似性时引入噪声。
4.2.3使用感兴趣的读者模型进行聚类
我们的第三个基线是Kamvar等人(2003)的无监督聚类算法,据作者说,该算法非常适合文本聚类,最近被证明是比率切割优化的特例(Kulis、Basu、Dhillon和Mooney,2009)。具体来说,他们引入了一种新的拉普拉斯方法,其灵感来源于“感兴趣的读者模型”。该拉普拉斯算子的计算公式为(S+dmaxI)− D) /dmax,其中D和S的定义见第2.1节,但如果i不是j的k个近邻之一,且j不是i的k个近邻之一,则Si,j=0;dmax是S的最大行和;我是单位矩阵。因为它的性能对k非常敏感,我们测试了10,15。,表2a和2b第3行中的k和re为500表示最佳结果。有点令人失望的是,尽管它的算法复杂,而且事实上,我们报告的是最好的结果,这一基线并没有提供比前两个一致的改进。与第一个基线相比,它在POL上的性能更好,但在所有情绪数据集上的性能都较差。与第一条基线一样,它在BOO、DVD和ELE上的结果也特别差。
4.2.4非负矩阵分解聚类
Xu、Liu和Gong(2003)最近证明非负矩阵分解(NMF)对于文档聚类是有效的。在重新实现该算法后,我们在六个数据集上对其进行了评估。表2a和2b第4行所示的14是运行该算法五次后获得的最佳结果。与第一个基线相比,NMF在ELE上的性能更好,在MOV上的性能相当,在其余的数据集上的性能更差。
4.3我们的主动聚类算法
在本小节中,我们描述了用于评价主动聚类算法的人和自动实验。
4.3.1人体实验
与四个基线不同,我们的主动聚类算法要求用户通过使用MMFR检查来自每个维度的明确评论的一组特征来指定四个维度(由第二到第五个特征向量定义)中与情感最密切相关的维度。为了更好地理解在给定特征的情况下,人类选择所需维度是多么容易,我们独立地对五个人(他们都是计算机科学研究生,与本研究无关)进行了实验,并计算了一致率。具体来说,对于每个数据集,我们向每个人展示了根据MMFR判断每个聚类的前100个特征(见表3-8中为六个数据集中的每个数据集归纳的这100个特征的子集,其中轻微共享的列对应于大多数人类判断者选择的情感维度),我们告诉她预期的维度:
P595-P602的图表
例如,对于POL,法官被告知预期的集群是政治vs.科学。此外,如果她确定不止一个维度与预期的聚类相关,她将被指示按照相关性对这些维度进行排序,其中最相关的维度将首先出现在列表中。表9显示了五位评委为每个数据集选择的维度(以特征向量的id表示)。同意率(见表格最后一行)仅根据每位法官选择的排名最高的维度计算。我们可以看到,五个情绪数据集中有四个达到了完美的一致性,其余两个数据集达到了近乎完美的一致性。这些结果,加上识别相关维度需要5到6分钟的时间这一事实,表明要求人类仅根据“信息”特征来确定预期维度是一项可行的任务。
4.3.2聚类结果
接下来,我们使用由大多数人类法官选择的维度对每个数据集的所有2000个文档进行聚类。聚类结果见表2a和2b的第5行。与每个数据集的最佳基线相比,我们发现我们的算法在BOO、DVD和ELE上的性能明显更好,在MOV和KIT上的性能几乎相同,但在POL上的性能稍差。注意,观察到的BOO、DVD和ELE的改进可归因于e2未能捕获情绪维度。也许最重要的是,通过利用人的反馈,我们的算法在数据集中取得了比四条基线更稳定的性能。
4.3.3明确文件的识别
回想一下,MMFR最大的特征仅仅是从明确的文档中计算出来的。为了了解我们识别无歧义文档的算法有多精确,我们在表10中展示了使用大多数法官选择的特征向量对每个数据集中的无歧义文档进行聚类时获得的精度。如我们所见,每个数据集的精度都高于表2a第5行所示的相应精度。事实上,除了一个数据集外,所有数据集的准确率都达到了85%以上。这表明我们识别无歧义文档的方法非常准确。
请注意,能够在无歧义文档上实现高精度是至关重要的:如果聚类精度较低,则从聚类中导出的特征可能不是一个重要的特征
对应维度的精确表示,人类判断者可能很难确定预期维度。事实上,一些人类法官报告难以为ELE数据集确定正确的维度,这在一定程度上可归因于在明确的文档上实现的低精度。
4.3.4用户反馈与标记数据
回想一下,我们的四条基线是无监督的,而我们的算法可以描述为半监督的,因为它依赖于用户反馈来选择预期的维度。因此,我们的算法的平均聚类性能要优于基线算法,这一点也不奇怪。
为了做一个更公平的比较,我们进行了另一个实验,我们将我们的算法与一个半监督情感分类系统进行了比较,该系统使用了一个transductive SVM作为基础的半监督学习器。更具体地说,这个实验的目标是确定需要多少标记的文档,以便转换学习者达到与我们的算法相同的性能水平。为了回答这个问题,我们首先让翻译学习者访问每个数据集的2000个文档作为未标记的数据。接下来,我们随机抽取50个未标记的文档,并为它们指定真正的标签。然后我们重新训练分类器,并在2000个文档上计算其精度。我们不断添加更多的标记数据(每次迭代50个),直到它达到我们的算法所达到的精度。这个实验的结果显示在表中,因为在选择未标记的文档时涉及到随机性,这些结果是十次独立运行的平均值。如我们所见,我们的用户反馈相当于平均每个数据集手工注释275个文档。
4.3.5多重相关特征向量
如表9所示,一些人类法官为一些数据集选择了不止一个特征向量(例如,{2,3,4}表示POL{MOV为2,4};和{3,4}表示ELE)。然而,在我们以前的实验中,我们从未考虑这些“额外”的特征向量。为了更好地理解这些额外的特征向量是否有助于提高准确度和ARI,我们进行了另一个实验,在该实验中,我们应用2-均值对所有选定特征向量定义的空间中的文档进行聚类。表12显示了10次独立运行的平均精度和ARI结果。可见,当只使用最高阶特征向量时,POL的结果要比得到的结果好得多,这表明额外的特征向量包含有用的信息。然而,在MOV和ELE上的结果随着额外特征向量的增加略有下降,表明额外的情感维度是无用的。
4.3.6监督分类结果
然后,给出了五种情绪数据集的监督分类结果。虽然我们不应该期望我们的基本上没有监督的方法能够提供与完全监督的方法相媲美的性能,但我们相信,充分监督的结果将使读者能够了解我们的工作在识别这些数据集中情绪的现有工作中的地位。具体而言,我们在表13中报告了平均10倍交叉验证的准确性,其中SVM分类器在九个折叠上进行训练,并在每个折叠实验中的剩余折叠上进行测试。正如我们所见,我们的结果落后于监督这些数据集的结果为8.1–15.2%。
4.4替代文件表述
在上面的实验中,我们将每个文档表示为一个单词包,其中最常见的1.5%的单词被删除。当然,这不是表示文档的唯一方法。在本小节中,我们将研究两种可选的文档表示,以更好地理解文档表示对分类结果的影响。
在我们的第一个文档表示中,我们使用文档中出现的所有unigram来表示文档,并且不从文档向量中删除频繁词。许多研究表明,虚词等的频率是各种非主题分类的有用特征(例如,Finn&Kushmerick,2006;Stein、Argamon和Frieder,2006年;Abbasi,Chen和Salem,2008年;Koppel、Schler和Argamon,2009年)。通过重新运行我们的四条基线以及使用此文档表示的系统获得的精度和ARI结果分别显示在表14a和14b中。比较表2a和14a,我们可以看到,当所有单词都用作特征时,每个数据集获得的最佳准确率比在应用光谱聚类之前去除高频单词时下降了3–11%。表2b和14b所示的ARI结果也可以观察到类似的趋势。总的来说,这些结果证实了我们的假设,即在文档表示中保留高频词对这些聚类算法的性能有不利影响。
接下来,我们用另一种表示方法进行实验,具体来说就是用每个文档中包含的情感词来表示。为了理解这种情绪词(BOSW)表达背后的动机,回想一下引言中提到的“鼓励”聚类算法生成用户所需聚类的一种方法是设计特征空间,使其包含所有且仅包含那些对生成用户所需聚类有用的特征。由于我们需要一个基于情感的聚类,我们可以设计一个只包含情感词的特征空间。由于为英语手工制作的主观性词汇(即,每个单词都手动标注其优先极性17的词汇)是现成的,我们可以根据主观性词汇自动构建一个特征空间,其中只包含那些具有(正或负)极性的单词,并使用生成的特征空间表示文档。然后,我们的目标是确定BOSW文档表示是否能够改善使用BOW表示得到的基于情感的聚类结果。
为了在我们的实验中识别情感词汇,我们采用了Wilson、Wiebe和Hoffmann(2005)的工作中引入的主观性词汇。18该词汇包含8221个单词,每个单词都被手工标注了一个正、负或中性的前极性。我们创建了一个新的主观性词汇L,在这个词汇L中,我们只保留了威尔逊等人词汇中那些具有正负极性的词汇。然后,文档的BOSW表示形式由所有且仅包含在文档中出现的单词组成我和文件。
当采用BOSW表示法时,我们的基线和系统的精度和ARI结果分别显示在表15a和15b中。首先考虑“仅第二特征向量”基线、NMF和感兴趣的读者模型。与表2a和2b中使用弓形表示的相应结果相比,我们可以看到大多数情况下,BOO、DVD和ELE数据集的性能有所提高,而MOV和KIT数据集的性能有所下降。对于“前五个特征向量”基线,DVD和MOV的性能略有提高,但其余数据集的性能有所下降。最后,使用BOSW表示会导致系统在所有数据集上的性能下降。
总的来说,这些结果似乎表明,文档的BOSW表示法是否比BOW表示法产生更好的聚类结果取决于底层域和聚类算法。然而,我们可以看到,使用BOSW表示的每个情感数据集的最佳聚类精度/ARI明显低于使用BOW表示的结果。我们推测结果较差的两个原因。首先,通用主观性词汇并没有涵盖所有的情感词汇。特别地,在特定域的上下文中以情感为导向但在其他方面具有中性极性的词可以从BOSW文档表示中省略。其次,一些不带感情色彩的词可能有助于识别感情。
4.5 领域适应性
正如引言中所提到的,大多数现有的情感分类方法都是有监督的。这些有监督的方法的一个缺点是,当给定一个新的域时,为了训练一个准确的极性分类器,人们需要经历收集大量注释数据的昂贵过程。19人们可能会说,我们的主动聚类算法也有同样的弱点:用户需要识别每个域的情感维度。解决这一弱点的一种方法是通过域自适应。具体来说,我们研究手动识别一个域(即源域)的情感维度是否可以用于自动识别新域(即目标域)的情感维度。我们假设域适应是可行的,特别是如果两个域在情感上是相似的(即,两个域的情感维度特征之间存在显著的重叠)
因此我们建议以下方法使用手动确定情感维度的源域 x自动识别目标域 y 的情感维度。假设领域 x 的情感维度由特征向量ex定义,且设C1ex和C2ex是排列在前的特征用 MMFR 获得的两个向量这些特征对应由ex导出的类簇在每个类簇中有100个特征。现在,给定目标领域 y我们首先计算ex和y的每一个顶级特征向量之间的相似度e2^y …e5^y。其中ex和ey的相似度定义:
是计算两个特征向量之间的相似度的函数。在我们的实验中我们简单的设定它为点积,可以捕获两个特征向量的重叠度。然后我们断定有最高的重叠的来自{e2y…e5y}的那个特征向量可定义情感维度。
为了确定本算法的有效性,我们在各个领域比较自动选择的特征向量与人工选择的特征向量。结果显示在表16,其中在第 i 行和第 j 列的“Y”表明利用人工识别源域 i 的情感维度目标领域 j 的情感维度已经成功识别,’ N '表明识别失败。例如,如果我们知道 DVD 领域的情感维度(通过人类的反馈),然后我们的领域适应方法可用于 MOV 领域情感的正确识别,反之亦然。然而,使用我们方法的领域适应性并不总是成功。例如知道 MOV 的情感维度却不能我们正确地推断 ELE 的情感维度。有趣的是,如果我们忽视了 BOO/KIT 对,领域适应性存在对称性。对称性,我们的意思是,如果域 x 可以用来鉴别出领域 y 正确的情感维度,然后 y 领域可以用来鉴别出领域 x 正确的情感维度。这直观的道理是:如果 x 能够成功的被用来识别 y 的情感维度,这两个领域有很多共同的情感词是可能的。因此,采用 y 适应 x 也可能是成功的。BOO/KIT 代表了这样的情况,领域适应性的成功只在一个方向:当从 BOO 到KIT 领域适应性是成功的,之间两个领域的情感维度的相似性是不高(详见下一段讨论),导致另一方向的适应失败
这一节一开始提到的,我们假设领域适应性是可能成功的如果考虑的两个域彼此是“类似的”。为了检验该假说,我们在表16a 显示每一对领域手动识别特征向量和相应的自动识别特征向量之间的相似性。有三分点值得注意。第一,只要相似度值高于14,领域适应是成功的;
同时,只要相似度值是低于6、领域适应是不成功的。因此,这些结果证实我们的假设,即如果
考虑的两个领域彼此相似领域适应更有可能成功。那将会很有意思,给定一对新领域看看
这两个阈值可以用来预测领域适应是否成功。第二,如果相似性的值是“充分”高的领域适
应可能在两个方向都是成功的。如上所述,如果相似值高,然后两个领域有着很多共同的情感
词,这可能导致成功的双向领域适应。我们正在考虑的五个领域,只要相似度值高于14,领域
适应在两个方向都是成功的。第三,值得重申的是,即使相似值低于此阈值,并不意味着领域
适应就会失败。如上所述,只要在 y 的四个特征向量中和领域 x 的情感维度的相似度是最高的,领域 y 的情感维度将会被正确的识别如 BOO/KIT 领域对的情况。
到目前为止,我们已经尝试关联领域适应的成功到手动选择源领域的特征向量和目标领域与它最相似的特征向量。手动选择的特征向量和在目标领域第二个最相似的特征向量之间的相似性可能也是值得考虑的,随着相似度的差距可以给一个领域适应的成功的迹象。为了确定领域适应的成功和这种相似性差距是否有一个更好的关系,(1)我们计算手动选择源领域的特征向量和在目标领域第二个最相似的特征向量之间之间的相似性(见表17b)以及(2)相似
度的差距(见表17c),这个差距只是表17a和17 b相应的项之间的差额。就象我们所看到的表
17c,领域适应的成功和差值也似乎有些关系。特别地,如果差值至少为5领域适应成功;但
是,如果差值至多为1领域适应是不成功的。然而,这种差值对预测领域对没有帮助即使
用表17的相似值不可预测领域适应的成功(例如,领域对的相似度很低,也是领域适应domain-adaptable)。此外,他们无法预测许多领域对的领域适应的成功,特别是那些差值是介于1和5的。
4.6 主体词汇与人类反馈
有人可能会说,如果我们能使用主体性词汇,我们可以用它来自动识别正确的情感维度,从而
排除人类反馈的需要。在这一节,我们研究使用手工构造的通用情感词汇识别新的领域的情
感维度对应的特征向量是否确实可行的。在我们的实验中,我们使用在第4.4节介绍的主体性词汇L。如上所述,L仅包含在威尔逊(2005)等的主体性词汇中预先标记为正、负极性的所有词。使用L自动识别情感维度的过程是类似于在领域适应部分描述的那样:对于第二至第五个特征向量的每一个,我们首先计算特征向量和L之间的相似性,然后选择与L具有最高相似度的特征向量,如在领域适应,我们计算L和特征向量ex之间的相似性如下
其中
C1L和C1eL表示在L中分别被标记为正面和反面的词C1ex和C2e^x是通过
ex推导的两个类簇对应的排名在前的特征向量使用MMFR获得。 是计算两个特征向量之间的相似度的函数。就像在领域适应那样我们简单的把它设定为点积。
我们的研究结果表明,对于五个领域的每一个我们利用L成功地确定了合适的特征向量。我注意到,虽然L是一种只包含通用情感词普遍的词汇(即,独立于领域),它是足以鉴别出五个
不同的领域的正确的情感维度的。值得注意的是五个领域中MOV领域的情感维度和L具有最高相似度(即,34),表明MOV领域排名最高的情感特征(按照MMFR)在很大程度上是通用的。DVD的和L有第二大的相似度(33),其次为BOO(26),KIT(16)和ELE(16)。KIT(16)和ELE有相对较低的相似度值提示了这样一个事实:他们的排名最高的情感特征在很大程度上是领域特殊的。最后,虽然主观性词汇避免了人类反馈的需要,我们应该强调这并不破坏我们的面向反馈的聚类技术的贡献,理由如下。首先,从文本挖掘的角度来思考,这是一个知识越少越好的好方法。使用手工制作的主观性词汇使我们的系统依赖资源;实际上,对于绝大多数自然语言主观性词汇是不足够的。其次,我们希望我们的方法适用于非情感领域(例如,spam vs.not spam),在那里我们再次面临同样的问题,手工构造词汇不足够。
4.7一个数据多维度聚类
如前所述,文本集可以被沿着不同的维度进行聚集。例如,电影评论可以由情感(正vs.负)或类型(例如、动作、浪漫和文献)进行聚集。一个自然的问题是:对于给定的文本集我们可以
产生不同的聚类结果,每一个文本都对应一个不同的维度吗?对于绝大多数现有的文本聚类
算法,答案是否定的:他们只能按照确定的一维进行聚集,这通常是最突出的维度。另一方面,
因为我们归纳出数据集的重要的聚类维度,这些维度的每一个原则上都能够被用于产生一个
(不同)聚类,我们假设一个给定数据集按照它的重要维度能产生的多种聚类结果。
为了测验我们的说法我们的算法可以导致多种聚类结果,我们在具有多个聚类维度的四个数据集上评估它,即MOV-DVD,BOO -DVD,DVD-ELE,MOV-KIT。例如,BOO-DVD数据集包括来自BOO和DVD的领域的所有评论。因此,每一个“增强”的数据集由4000篇评论组成(两个贡献领域每个2000),可根据主题(例如,Book对DVD)或情感进行聚类。注意用于创建这些“增强”的数据集的四对领域是仔细挑选的。具体地说,两个增强的数据集(MOV-DVD和BOO-DVD)创造时满足它们的组成领域是相互领域适应的按照表16,其余两个(DVD-ELE和MOV-KIT)创造时它们的组成领域不是领域适应的。 我们的目标是看对于情感相似度水平不同的数据集是否我们的动态聚类算法既可以产生基于主题的又可以产生基于情感的聚类。
聚类过程和在第三节所述的几乎相同。在本质上,我们计算(1)拉普拉斯矩阵的前五个特征向量;(2)根据MMFR学习对应e2-e5的顶级特征;(3)让人类评委确定与主题维度和情感维度所对应的特征向量;(4)根据所选主题维度和选择的情感维度使用2-means方法产生此评论集的两种聚类结果。如章节4.3,我们进行了人类和自动实验以鉴定我们方法的可行性。
4.7.1 人类实验
采用了与在4.3节人类实验相同的五个人,对于四个增强的数据集的每一个独立确定主题维度和情感维度,根据MMFR只使用顶级特征。像以前一样,如果一个人类评委对于一个特别的维度识别出不止一个相关的特征向量,我们让她根据相关性排列这些特征向量。最后,我们采用被多数的评委排名第一的主题/情感维度,为人工选择的主题/情感维度。
首先,对于每个数据集,所有人类评委都设法找到一个对应主题的特征向量(在外面的五大)与至少一个对应的情感的其他特征向量。也许更重要的是,四个数据集就选择主题和情感维度相对应的特征向量都达到了至少80%的人类一致率。这些结果共同提供证据表明:(1)在我们的动态聚类算法中的特征分解程序是非常有效的对于当主题和情感都存在于一个数据集时主题和情感维度的同时挖掘,以及(2)我们对于综合通过检测少量的特征的用户反馈的提议是可行的。
第二,在这些数据集中是否是主题和情感都是突出的维度事实上,对于所有的四个数据集第二个特征向量都捕获到主题维度,这表明主题相比情感是一个更加突出的维度。事实上,我们所有的人类评委都指出,主题维度很容易就可以确定,且识别主题维度达到完美的一致率。这提供了实证支持我们说法当这两个维度存在于一个数据集时主题相比情感是(但不总是)更加突出的维度。
第三,识别情感维度达到了较高的人类一致率(两个数据集达到完美一致和剩下的两个数据集达到80%的一致,详见表18b),人类评委也说道,识别情感维度是困难的,特别是对于这两个情感不相似的领域组成的数据集。
为了能洞察为什么评委觉得鉴别情感维度很难,我们在表19-22显示了对于四个增强的数据集,每个维度使用MMFR导出的排名在前的特征向量,这里有浅色阴影的列对应主题维度选择的特征向量,黑暗阴影的列对应情感维度选择的特征向量。检查这些结果,我们相信几点值得提起。
第一,MOV-DVD和BOO-DVD这两个数据集是由情感类似的成分领域组成的它们的情感特征向量产生顶级特征,显然是面向情感的,这使得人类评委能相对容易地确定情感特征向量。DVD-ELE和MOV-KIT的情况不一样,这两个数据由不相似的领域组成,那里的顶端特征是“有噪声的”(也就是,他们中的很多都不一定是面向情感的),因此评委定位情感特征向量是困难的。事实上,从表19-22中的情感特征向量产生的顶级特征你可以看到,MOV-DVD和BOO-DVD明显地比DVD-ELE和MOV-KIT更面向情感。
领域成分的情感越不类似,情感特征向量产生的顶级特征就噪声越多这是不应该感到惊讶的。如果组成领域是情感相似的,他们往往有很多共同的情感词。这意味着在这些数据集中比在数据集的每个组成领域中这些情感词会显得出现得更频繁。因此,结合两个领域有助于提高这些情感词的影响,增加他们出现在MMFR排列特征的名单的更高位置的机会。这种加强的效果就解释了为什么对于由情感类似的领域组成的数据集情感词显然主导了情感特征。另一方面,如果组成领域是情感不相似的,他们倾向于没有许多共同的情感词。因此,只有两个组成领域的一个表现的情感词的影响将被两个领域的大量的非情感词“稀释”。换句话说,仅仅在一个而不是两个领域的显然面向情感的特征在特征列表中不再出现足够高的排名。事实上,正如我们在表21及22看见的情感特征向量被一些不是情感词的特征污染了,人类评委识别情感维度是非常困难的。
另一个要注意的有趣的点是对于一些数据集有超过一个的对于情感的特征向量。例如BOO-DVD数据集五个评委一致同意e4和e5对于它的情感维度。对这两个特征向量显示在表20详细检查后发现一个很有趣的模式在e4里是DVD领域的C1的正面特征和BOO领域的C2的负面特征然而在e5里是BOO领域的C1 的正面特征和DVD领域的C2的负面特征。换句话说e4 按照DVD的正面和BOO的负面划分评论集,然而e5的正好相反。这表明,特征分解过程不合并来自两个域的正面和负面情感词在一起是“聪明”的。甚至更重要的是e4和e5不仅按照情感维度划分评论集,而且按照主题维度划分评论集。
4.7.2 聚类结果
表23a和23 b的1-4行显示在第4.2节介绍的相同的四种基准的文本聚类算法的基于主题和基于情感的聚类结果。注意,这些基准方法的每一个对于每个数据集的文本只能产生一种聚类结果。因而,对于每一个基准方法,通过比较这种聚类与基于主题聚类的黄金标准产生基于主题的聚类结果,通过比较这种聚类与基于情感聚类的黄金标准产生基于情感的聚类结果。
就像我们从在表23a所看到的这些基于主题的结果,在这四个增强的数据集上只使用第
二个特征向量聚类的基准方法达到最佳平均聚类结果。这可能是由于据根据评委e2在四个数据集上都对应主题维度就像在人类实验中描述的那样。然而,在四个数据集上只使用e2聚类不会产生最佳聚类结果。事实上,感兴趣的读者模型the Interested Reader Model在数据集MOV-DVD,DVD-ELE,MOV-KIT上得到最佳结果。不过,在数据集BOO-DVD上其结果在基准方法中是最坏的。这同样适用于“前五个特征向量“的基线方法且NMF:在数据集MOV-DVD他们两个都有很差的结果;此外,NMF在数据集BOO-DVD和MOV-KIT的结果也是不容乐观的。至于基于情感的基准方法聚类结果而言(见表23b的1-4行),NMF达到最好的平均性能。除三种情况(NMF在MOV-DVD和MOV-KIT,以及MOV-DVD的“前五个特征向量”),这些基准方法聚类结果并不特别乐观,精度结果低于15,ARI结果接近零。
我们的方法产生的基于主题和情感的聚类结果显示在表23a和23b的第五行。具体地说,
这些结果的获得是分别根据主题和情感维度手动选择的特征向量来对评论集进行分组。因此,不像基线方法我们的算法产生基于主题和情感的聚类结果是互不相同的。像以前一样,人类评委为每个维度选择不止一个特征向量的情况下,我们使排名常为第一的特征向量。就象我们所看到的,基于主题的聚类精度相当高的,范围从77.1%到99.3%不等。这些结果表明,对于一个数据集基于主题的(或者更准确的说,基于域的)聚类可以实现很高的性能即使另一个突出的聚类维度例如,情感)的存在。另一方面,尽管这些数据集中明显捕获情感维度的特征的存在例如,对于MOV-DVD的e3)基于情感聚类的精度和ARI比基于主题聚类的低。这可能是由于在简介中提到的原因:事实是,评论是含糊不清,使得分类是不简单的。与四个基线方法相比,我们的算法在四个数据集上不仅达到最后的平均性能也非常的稳定。
值得注意的是我们的算法产生的基于情感的聚类结果数据集BOO-DVD和MOV-DVD的均高于MOV-KIT和DVD-ELE的。这也许并不奇怪:正如前面所讨论的,人类评委发现确定DVD-ELE和MOV-KIT的情感特征向量比MOV-DVD和BOO-DVD的更难,这是由于,DVD-ELE和MOV-KIT的情感特征向量中许多排名在前的特征不是面向情感的这可能归因于这些数据集对应的领域对都是情感不相似的。如上所述,两个情感不相似的组成倾向于没有很多共同的情感词,因此只存在在两个组成领域的一个中的情感词的影响将被大量的两个领域的非情感词“稀释”,使得它难以产生好的基于情感聚类的结果。另一方面,两个领域的结合有助于提高这些情感词的影响,增加他们出现在根据MMFR排名特征的列表的更高的位置的机会并产生好的基于情感的聚类结果。
有趣的是,在两个DVD-ELE和MOV-KIT数据集上我们的算法达到更好的基于主题的聚类结果但是基于情感的聚类结果变得更差了。事实上,DVD-ELE和MOV-KIT的基于主题的聚类精度是近乎完美的:DVD-ELE和MOV-KIT分别是94.2%和99.3%。这绝不是一个巧合:当增强的数据集的组成领域是高度不同的(例如,他们的使用的词往往彼此相差较大),这个主题集群会互相很好地分开,因此基于主题的高聚类结果就可以实现。一个类似的推理可以解释为什么我们的算法发觉,MOV-DVD和BOO-DVD比较难产生好的主题聚类结果,它们的组成领域是相似的。
这些结果似乎表明一个更高的基于主题的准确度和ARI意味着较低的基于情感的准确度和ARI,反之亦然。我们推测,当组成领域是很相似的,往往他们的情感特征是相似的,因此,基于情感的结果往往是很好的,而基于主题的结果往往是不好的。需要附加实验确定原因。
整体而言,这些结果可提供证据说明我们的面向反馈的算法可以产生一个数据集的多种聚类结果。特别是,即使对于增强的数据集基于情感的聚类精度没有基于主题的聚类精度高,我们的算法目前的性能水平可以说是非常合理的,特别是考虑到基于情感的聚类分析是一项极具挑战性的工作,而传统的聚类算法无法产生超过一种的聚类结果。
4.7.3 多个相关的特征向量
记得表18对于四个增强的数据集的每一个,至少有一个评委表明超过一个特征向量关联情感维度。然而,当使用我们的系统产生的基于情感的聚类结果,在表23b显示我们只使用人类评委最常排列在前的特征向量。为了更好的理解使用更多的相关特征向量是否能帮助改善基于情感的聚类结果,我们重复这个实验,我们运用2-means方法在至少一个评委确定相关的所有特征向量定义的空间聚类文本集。更确切地说,我们用下面的特征向量聚类:MOV-DVD的{ 34},BOO-DVD的{ 4、5},DVD-ELE的{ 3、5,MOV-KIT的{ 3、5}。
这次试验的准确度和ARI的结果显示于表24。比较在表23b的最后一行的结果,我们看到,所有数据集除了BOO-DVD使用其他相关的特征向量获得更好的结果。然而不容易确定原因,我们认为BOO-DVD观察到不好的结果可归咎于e5的“杂质“,e5捕获的了不仅是情感,更是主题,正如前面所讨论的。另一方面,对于其他三个增强的数据集选择额外的情感特征向量似乎并没有这种杂质问题,都只有组成领域的一个的情感维度被他们捕捉。
- 我们工作的意义
我们相信,我们的方法是很重要的,在以下几个方面。
1.可根据用户的兴趣产生一种聚类结果。我们提出一个新的工作框架,我们使谱聚类算法能够考虑到人类的反馈并按照用户的兴趣产生一种聚类结果。我们的方法一个特别吸引人的方面是涉及到它要求相对最少的人类反馈,用户只需要粗略看一小部分每个导出的维度表示的特征。值得注意的是,人工进行检查和选择了一个自动导出的聚类维度是人和聚类算法交互的的新形式。它使个人容易从事各种聚类任务以一种容易的不费力的方式来提高他们的表现。我们相信,我们的方法,属于一种新兴家庭交互式算法它允许用户做一些小的、指导性的调整,从而得到的结果远优于其他可能它就是未来的信息检索。
2.产生人类的可解释的聚类的维度。 谱聚类或其他降维算法所产生的维度(例如,潜在语义索引(LSI),Deerwester,Dumais,Furnas,Landauer 和 Harshman,1990)通常被认为是不可解释的(Sebastiani,2002),不像在原来的特征空间的维度,通常情况下,对应一个词并能被人很容易的解释。我们初步研究的结果挑战这个共识。我们在文本聚类的语境中显示,谱聚类导出的在低维空间的维度可以被人解释。我们相信产生人类的可解释的维度的能力可使我们利用谱聚类使用更明智的方式(或其他维度 clus reduction-based - tering 算法)进行文本处理。选择手头工作有关的维度尤其如此。例如,在已有的谱聚类应用程序进行基于主题的聚类任务(例如,Xu et al.,2003;He,Cai,Liu,&Ma,2004;Hu,Deng,Guo,&Xu,2007),通常使用在低维空间的所有维度。既然我们表明,对于一个数据集并不是通过谱聚类产生的所有的维度,一定是与主题相关的,我们或许能提高基于主题的聚类结果通过在聚类过程中不使用与主题不相关的维度。此外,由于这些产生的维度对应不与主题相关的维度,我们可以使用它们来产生不是基于主题的聚类结果。特别是,鉴于在自然语言处理领域的按照非主题的维度情感和类别的文本分类方法近期的兴趣高涨 ,(例如,Garera 和 Yarowsky,2009分;Jurafsky,Ranganath,和 McFarland,2009),我们的方法给这些任务提供了一个解决方法,不依靠标记的数据,不像大部分现有的基于非主题的文本分类监督的的方法。整体而言,我们相信,自然语言处理研究人员尚未完全利用谱聚类的力量,并因此能在最大程度上理解在我们的研究结果中的谱聚类可能是有意义的。
3.产生多种聚类结果。 而大部分现有的文本聚类算法一个数据集可以产生单一的聚类结果,我们的方法可按照通过谱聚类的一种新应用产生的每个重要的聚类维度来产生多种聚类结果。
最后,值得一提的是,导出聚类维度的任务让人想起有影响力的主题建模任务(Blei,Ng,&Jordon,2003),主题建模任务的目标是以一种无监督的方式发现文本集的主要主题。注意这两个任务是完全不同的:当一个主题模型试图发现文本集的主要主题,我们的“维度模型”的主要目的在于发现聚类的维度。然而这两个模型在许多方面彼此相似。首先,他们都用一种无监督方式使用聚类方法从文本集发现信息。其次他们都用词表示了解到的信息主题模型用代表每个主题的词表示每一个导出的主题,代表,我们的维数模型使用代表在维度中涉及的两个文本类簇的词表示每一个导出的主题。最后并非所有导出的主题和聚类维度是人类可识别的但对于那些是的需要人给他们分配标签的。我们相信,聚类维度的感应有潜力大幅提升现有的文本分析算法用无人监督的方式从文本集发现知识的性能,通过补充主题模型产生的信息。
6。相关工作
简介中,我们讨论了产生一个用户想要的聚类结果的相关工作。在本节中,我们在计算文体学中集中讨论基于主题的聚类与分类情感分类动态学习产生多种聚类结果的相关工作。基于主题的文本聚类。传统的文本聚类的研究主要集中于基于主题的聚类,在很大程度上主要是1990年代倡议的 DARPA 的主题检测与跟踪。许多不同的聚类算法已被使用,包括非层次的算法如 k -均值算法、期望最大化算法和层次算法如单连接全连接,组平均,以及单通道(Hatzivassiloglou,Gravano,和 Maganti,2000)。这些算法在特征空间聚类一个给定的文本集,特征空间是典型的包括所有的一元模型unigrams。然而,在这样的高维空间聚类是不允许两个文本之间的距离被可靠的计算,由于维度灾难。因此,最近更多的工作主要集中在通过降维构造的低维空间中集群文本。基于降维的聚类算法的代表成员包括基于 LSI的传统算法Deerwester 等1990以及最近提出的可以说是性能更好的算法如谱聚类Shi & Malik,2000; Ng et al.,2001非负矩阵分解Xu et al.,2003局部维护索引He et al.2004和局部判别索引Hu et al.2007。尽管这些新的聚类算法的发展,但是主要是评估他们产生基于主题的聚类结果的能力。
基于主题的文本分类方法。如Yang和Liu(1999)所提出的,文本分类是“有监督的学习任务”。事实上,关于有监督的学习技术可能最受欢迎的工作是,在1990年代应用于信息检索领域(见Sebastiani,2002,有针对文本分类的机器学习的相关工作的全面概述,)。然而,训练一个高性能的有监督的分类器需要的标注文本的获得可能会很昂贵。因此,一些研究人员研究使用很少甚至不使用标记的数据就文本分类的性能的可能性。这样的尝试都导致了半监督的通用算法的发展,使用转导 transduction (Joachims,1999 b)或EM(Nigam, McCallum, Thrun,& Mitchell, 2000),结合文本分类的标记和非标记数据EM算法已经应用于主动学习的联合((Mc- Callum & Nigam, 1998)。最近,Sandler(2005)提出了一种无监督的文本分类算法,它是基于混合模型和LSI降维。
情感的分类。正如前面简介中提到的,尽管最近的情感分析和观点挖掘的大量的工作,大部分集中在有监督的方法(见 Pang&Lee,2008,有这个领域的全面研究)。这些存在的有监督的极性分类系统的一个缺点是他们通常是领域和语言相关的domain- and language-specic。因此,当给定一个新的领域或语言,人们需要的通过昂贵的过程去收集大量的注解数据以训练一个高性能的极性分类器。最近的一些尝试是利用现有的情感语料库或词汇为新领域或语言自动创建注释资源。然而,这些方法均需要平行语料库/机器翻译引擎/翻译注释和从一个资源丰富的语言到目标语言的词汇之一存在(Banea,Mihalcea,Wiebe,& Hassan, 2008; Wan,2008),或者是和目标领域够“相似”的领域(Blitzer et al., 2007)。当目标域或语言无法满足这个要求,基于情感的聚类和非监督的分类方法成为有吸引力的选择。不幸的是,除了极少数例外(如半监督的情感分析,Riloff和Wiebe,2003;Sindhwani和Melville,2008;Dasgupta和 Ng,2009a; Li, Zhang,及 Sindhwani,2009),这些任务在自然语言处理领域很大程度上是有待调查的under-investigated 。 Turney(2002)的工作可能是无监督的极性分类的一个最有名的例子。然而,当他的系统用无监督的方式学习在评论中的短语的倾向性时这些信息是用来启发式地预测评论的极性。
领域适应性。领域适应性,也称为学习迁移transfer learning,近年来是机器学习和 NLP研究领域的重点之一,其目标是利用可供领域(源域)的标记数据为另一个域(目标域)建立一个分类器。领域适应性的技术被广泛应用于各种自然语言处理任务,包括部分词性标注、名词短语分块、句法分析、命名实体识别、词义消歧(例如,Daum´e III&Marcu, 2006; Chan &Ng,2007; Duam´e III,2007;Jiang&Zhai,2007a,2007b)。和我们的工作特别相关的是文本和情感 分 类 适 用 的 领 域 适 应 性 的 研 发 ( 例 如 ,Blitzer, McDonald,&Pereira,2006;Finn&Kushmerick, 2006; Blitzer et al., 2007; Gao, Fan, Jiang, & Han, 2008; Ling,Dai, Xue, Yang, &Yu, 2008; Tan,Cheng, Wang,& Xu,2009)。值得注意的是我们的领域适应性的设置不同于传统的设置。传统的,需要在适应的过程中使用复杂的分类器和/或自动构造两个领域的特征之间的映射。然而我们的设置,是简单地利用源域手动选择的情感维度来自动识别目标领域的情感维度。
动态聚类。主动学习重点研究机器学习的范式,目的是为了以较低的注释代价取得更好的泛化界限(Cohn, Atlas,&Ladner,1994)。而在传统的主动学习设置中,需要人工注释分类器最不了解的数据点,(例如, Cohn et al.,1994),最近在主动学习方面的研究涉及要求人工识别或标注对手头的分类任务有用的特征(例如,Bekkerman et al.,2007; Raghavan&Allan,2007;Druck,Settles,&McCallum,2009;Roth&Small,2009)。如在简介中提到的那样,主动学习已应用于聚类设置,以“促进”聚类算法产生用户希望的聚类结果当数据可以按照多个维度聚集时。不同的动态聚类的变体已经被提出。一些要求人工标注数据点对“must-link”或“cannot-link”来表示这两个点必须或不能分在同一个簇中(例如,Wagsta et al.,2001;Bilenko,Basu,&Mooney,2004),而另一些要求人们在层次化聚类过程中决定是否应该融合或分裂两个簇(例如,Balcan & Blum2008)。我们的动态聚类算法是另一种变体:我们要求人们从自动产生的一组聚类结果中选择她所想要的聚类结果。
多个聚类结果的产生。用多个独立的方法聚集文本集的观念在计算文体学的文学中讨论过(见Lim, Lee,&Kim, 2005;Biber & Kurjian,2006;Grieve-Smith,2006;Tambouratzis &Vassiliou,2007;Gries,Wulff,&Davies,2010)。在机器学习中,人们做了很多尝试来设计产生数据集的多种聚类结果的算法。虽然一些人使用半监督的方法(例如,Gondek & Hofmann,2004; Davidson & Qi,2007),有些则是完全无监督的(例如,Caruana,Elhawary,Nguyen, &Smith,2006;Jain,Meka, & Dhillon,2008)。例如,Caruana等的(2006)元meta聚类算法,通过运行m次k均值算法生成一个数据集的m种不同聚类结果,每一次运行使用随机选择的种子和随机的特征权重。其目的是尽可能地表示出k-均值聚类方法发现的每一个局部极小值。然而,他们没有提出任何机制来判定这m种聚类结果哪一种是用户想要的。我们的方法,依靠谱聚类而不是k -均值算法来产生多种聚类结果,通过征求用户反馈来确定用户想要的聚类结果,填补了这个差距。
7. 结论和未来的工作
典型的无监督聚类算法沿着最突出的维度给对象分组,部分由于他们的目标是最大化簇内相似度的同时最小化簇间相似度。因此,如果用户预期的聚类维度不是最突出的维度,这些无监督聚类算法将失败的很惨。为了解决这个问题,我们提出一个动态聚类算法,使我们能够挖掘用户预期的,可能隐藏的、数据维度并产生理想的聚类结果。该机制不同于竞争方法,它需要非常有限的反馈:选择预期的维度,用户只需要检查少量的特征。我们通过一组人的和自动实验证明了其可行性这些实验是有挑战的有待调查的情感聚类任务取得可喜的成果。附加实验提供证据表明:(1)如果考虑的两个领域是情感相似的,领域适应性可以成功应用识别一个新领域的情感维度;(2)一个手工主体词汇,如果有的话,可以用来代替需要选择领域的情感特征向量的用户反馈;(3)我们的算法可以用来为具有多重聚类维度的数据集产生多种聚类结果。
同样重要的是,我们经验表明人类解释谱聚类算法产生的维度是有可能相反的自动构建的排名降低的空间的维度是不可解释的。我们相信,自然语言处理研究人员尚未完全利用谱聚类的力量,并因此能在最大程度上理解谱聚类在我们的结果中的回报可能是有意义的。最后,我们建议表示诱发的聚类维度为促进文本分析的探索的有效特征的集合,通过计算其他非监督模型(比如,主题模型)所提供的信息潜在地提高现有文本分析方法的能力。未来的工作,我们计划探索我们的动态聚类算法的一些扩展。第一,正如我们的动态聚类算法可被用来为数据集制造多种聚类结果,一个有趣的未来方向是检查其理论保证,决定是否它能够产生不同的质量过硬的聚类结果(见 Dasgupta 和 Ng,2010a,2010b)。第二,我们计划使用我们的算法结合现有的面向反馈的方法(例如,Bekkerman et al., 2007; Roth & Small,2009)以提高其性能。例如,不让用户从头开始构建相关的特征空间,而是对于用户选择维度可以简单地扩展识别的有效特征的集合。第三,因为我们算法的所有步骤没有一个是专为情感分类设计的,我们计划把它应用到其他最近在自然语言处理领域引起许多兴趣的不是基于主题的文本分类的任务,如:性别分类(即,决定文章的作者的性别的任务)。最后,我们计划采用更富有表现力的方法利用特征表示文本,如来自人工构建的或机器学习的情感词汇的面向极性的词(例如, Hu& Liu,2004;Wiebe,Wilson,Bruce,Bell,&Martin,2004;Andreevskaia&Bergler,2006;Mohammad, Dunne, & Dorr, 2009; Rao & Ravichandran, 2009),或那些来自更细粒度的finer-grained情感分析方法(如,句子,子句,短语(如,Wilson et al.,2005; Kennedy & Inkpen, 2006; Polanyi & Zaenen, 2006; McDonald, Hannan,Neylon, Wells, & Reynar, 2007; Choi & Cardie, 2008),使其使用我们的方法时尽可能地丰富特征有利于用户识别时所需的维度。
Which Clustering Do You Want? Inducing Your Ideal Clustering with Minimal Feedback 论文翻译相关推荐
- 论文翻译:Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation
我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己 ...
- ML之Clustering之普聚类算法:普聚类算法的相关论文、主要思路、关键步骤、代码实现等相关配图之详细攻略
ML之Clustering之普聚类算法:普聚类算法的相关论文.主要思路.关键步骤.代码实现等相关配图之详细攻略 目录 普聚类算法的相关论文 普聚类算法的主要思路 普聚类算法的关键步骤 普聚类算法的代码 ...
- 论文阅读笔记(8):Structured Sparse Subspace Clustering: A Joint Affinity Learning and Subspace Clustering
论文阅读笔记(8):Structured Sparse Subspace Clustering: A Joint Affinity Learning and Subspace Clustering F ...
- 【论文翻译】 Clustering by Passing Messages Between Data Points
论文题目:Clustering by Passing Messages Between Data Points 论文来源:Clustering by Passing Messages Between ...
- 【论文翻译】Clustering by Passing Messages Between Data Points
论文题目:Clustering by Passing Messages Between Data Points 论文来源:Clustering by Passing Messages Between ...
- PiCIE: Unsupervised Semantic Segmentation Using Invariance and Equivariance in Clustering论文翻译
摘要 我们提出了一个新的基于聚类的无标注语义分割框架.现成的聚类方法仅限于精选的.单标签和以对象为中心的图像,而现实世界的数据主要是非精选的.多标签和以场景为中心的.我们将聚类从图像扩展到像素,并将每 ...
- Non-exhaustive, Overlapping Clustering《非详尽的、可重叠的聚类》论文算法的解读(学习笔记)
论文原文 https://pubmed.ncbi.nlm.nih.gov/30080141/ 论文目的 实现类簇的可重叠性与离群点数量的控制. 目标函数 传统K-Means算法的目标函数为: 众所周知 ...
- 聚类Clustering
聚类Clustering This page describes clustering algorithms in MLlib. The guide for clustering in the RDD ...
- 谱聚类 Spectral Clustering
谱聚类 Spectral Clustering sklearn.cluster.SpectralClustering 谱聚类(Spectral Clustering, SC), 是一种基于图论的聚类方 ...
最新文章
- 《JS权威指南学习总结--第十一章子集和扩展》
- 脚踏开关 FOOTSwitch
- python从入门到精通视频教程百度云-python从入门到精通视频教程百度云资源
- socket 编程的端口和地址复用
- 用Python获取Linux资源信息的三种方法
- Tuomas Pirinen:创造游戏人物的8个方法
- FastDFS 文件上传工具类
- nginx 怎么重新编译安装mysql,centos 下 编译安装 nginx + mysql + php 服务
- ligerDialog的使用
- c语言传递多个参数给线程,关于ssl多线程参数的传递
- sql server 查看表、视图、触发器、存储过程等组成sql查询语句
- 激战2:逐火之路-概念艺术设计
- 多人在线答题游戏 小程序 (规划设计方案)
- 质数/素数 - 合数
- pdf文件过大如何缩小但保证清晰度
- LFS(linux for stratch)关于急救盘的制作问题
- 计算机词汇店名,有创意的店名大全
- NCT青少年编程能力等级测试Python编程三级-模拟卷1(含答案)
- 老司机带你玩转SDL(一)
- 如何理解java的回调函数?