Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Abstract

该论文提出了一种无监督的方法，使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别标签，为低成本文本分类提供了一种实用的替代方案。

introduction

本文讨论了文档分类，这是机器学习中的一项标准任务，包括电子邮件过滤和新闻文章聚类等应用程序。传统的文本分类过程依赖于监督或半监督方法，这些方法需要标注的数据才能达到足够的准确性。但是，拟议的方法旨在使用每份文档中相关单词之间的文本相似性以及通过人类专业知识和语言模型丰富每个类别的关键字字典进行无监督分类。当需要低成本文本分类时，这种方法提供了另一种解决方案，其在运营风险事件分类中的应用示例就说明了这一点，这些应用来自银行部门管理定期与监管机构共享的描述各种类型的风险（包括内部/外部欺诈、网络安全问题等）的历史数据集。

contributions

本文的主要贡献是提出了一种无监督的方法，使用文本相似度和每个类别的关键字字典将文档分为几类。该方法通过人类专业知识和语言模型丰富了类别标签，为低成本文本分类提供了一种实用的替代方案。此外，对5个标准语料库的实验表明，与仅依赖人类专业知识相比，所提出的方法提高了F1分数，也可以与简单的监督方法相提并论。最后，运营风险事件分类中的一个应用示例说明了这种方法在其最初的灵感领域之外如何在实践中使用。

Literature survey

本文的文献调查侧重于为克服标准文本分类中对大量带注释数据的要求而提出的技术。大多数方法包括半监督方法，这些方法利用一小部分带标签的文档为其余文档导出标签，例如Nigam等人的期望最大化（EM）算法（2000）。重复此过程直到收敛，并且已成功生成无需完全手动注释的带标签示例。

Limitations

本文的局限性包括：

所提出的方法依赖于每个类别的关键字字典，该字典可能不够全面或准确，无法涵盖某些领域中文档的全部范围和复杂性。
尽管与仅依靠人类专业知识相比，实验显示出令人鼓舞的结果，但其性能仍低于使用带有大型标签数据集的监督方法所达到的效果。因此，当需要高精度分类时，它可能不适合。
尽管超出其原始灵感领域的应用示例说明了这种方法如何在实践中更普遍地在不同行业中发挥作用，但用例在被广泛采用之前需要进一步验证。

Practical implications

本文的实际含义是，它提出了一种无监督的方法，使用文本相似度对文档进行分类，并为每个类别提供一个通过人类专业知识和语言模型丰富而丰富的关键字词典。当需要低成本文本分类时，这种方法提供了一种具有成本效益的替代方案，如其最初灵感来自的银行部门管理领域之外的运营风险事件分类中的应用示例所示。所提出的方法可用于需要以合理的精度进行文档分类的不同行业，无需大型带标签的数据集或大量的手动注释工作。

Methods

本文中使用的方法包括：

基于每个文档中相关单词之间的文本相似度以及每个类别的关键字字典的无监督文本分类。
通过人类专业知识和语言模型（包括通用和特定领域）丰富标签词典。
在文档方面执行标准清理步骤，以在处理之前删除不相关的信息。
在类别标签方面实施了一系列丰富步骤，以便迭代地扩展标签词典。

dataset

该论文使用了五个标准文本分类语料库进行评估。论文简要描述了这些数据集，包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者汇总了每个数据集的训练集和测试集，将其用作整个语料库，因为他们采用了无监督方法，不需要在训练测试拆分之间进行标记数据分离。

Results

论文的结果表明，拟议的使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典的表现优于简单的无监督基线，从而使所有语料库的F1分数翻了一番。对五个标准文本分类数据集的实验表明，除了Yahoo-Answers数据集的性能相似的Yahoo-Answers数据集外，仅使用特定领域的嵌入在大多数指标上的性能要优于单独使用通用嵌入的性能。仅如一些实验结果所示，与嵌入相比，组合丰富，可以适度提高性能。总体而言，当需要低成本文本分类时，该方法可以提供替代方案，无需大型带标签的数据集或大量的手动注释工作，同时与某些条件下的监督方法相比，可以实现合理的准确性。

Conclusions

该论文的结论是，与某些条件下的监督方法相比，使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典可以提供合理的准确性。当需要低成本文本分类时，所提出的方法提供了一种经济实惠的替代方案，无需大型带标签的数据集或大量的手动注释工作，如其在最初启发的银行部门管理领域之外的运营风险事件分类中的应用示例所示。进一步的研究可以探讨诸如ELMO（Peters等人，2018年）和BERT（Devlin等人，2018年）之类的单词嵌入的最新进展能否为这种方法带来更多好处。

Future works

该论文提出了几项可以探索的未来作品，包括：

-研究如何使用诸如ELMO和BERT之类的单词嵌入方面的最新进展，以进一步提高性能。
-探索丰富人类专业知识和语言模型以外的类别标签的不同方法，例如使用外部知识库或本体论。
-针对复杂程度和领域特异性不同的其他文本分类任务评估所提出的方法。
-将这种无监督方法与更复杂的监督方法（例如标记数据可用时的深度学习架构）进行比较。

这些潜在的研究途径可以帮助扩展本文提出的发现，同时还可以为如何在不牺牲准确性的情况下最好地进行低成本文本分类提供新的见解。