Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Abstract
该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。
introduction
本文讨论了文档分类,这是机器学习中的一项标准任务,包括电子邮件过滤和新闻文章聚类等应用程序。传统的文本分类过程依赖于监督或半监督方法,这些方法需要标注的数据才能达到足够的准确性。但是,拟议的方法旨在使用每份文档中相关单词之间的文本相似性以及通过人类专业知识和语言模型丰富每个类别的关键字字典进行无监督分类。当需要低成本文本分类时,这种方法提供了另一种解决方案,其在运营风险事件分类中的应用示例就说明了这一点,这些应用来自银行部门管理定期与监管机构共享的描述各种类型的风险(包括内部/外部欺诈、网络安全问题等)的历史数据集。
contributions
本文的主要贡献是提出了一种无监督的方法,使用文本相似度和每个类别的关键字字典将文档分为几类。该方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。此外,对5个标准语料库的实验表明,与仅依赖人类专业知识相比,所提出的方法提高了F1分数,也可以与简单的监督方法相提并论。最后,运营风险事件分类中的一个应用示例说明了这种方法在其最初的灵感领域之外如何在实践中使用。
Literature survey
本文的文献调查侧重于为克服标准文本分类中对大量带注释数据的要求而提出的技术。大多数方法包括半监督方法,这些方法利用一小部分带标签的文档为其余文档导出标签,例如Nigam等人的期望最大化(EM)算法(2000)。重复此过程直到收敛,并且已成功生成无需完全手动注释的带标签示例。
Limitations
本文的局限性包括:
- 所提出的方法依赖于每个类别的关键字字典,该字典可能不够全面或准确,无法涵盖某些领域中文档的全部范围和复杂性。
- 尽管与仅依靠人类专业知识相比,实验显示出令人鼓舞的结果,但其性能仍低于使用带有大型标签数据集的监督方法所达到的效果。因此,当需要高精度分类时,它可能不适合。
- 尽管超出其原始灵感领域的应用示例说明了这种方法如何在实践中更普遍地在不同行业中发挥作用,但用例在被广泛采用之前需要进一步验证。
Practical implications
本文的实际含义是,它提出了一种无监督的方法,使用文本相似度对文档进行分类,并为每个类别提供一个通过人类专业知识和语言模型丰富而丰富的关键字词典。当需要低成本文本分类时,这种方法提供了一种具有成本效益的替代方案,如其最初灵感来自的银行部门管理领域之外的运营风险事件分类中的应用示例所示。所提出的方法可用于需要以合理的精度进行文档分类的不同行业,无需大型带标签的数据集或大量的手动注释工作。
Methods
本文中使用的方法包括:
- 基于每个文档中相关单词之间的文本相似度以及每个类别的关键字字典的无监督文本分类。
- 通过人类专业知识和语言模型(包括通用和特定领域)丰富标签词典。
- 在文档方面执行标准清理步骤,以在处理之前删除不相关的信息。
- 在类别标签方面实施了一系列丰富步骤,以便迭代地扩展标签词典。
dataset
该论文使用了五个标准文本分类语料库进行评估。论文简要描述了这些数据集,包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者汇总了每个数据集的训练集和测试集,将其用作整个语料库,因为他们采用了无监督方法,不需要在训练测试拆分之间进行标记数据分离。
Results
论文的结果表明,拟议的使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典的表现优于简单的无监督基线,从而使所有语料库的F1分数翻了一番。对五个标准文本分类数据集的实验表明,除了Yahoo-Answers数据集的性能相似的Yahoo-Answers数据集外,仅使用特定领域的嵌入在大多数指标上的性能要优于单独使用通用嵌入的性能。仅如一些实验结果所示,与嵌入相比,组合丰富,可以适度提高性能。总体而言,当需要低成本文本分类时,该方法可以提供替代方案,无需大型带标签的数据集或大量的手动注释工作,同时与某些条件下的监督方法相比,可以实现合理的准确性。
Conclusions
该论文的结论是,与某些条件下的监督方法相比,使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典可以提供合理的准确性。当需要低成本文本分类时,所提出的方法提供了一种经济实惠的替代方案,无需大型带标签的数据集或大量的手动注释工作,如其在最初启发的银行部门管理领域之外的运营风险事件分类中的应用示例所示。进一步的研究可以探讨诸如ELMO(Peters等人,2018年)和BERT(Devlin等人,2018年)之类的单词嵌入的最新进展能否为这种方法带来更多好处。
Future works
该论文提出了几项可以探索的未来作品,包括:
-研究如何使用诸如ELMO和BERT之类的单词嵌入方面的最新进展,以进一步提高性能。
-探索丰富人类专业知识和语言模型以外的类别标签的不同方法,例如使用外部知识库或本体论。
-针对复杂程度和领域特异性不同的其他文本分类任务评估所提出的方法。
-将这种无监督方法与更复杂的监督方法(例如标记数据可用时的深度学习架构)进行比较。
这些潜在的研究途径可以帮助扩展本文提出的发现,同时还可以为如何在不牺牲准确性的情况下最好地进行低成本文本分类提供新的见解。
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings相关推荐
- Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word Embeddings
1. 介绍 本文主要介绍论文Improving Twitter Sentiment Classification Using Topic-Enriched Multi-Prototype Word E ...
- 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
·阅读摘要: 本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题. [1] Large Scale Multi-label Text Classificatio ...
- 综述:基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)
文章目录 综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...
- Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification
1 标题+作者 KPT,将知识引入Prompt Verbalizer 处理文本分类任务,清华大学 2 摘要 在低数据场景下,Prompt-tuning(PT)比fine-tuning(FT)效果好,P ...
- Text Classification Algorithms: A Survey——1. Introduction引言
"Most text classification and document categorization systems can be deconstructed into the fol ...
- Bag of Tricks for Efficient Text Classification论文阅读及实战
本文目录 一.Fasttext算法综述 二.原理介绍及优化策略 三.Fasttext算法实战(注:以下代码仅在Linux系统下使用!) 四.参考资料 本文目录(仅做浏览用,暂时不支持页面内跳转) 一. ...
- 【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
·阅读摘要: 本文在<Improved Neural Network-based Multi-label Classification with Better Initialization ...
- 论文列表——text classification
https://blog.csdn.net/BitCs_zt/article/details/82938086 列出自己阅读的text classification论文的列表,以后有时间再整理相应的笔 ...
- 中文短文本分类实例十四-LEAM(Joint Embedding of Words and Labels for Text Classification)
一.概述 LEAM(Joint Embedding of Words and Labels for Text Classification),是Guoyin Wang等提出的一种文本分类新方法,看论文 ...
最新文章
- web.config中sessionState节点的配置方案
- Java 基础------16进制转2进制
- ASP:当 request.cookies 发生 Microsoft VBScript 运行时错误 (0x800A000D) 类型不匹配: '[string:...
- 【CV】使用 OpenCV 进行图像中的性别预测和年龄检测
- 慎用window.showModalDialog()
- 为内存密集型应用程序转义JVM堆
- mysql 设置client char_mysql编码问题:show variables like “%char%”
- 【Tyvj1185】【codevs1296】【BZOJ1588】营业额统计,Splay练习
- (十七)Java springcloud B2B2C o2o多用户商城 springcloud架构-消息驱动 Spring Cloud Stream...
- linux之我常用的20条命令( 之三)
- 语音识别技术分析:语音变成文字其实没有那么神秘
- PyTorch:全局函数
- [论文评析] ArXiv,2021, Focal Self Attention技术分析
- jmeter之badboy
- H.264的profile与level概念解释。
- python中求差的函数_Python编程基础11:函数和模块
- 输入整数显示ASCII字符(c++)
- 第十八章 过去时态和完成时态一般过去时
- c语言图形学画扇形代码,利用CSS绘制任意角度的扇形示例代码
- python十个实战项目
热门文章
- 1.1 MyBatis的简单介绍和基本使用
- python是否高送转预测股票_高送转炒作逻辑:建立高准确率的预测模型
- Windows安装Nginx反向代理访问IIS网站
- 电脑连接手机热点,显示无Internet的解决方法
- 直播这么火,但最先赚大钱的恐怕是企业级直播
- mysql delete 会锁表吗_我想进大厂之 MYSQL 夺命连环13问
- java用户的授权及验证_Java环境下shiro的测试-认证与授权
- Markdown学习笔记(超简单)所有字符为英文字符!!!!!!
- es6中的变量 解构 对象 数组 函数
- 品百味人生 2020年国庆假期