·阅读摘要：
本文提出基于Seq2Seq模型，提出CNN-RNN模型应用于多标签文本分类。论文表示CNN-RNN模型在大型数据集上表现的效果很好，在小数据集效果不好。
·参考文献：
[1] Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text Categorization
[2] Seq2Seq模型讲解，参考博客：【多标签文本分类】代码详解Seq2Seq模型

本文的收获有三：

1、CNN-RNN模型；
2、多标签数据集Reuters-21578；
3、多标签评价指标：one-error 、hamming loss、Precision、Recall、F1

[1] CNN-RNN模型图

如下图：模型很简单，左边是一个TextCNN模型，右边是一个解码器Decoder。

【注一】：在理解Seq2Seq的基础上，CNN-RNN模型很好理解。

[2] 多标签数据集Reuters-21578

多标签数据集比较难得，获取数据集Reuters-21578，可以使用如下代码：

import nltk
import pandas as pd
nltk.download('reuters')
nltk.download('punkt')# Extract fileids from the reuters corpus
fileids = reuters.fileids()# Initialize empty lists to store categories and raw text
categories = []
text = []# Loop through each file id and collect each files categories and raw text
for file in fileids:categories.append(reuters.categories(file))text.append(reuters.raw(file))# Combine lists into pandas dataframe. reutersDf is the final dataframe.
reutersDf = pd.DataFrame({'ids':fileids, 'categories':categories, 'text':text})

[3] 多标签文本分类评价指标

one-error：统计top1的预测标签不在实际标签中的实例的比例；

hamming loss：计算预测标签和相关标签的对称差异，并计算其差异在标签空间中的分数；

Precision、Recall、 F1：是二元评估指标B（tptptp、tntntn、fpfpfp、fnfnfn），用于评估分类问题的性能，这是基于真阳性（tptptp）、真阴性（tntntn）、假阳性（fpfpfp）和假阴性（fnfnfn）的数量计算的。有两种方法可以在整个测试数据中计算这些指标：宏观平均macro-averaged和微观平均micro-averaged。宏观平均是指标签的平均性能（精度、召回率和F1分数），而微观平均首先统计所有标签中的所有真阳性、真阴性、假阳性和假阴性，然后对其总体计数进行二元评估。

【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text相关推荐

【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
·阅读摘要: 本文提出结合基于CNN微调的HFT-CNN模型来解决层级多标签文本分类问题. [1] HFT-CNN: Learning Hierarchical Category Struct ...
EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者 | 黄毅作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...
bert-textcnn实现多标签文本分类（基于keras+keras-bert构建）
基于keras+keras-bert构建bert-textcnn模型实现多标签文本分类跑别人的代码,最痛苦的莫不在于环境有错误.代码含义不懂.自己从头到尾尝试了一遍,过程很艰难,为了方便同样在学习的 ...
多标签文本分类研究进展概述
多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...
【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
·阅读摘要: 在本文中,作者基于CNN.Attention.GAT提出CS-GAT模型,在一些通用数据集上,表现良好. ·参考文献: [1] 融合CNN-SAM与GAT的多标签文本分类模型 ...
【多标签文本分类】Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification
·阅读摘要: 在本文中,作者基于Seq2Seq模型,提出多级膨胀卷积.混合注意力机制两点来加以改进,应用于多标签文本分类,提高了效果. ·参考文献: [1] Semantic-Unit-Bas ...
【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
·阅读摘要: 本文提出基于SGM模型,在Seq2Seq的基础上提出SGM模型应用于多标签文本分类.论文还提出了很多提升模型表现的细节,这是在Seq2Seq中没有的. ·参考文献: [1] SG ...
【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
·阅读摘要: 本文在<Improved Neural Network-based Multi-label Classification with Better Initialization ...
【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……
·阅读摘要: 提出了一种新的神经网络初始化方法:利用标签共现初始化最终隐藏层. [1] Improved Neural Network-based Multi-label Classifica ...

【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text

[1] CNN-RNN模型图

[2] 多标签数据集Reuters-21578

[3] 多标签文本分类评价指标

【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text相关推荐

最新文章

热门文章