【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
·阅读摘要:
本文提出基于Seq2Seq模型,提出CNN-RNN模型应用于多标签文本分类。论文表示CNN-RNN模型在大型数据集上表现的效果很好,在小数据集效果不好。
·参考文献:
[1] Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text Categorization
[2] Seq2Seq模型讲解,参考博客:【多标签文本分类】代码详解Seq2Seq模型
本文的收获有三:
1、CNN-RNN模型;
2、多标签数据集Reuters-21578;
3、多标签评价指标:one-error 、hamming loss、Precision、Recall、F1
[1] CNN-RNN模型图
如下图:模型很简单,左边是一个TextCNN模型,右边是一个解码器Decoder。
【注一】:在理解Seq2Seq的基础上,CNN-RNN模型很好理解。
[2] 多标签数据集Reuters-21578
多标签数据集比较难得,获取数据集Reuters-21578
,可以使用如下代码:
import nltk
import pandas as pd
nltk.download('reuters')
nltk.download('punkt')# Extract fileids from the reuters corpus
fileids = reuters.fileids()# Initialize empty lists to store categories and raw text
categories = []
text = []# Loop through each file id and collect each files categories and raw text
for file in fileids:categories.append(reuters.categories(file))text.append(reuters.raw(file))# Combine lists into pandas dataframe. reutersDf is the final dataframe.
reutersDf = pd.DataFrame({'ids':fileids, 'categories':categories, 'text':text})
[3] 多标签文本分类评价指标
one-error
:统计top1的预测标签不在实际标签中的实例的比例;
hamming loss
:计算预测标签和相关标签的对称差异,并计算其差异在标签空间中的分数;
Precision、Recall、 F1
:是二元评估指标B(tptptp、tntntn、fpfpfp、fnfnfn),用于评估分类问题的性能,这是基于真阳性(tptptp)、真阴性(tntntn)、假阳性(fpfpfp)和假阴性(fnfnfn)的数量计算的。有两种方法可以在整个测试数据中计算这些指标:宏观平均macro-averaged
和微观平均micro-averaged
。宏观平均是指标签的平均性能(精度、召回率和F1分数),而微观平均首先统计所有标签中的所有真阳性、真阴性、假阳性和假阴性,然后对其总体计数进行二元评估。
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text相关推荐
- 【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
·阅读摘要: 本文提出结合基于CNN微调的HFT-CNN模型来解决层级多标签文本分类问题. [1] HFT-CNN: Learning Hierarchical Category Struct ...
- EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...
- bert-textcnn实现多标签文本分类(基于keras+keras-bert构建)
基于keras+keras-bert构建bert-textcnn模型实现多标签文本分类 跑别人的代码,最痛苦的莫不在于环境有错误.代码含义不懂.自己从头到尾尝试了一遍,过程很艰难,为了方便同样在学习的 ...
- 多标签文本分类研究进展概述
多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...
- 【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
·阅读摘要: 在本文中,作者基于CNN.Attention.GAT提出CS-GAT模型,在一些通用数据集上,表现良好. ·参考文献: [1] 融合CNN-SAM与GAT的多标签文本分类模型 ...
- 【多标签文本分类】Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification
·阅读摘要: 在本文中,作者基于Seq2Seq模型,提出多级膨胀卷积.混合注意力机制两点来加以改进,应用于多标签文本分类,提高了效果. ·参考文献: [1] Semantic-Unit-Bas ...
- 【多标签文本分类】SGM: Sequence Generation Model for Multi-Label Classification
·阅读摘要: 本文提出基于SGM模型,在Seq2Seq的基础上提出SGM模型应用于多标签文本分类.论文还提出了很多提升模型表现的细节,这是在Seq2Seq中没有的. ·参考文献: [1] SG ...
- 【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
·阅读摘要: 本文在<Improved Neural Network-based Multi-label Classification with Better Initialization ...
- 【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……
·阅读摘要: 提出了一种新的神经网络初始化方法:利用标签共现初始化最终隐藏层. [1] Improved Neural Network-based Multi-label Classifica ...
最新文章
- tensorflow tf.keras.losses.MeanSquaredError 均方差损失函数 示例
- 在Windows下创建硬连接和文件夹连接点的工具
- React文档(十四)深入JSX
- hdu 1026 bfs+记录路径
- springboot集成restTemplate实现rest接口调用
- 用计算机弹生僻字乐谱,生僻字 E调 (拇指琴卡林巴琴弹奏谱)_谱友园地_中国曲谱网...
- jprofiler_windows-x64_9_1注册码
- 计算机存储数字,计算机是如何存储数字的
- jQuery 图片放大预览插件
- 【linux基础】cuDNN版本查询
- Explaining Classifiers using Adversarial Perturbations on the Perceptual Ball论文解读
- GD32F103学习笔记(2)——在GD32F103移植STM32F103代码
- 租房合同中维修费需要谁出呢
- 【微信小程序-0基础入门】相关介绍和账号注册
- 阿里达摩院数学竞赛新一轮考题曝光,李永乐老师曾给出第一题详细解答
- Jetpack Compose 从入门到入门(六)
- NONMEN 控制文件
- php unix时间戳,php UNIX时间戳用法详解
- 线上抓娃娃方案的选型方法
- 为什么程序员会有35岁失业一说
热门文章
- 通讯速率_什么是通讯?
- Ajax---局部刷新
- 图像处理包括哪些东东?
- 创建线性表,以及表中的基本操作
- 第二十九课.回声状态网络ESN
- css less 不要作用到子对象_不要盲目的在项目中使用LESS CSS
- 蚂蚁森林合种计划(2020.10.23,7天有效,每周更新)
- 宏基因组-微生物组文章目录索引(180401)
- h5在线浏览word_怎样将PDF在线转换成Word?教你成为一个高手的方法
- R语言使用caret包构建岭回归模型(Ridge Regression )构建回归模型、通过method参数指定算法名称、通过trainControl函数控制训练过程