【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
·阅读摘要:
本文提出结合基于CNN微调的HFT-CNN模型来解决层级多标签文本分类问题。
[1] HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization
【注一】:还有一篇是解决层次结构的多标签分类论文《Initializing neural networks for hierarchical multi-label text classification》阅读博客地址为:https://blog.csdn.net/qq_43592352/article/details/122815714
【注二】:本文提出的HFT-CNN模型是为了解决大规模、层级标签问题,而《Initializing neural networks for hierarchical multi-label text classification》是提出将CNN用于层级多标签分类,提出的模型较为简单。
[0] 摘要
层次目录结构水平越低,分类效果越差。因为较低的类别是细粒度的,每个类别的训练数据量比较高级别的要小得多。论文提出了一种方法,通过应用一个带有微调技术的卷积神经网络(CNN),可以有效地利用上层的数据对下层的分类作出贡献。
【注三】:微调现在基于bert来使用效果最好。
[1] 介绍
层级标签的数据稀疏性的详情: 较低级别的类别与较高级别的类别相比具有细粒度。而且,经常会出现低级别训练数据量比高级别训练数据量小得多的情况,从而影响了分类的整体性能。
[2] 模型
作者提出了HFT-CNN模型,该模型主要是解决层级性多元标签的短文本分类任务,其核心是标签的层级性,其次是多元标签和短文本。HFT是Hierarchical Fine-Tuning缩写,其意思就是在学习层级信息的时候,使用fine-tuning这种微调的技术,将上层标签信息微调的方式传到下层标签的学习中。作者提出该方法的原因是:觉得在处理有结构的多元标签分类任务上,现有很多模型都是non-hierarchical flat mode,只是平行化的利用标签的层级关系信息,而作者的模型是hierarchical mode,一个有层级结构的模型。
参考模型中标签的结构,来说下其样本训练学习的思路: 1)输入的是样本一段短文本sentence,将sentence转换成词embedding,文中利用的fastText; 2)接着先训练样本的顶层label(A,B),具体是在embedding层后加一个卷积层(convoluational layer),最大池化层(maxpooling layer),全连接层+dropout,最后加个sigmoid层,用的二元交叉熵(binary cross-entorpy loss)进行A,B标签预测,这一个CNN分类框架; 3)在预测下一层标签时(A1,A2,B1,B2),采用的仍是CNN结构,只是在embedding layer和convoluational layer不重新生成,而是继承上一层学习的结果,然后在这个基础上进行微调学习; 4)按照2,3步骤,遍历整个层级标签;
以上是论文模型的基本思想,我个人的看法是:这个想法是好的,在embedding layer和convoluational layer进行微调,理论上是说的通的,因为子类标签所涵盖的特征信息应该也属于父类标签所涵盖的特征信息。然后,这两类特征信息必须有个差异,如何把这类差异信息有效捕捉出来才是关键,当然这个也不好衡量,也是由于深度学习本质所决定,不能很好解释真正起作用的原因。
【多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization相关推荐
- 【层级多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorizati
HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization 1.背景 1.作 ...
- 【层级多标签文本分类】Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approa
Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approach 1.背景 1.作 ...
- 多标签文本分类研究进展概述
多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...
- 综述:基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)
文章目录 综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...
- EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...
- 【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
·阅读摘要: 本文在BERT模型上,提出了利用多任务架构来解决层级多标签文本分类问题. ·参考文献: [1] MSML-BERT模型的层级多标签文本分类方法研究 [0] 摘要 在摘要中,作 ...
- 【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
·阅读摘要: 在本文中,作者基于CNN.Attention.GAT提出CS-GAT模型,在一些通用数据集上,表现良好. ·参考文献: [1] 融合CNN-SAM与GAT的多标签文本分类模型 ...
- 【多标签文本分类】Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification
·阅读摘要: 在本文中,作者基于Seq2Seq模型,提出多级膨胀卷积.混合注意力机制两点来加以改进,应用于多标签文本分类,提高了效果. ·参考文献: [1] Semantic-Unit-Bas ...
- 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
·阅读摘要: 本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题. [1] Large Scale Multi-label Text Classificatio ...
最新文章
- #27 回文数字 Palindrome Detector
- 如何在linux下修改组权限
- SpringCloud Ribbon(一)之自定义负载均衡器ILoadBalancer
- mapgis中6.7属性结构_不知道如何组织项目结构,这个项目也许可以给你启发
- python实现删除文件与目录的方法
- MyBatis配置项--配置环境(environments)
- mysql分割字符串_mysql分割字符串
- WIN7安装IIS后无默认网站(Default Web site)解决方案
- python怎样计算增长率_增长率如何计算
- Ink脚本语言学习笔记(三)
- 计算机网络首地址和末地址公式,计算机中的地址即为存储单元的编码,一个首地址为1000H,容量为16KB的存储区域,末地址为________H。...
- SolidWorks宏工具介绍——初识宏工具
- Java直接控制打印机打印
- 诺基亚衰落的原因及其如何走去困境
- 基于肤色高斯概率模型的人脸检测
- lwip系列一之数据的收发
- 记录ideavim,使用tab技巧
- 详解在Linux系统中安装JDK
- 域名故事:史上超贵的域名成交记录
- 灰色关联分析(清风建模学习笔记)
热门文章
- ecplise 多工程项目如何进行树形展示
- 如何编写webService接口
- RDKit:化合物骨架分析
- Windows10下OpenCV_contrib安装配置
- 科研文献|季节变化是流域尺度上土壤抗性变化的主要驱动因素
- Cell:肠道菌群促进帕金森发生ParkinsonDisease
- 公共基因表达数据分析系统genevestigator,再也不愁表达数据的查询和比较了
- R语言应用str_match函数和str_match_all函数从字符串抽取匹配的字符串模式:str_match函数抽取第一个匹配的字符串模式、str_match_all函数抽取多个匹配的字符串模式
- Python使用过滤器(filter)进行图像模糊处理
- 混淆矩阵(confusion matrix)是什么?以及能从混淆矩阵中衍生出来的指标FPR、TPR、FDR、ACC、PPV、NPV分别是什么?对应的概念及公式是什么?