·阅读摘要:
  本文在BERT模型上,提出了利用多任务架构来解决层级多标签文本分类问题。
·参考文献:
  [1] MSML-BERT模型的层级多标签文本分类方法研究

[0] 摘要

  在摘要中,作者主要给出了本篇论文的创新点:

  1、多任务学习架构
  2、多尺度特征抽取模块
  3、多层级信息传播模块
  4、层次化门控机制

  最后论文再总结一下,提出的模型在数据集上效果良好。

【注一】:上述的四个创新名词,其实原理都比较简单。“多尺度特征抽取模块”等于“CNN”,“多层级信息传播模块”等于“向量拼接”。(要想论文发的好,名词一定要起的妙!哈哈)

  作者总结了当前HMTC(Hierarchical Multi-label Text Classification,层级多标签文本分类)面临的两大问题:

  (1)使用相同的模型结构来预测不同层级的标签,忽略了不同层级和粒度的标签之间的差异性和多样性,导致对各层级标签的预测性能较差;

  (2)没有显式和充分地建模层级依赖关系以及引入了不必要的噪音,造成对下层长尾标签的预测性能尤其差,并且会导致标签不一致问题。

【注二】:总结的说:用一个模型预测多个层级的标签并不准确;没有使用到层级的标签信息。

[1] 相关工作


  如图,当前HMTC方法有三种算法方法:

  展平方法:就是不考虑标签的层级结构,直接把层级标签当成普通多标签文本分类来建模。有时候,展平方法是把所有的层级标签都展平,有时候是把最后一层的标签展平。

【注三】:展平方法对HMTC的效果是有瓶颈的。

  局部方法:局部方法指的是,为层级标签的每个节点都设置一个分类器,这中分类器一般是机器学习的分类器,如SVM等。

【注四】:可想而知,这样的效果也做不到最好。

  全局方法:用单个分类器并且更显式地对标签层次结构进行建模,模型通常采用端到端的方式训练并且对所有标签进行一次性地预测。

【注五】:全局方法旨在更好的利用标签信息、标签的层次结构信息。

[2] 基于MSML-BERT模型的层级多标签文本分类方法

  模型如下图:

  讲解模型:

  · 首先,架构是多任务学习架构,采用的是硬参数共享方法。每个任务的模型由共享层任务特定层两个部分组成。共享层用于学习和共享通用的知识和表征,而任务特定层用于弥补不同任务之间的差异以及提高不同任务的泛化性。

  · 本文模型的共享层,就是bert模型。采用bert的后几层,bert的输出应用到下游任务。

【注六】:bert已经是基操了。这样算作是共享层的话,那么像普通使用glove等预训练词向量也能称为共享层。

  · MSFEM(多尺度特征抽取模块),特征抽取的意思就是卷积层的卷积,多尺度的意思是采用不同窗口大小的卷积核。图中使用了3个TextCNN模型,对应到数据集中的3层标签结构。

  · MLIPM(多层级信息传播模块),把上一层的输出,拼接在下一层的输入中。不过拼接的方式比较不一样,采用的是HGM(层次化门控机制)。

  · HGM(层次化门控机制),一种合并向量的门控方式,如下图:

【注七】:对于模型提取特征时,不同的层级,卷积层提取的宽度不一样,文中的解释为:对于较上的层级采用较宽的一维卷积核提取粗粒度特征,对于较下的层级采用较窄的一维卷积核提取细粒度特征。

[3] 实验

  数据集如下:

  RCV1-V2是非常经典的一个多标签文本分类数据集。

  实验结果如下:

  可以看到全局方法有碾压般的表现。

[4] 模型性能分析

【注八】:个人觉得这里写的很好,有理有据,值得学习。

  消融实验:(其实就是控制变量)

  这里就证明了,论文提出的模型改进方法确实是有效果的。

  分层表现分析 :(查看不同模型在不同标签层级的评分)


  这里就证明了,论文提出的模型,在层级较深时,表现就更好。说明论文的创新点是正确的。

  标签一致性分析 :

  标签一致性问题是模型预测的每一层标签,并不符合原始标签的层级关系。

  这里也证明了论文提出的模型的优点。

【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究相关推荐

  1. 【小白学习PyTorch教程】十五、BERT:通过PyTorch来创建一个文本分类的Bert模型

    @Author:Runsen 2018 年,谷歌发表了一篇题为<Pre-training of deep bidirectional Transformers for Language Unde ...

  2. ansys 内聚力模型_基于内聚力模型(CZM)的单筋拉拔数值分析方法研究

    基于内聚力模型( CZM )的单筋拉拔数值分析方法研究 景剑 1 , 强峰 2 , 施凯 1 [摘 要] [摘 要]目前化学植筋粘结性能数值模拟中界面单元均以双弹簧单元 为主,但是模拟结果与相应的试验 ...

  3. 天池 入门赛-新闻文本分类-单个bert模型分数0.961

    文章目录 一些说明 三.最终代码及解析 3.1 构建分词器 3.2 预训练bert模型 3.3 分类任务微调: 零.分词tokenization 1.2 分词规则 1.3 character-base ...

  4. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  5. “玩转标签,发现层次的力量!”:跨模态哈希方法研究

    「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可. 论文动机 近年来,随着智能终端等多媒体设备的普 ...

  6. 基于多模型融合的用户画像分析统计方法研究

    摘  要 随着信息技术的快速发展和大数据技术的广泛应用,企业的营销和产品的设计,对精细化.精准化的要求越来越高.主流的电商平台.搜索引擎以及短视频平台均推出了基于用户画像的个性化推荐服务,这其中相当一 ...

  7. ros构建机器人运动学模型_ROS环境下机器人仿真模型构建方法研究.doc

    ROS环境下机器人仿真模型构建方法研究 ROS环境下机器人仿真模型构建方法研究 摘 要: 在众多的机器人仿真平台中,ROS可以封装机器人硬件.提出在ROS环境下构建机器人的仿真模型方法.设计了机器人仿 ...

  8. python分类算法评估模型_Python机器学习(sklearn)——分类模型评估与调参总结(下)...

    21.集成方法有随机森林(random forest)和梯度提升树(gradient boosted decision tree)GBDT 随机森林中树的随机化方法有两种: (1)通过选择用于构造树的 ...

  9. 【小白学习PyTorch教程】十六、在多标签分类任务上 微调BERT模型

    @Author:Runsen BERT模型在NLP各项任务中大杀四方,那么我们如何使用这一利器来为我们日常的NLP任务来服务呢?首先介绍使用BERT做文本多标签分类任务. 文本多标签分类是常见的NLP ...

最新文章

  1. java jdk 1.8 安装_下载、安装、配置 java jdk1.8
  2. python组件的react实现_React-Router动态路由设计最佳实践
  3. 华为面试改革,你怎么看?
  4. 做事情不要着急,着急只能把事情做的更加糟糕。。。
  5. React鼠标右单击事件
  6. C语言中变量在内存中是如何存放的
  7. 计算机声卡怎么启动不了,三大方法助你解决声卡故障问题!
  8. 20165212 预备作业3 Linux安装及学习
  9. 面向切面编程--AOP
  10. 编写一个猜数字游戏程序:
  11. python24点4张扑克_Python实现扑克24点小游戏 ,从此我就没输过
  12. [BZOJ2818][P2568]Gcd[欧拉函数]
  13. awk的关联数组版本支持
  14. 帆软折线图设置红色警戒线
  15. short java_java基本数据类型short的使用(23)
  16. C语言基础知识复习(1)
  17. 【JAVA长虹键法】第十式 桥接模式(23种设计模式)
  18. 国产分布式数据库在证券行业的应用及实践
  19. sphinx-for-chinese在windows下安装与使用方法
  20. js 防抖是什么 JavaScript防抖怎么用

热门文章

  1. SG3525频率和占空比参数的选取
  2. 微信H5支付坑一--手续费未结算
  3. 【java并发探赜索隐】判断标志、死锁、守护进程
  4. 软件开发外包:你有什么选择
  5. GitLab提交或拉取代码问题
  6. 计算机编程课程顺序_430道免费的在线编程和计算机科学课程,您可以在11月开始...
  7. 接耦与单元测试可测性
  8. DEM影像下载、拼接、裁剪(ArcGIS)
  9. Sun Java System Message Queue - Packet acknowledge failed after failover
  10. 信息学奥赛 一本通:1194:移动路线