作者:丁磊 (北京工业大学)

paper: Contextualized Weak Supervision for Text Classification

高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型要求用户提供少量的seed words,根据seed words对未标记的训练数据生成伪标签,增加训练样本。

但是由于一词多义现象的存在,同一个seed word会出现在不同的类别中,从而增加生成正确伪标签的难度;同时,单词w在语料库中的所有位置都使用一个的词向量,也会降低分类模型的准确性。

而本篇论文主要贡献有:

  1. 开发一种无监督的方法,可以根据词向量和seed words,解决语料库中单词的一词多义问题。

  2. 设计一种排序机制,消除seed words中一些无效的单词;并将有效的单词扩充进seed words中。

模型整体结构为:

第一步:使用聚类算法解决语料库中单词的一词多义问题

对于每一个单词 w, 假设w出现在语料库的n个不同位置, 分别为 ,,,使用K-Means算法将,,分成K类,这里K可理解为单词w的K个不同解释。

用下列公式计算K的值:

其中代表第i个聚类中心的向量。的计算方法如下:

这里s表示一个seed word,且表示s在语料库第i次出现,对应的词向量为。

sim() 表示余弦函数,median( )表示取中位数。

则对于任意,有

综上,一词多义问题解决算法如下:

使用上面算法,我们就可以将原始语料库转变为基于语境下的语料库:

第二步:对未标记的训练数据生成伪标签令表示文档d的伪标签;表示类别为的seed word 集合;表示单词w出现在文档d的词频

第三步:使用基于语境下的语料库进行文档分类

本篇论文使用Hierarchical Attention Networks (HAN) 进行文本分类。

第四步:设计排序函数,更新seed words我们设计出一个打分函数,用于表示单词w仅高频的出现在类别为的文档。分值越高,表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seed word。也可以剔除一些不重要的seed word。

其中:

表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中,单词w的词频。

n为语料库D的文档总数目表示语料库D中含有单词w的文档的数量。

结果

我们的完整模型称为 ConWea,

而 ConWea-NoCon是 ConWea确实缺少第一步的变体。

ConWea-NoExpan是 ConWea确实缺少第四步的变体。

ConWea-WSD是将 ConWea第一步的方法换成Lesk算法。

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

【ACL2020】基于语境的文本分类弱监督学习相关推荐

  1. 基于机器学习的文本分类!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网 ...

  2. 【NLP】基于机器学习的文本分类!

    作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右.垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间.大家对此深恶痛绝,于是识别垃圾 ...

  3. Task03——零基础入门NLP - 基于机器学习的文本分类

    学习目标 学会TF-IDF使用原理 使用sklearn的机器学习模型完成文本分类 文本表示方法 one-hot bag of words N-grams TF-IDF 基于机器学习的文本分类代码

  4. 15 分钟搭建一个基于XLNET的文本分类模型——keras实战

    今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型--XLNET ,下图是XLNET在中文问答数据集CMRC 2018数据集(哈工大讯飞联合实验室发布的中文机器阅读理解数据,形 ...

  5. 基于神经网络的文本分类(基于Pytorch实现)

    <Convolutional Neural Networks for Sentence Classification> 作者:Yoon Kim 单位:New York University ...

  6. NLP(新闻文本分类)——基于机器学习的文本分类

    文本表示方法 在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测.同样的在计算机视觉中可以将图片的像素看作特征, ...

  7. 基于ERNIR3.0文本分类:(KUAKE-QIC)意图识别多分类(单标签)

    PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例[多分类(单标签)] 0.前言:文本分类任务介绍 文本分类任务是自然语言处理中最常见的任务,文本分类任 ...

  8. PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

    相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...

  9. NLP-Beginner:自然语言处理入门练习----task 1基于机器学习的文本分类

    任务一:基于机器学习的文本分类 任务传送门 项目是在github上的,数据集需要在kaggle上下载,稍微有些麻烦. wang盘:http://链接:https://pan.baidu.com/s/1 ...

  10. 基于机器学习的文本分类

    基于机器学习的文本分类 机器学习模型 文本表示方法 Part1 One-hot Bag of Words N-gram TF-IDF 基于机器学习的文本分类 Count Vectors + Ridge ...

最新文章

  1. mysql邮箱配置文件_SQL-数据库邮箱配置
  2. 缓存处理类(MemoryCache结合文件缓存)
  3. java 判断一个字符串是否为纯数字
  4. html5调用系统声音1s响一次_记录一次系统性能调优过程
  5. Array的javascript数据结构描述
  6. Wtm携手LayUI -- .netcore 开源生态我们是认真的!
  7. 码码的土狼:架构的原则、范式及治理
  8. eof在c语言中表示什么_日语中的鍵为什么既能表示“钥匙”也能表示“锁”?...
  9. 安卓开发——基于ViewPager的图片轮播
  10. C++之includeiostream与includeiostream.h
  11. Callback Promise Generator Async-Await 和异常处理的演进
  12. Delphi中TWebBrowser的用法
  13. jsp中java代码、jsp代码、js代码执行的顺序
  14. IEC 60601-2-33:2022 《医疗诊断用磁共振设备基本安全和基本性能的特殊要求》。
  15. IP地址、子网掩码、网络号、主机号、网络地址、主机地址以及ip段/数字-如192.168.0.1/24是什么意思?
  16. 433 490 868 915Mhz lora频段贴片天线方案 CA-S01 CrossAir贴片天线
  17. SLG手游卡牌类游戏机器人逻辑算法
  18. 2021湖南职称英语和计算机报名,20212022年职称只有湖南有而且仅有可“以考代评”的省份,发证单位权威...
  19. BUUCTF [SWPU2019]EasiestRe
  20. 《江山美人》:程小东的利落与编剧群的故步自封

热门文章

  1. 关于local storage及session storage 应用问题
  2. 架构设计--逻辑层 vs 物理层
  3. Ant Design UI 框架的的安装及使用
  4. (O)JS核心:call、apply和bind
  5. 分治算法——在真币中找出伪币
  6. java内功 ---- jvm虚拟机原理总结,侧重于虚拟机类加载执行系统
  7. 转: Syslog协议介绍
  8. 树、图与二分图的转换
  9. 小雷:我的核心定位和远大志向(上次更新2013年11月9日)
  10. QAction QActionGroup QMenu 使用方法