Description Based Text Classification with Reinforcement Learning
论文连接
文本分类通常分为两个阶段
- 文本特征提取
- 文本分类
在标准化形式中,类别仅代表了标签词汇表中的索引,模型缺乏关于分类内容的描述。
论文方法概述
论文提出了一个新的文本分类框架,其中每个类别标签都与一个类别描述相关联。描述是由手工制作的模板或使用强化学习的抽象/提取模型生成的。描述和文本的连接被提供给分类器,以决定是否应该将当前标签分配给文本。
文本分类任务: 将一个或多个类别标签分配给一个文本标记序列(情感分类、主题分类、垃圾邮件检测等)文本分类任务的这种标准形式化有一个内在的缺点:类别仅仅表示为标签词汇表中的索引,缺乏关于分类内容的明确说明。标签只能在监督信号反向传播到特征提取步骤提取的特征向量时影响训练过程。
文本中的类指示符,可能只是一两个关键词,可能被深埋在巨大的文本块中,使得模型很难从谷壳中分离出来。此外,不同类的信号可能会纠缠在文本中。
例如情感分类,一篇评论中可以包含对不同方面的情感表示,如clean updated room. friendly efficient staff . rate was too high.
论文提出了一个新的文本分类框架: 其关键点是将每个类与一个类描述关联起来,以便明确地告诉模型要分类什么。
例如:分类对一个酒店的描述内容是积极还是消极的,定义一个评价为 x = { x 1 , x 2 , . . . , x n } x=\left \{x_1, x_2, ... ,x_n \right \} x={x1,x2,...,xn} ,论文方法将对酒店的描述和内容的评价进行结合 [ C L S ] p o s i t i v e l o c a t i o n [ S E P ] x [CLS]positive location[SEP]x [CLS]positivelocation[SEP]x
通过明确描述的分类内容(标签),迫使模型关注与标签相关的最显著的文本,这也可以被视为注意力。
该方法存在的难点与解决方案
这种方法的一个关键问题是如何获得类别描述,同时传统的方法存在一定缺点:
(1)预先定义每个类别的描述的人工量较大,特别是当类别数量较大时;
(2)模型性能对描述的构建方式很敏感,人工生成的模板可能不是最优的。
为了解决这个问题,我们提出使用强化学习来自动生成描述。描述可以以提取的方式生成,提取输入文本的子字符串并将其作为描述,或者以抽象的方式,使用生成模型生成标记字符串并将其作为描述。该模型以端到端方式进行训练,共同学习生成适当的类描述,并为文本分配正确的类标签。
文本分类任务
考虑一个文本序列 x = { x 1 , x 2 , . . . , x L } x=\left \{x_1, x_2, ... ,x_L \right \} x={x1,x2,...,xL},其中L是文本序列的长度,每个x与一个类标签 y ∈ [ 1 , N ] y\in [1, N] y∈[1,N]相关联,单标签分类任务时y只取一个值,多标签分类任务y取多个值.
基于描述的文本分类形式化中,每个类y都有一个独特的自然语言描述 q y = { q y 1 , . . . , q y L } q_y = \left \{q_{y_1}, ... ,q_{y_L} \right \} qy={qy1,...,qyL}
训练一个二分类器来决定该标签描述y,是否应该分配给实例x,标签描述集合 q y q_y qy
方法:
将标签描述 q y q_y qy与文本进行结合, { [ C L S ] ; q y ; [ S E P ] ; x } \left \{[CLS]; q_y; [SEP]; x \right \} {[CLS];qy;[SEP];x}然后送入BERT,得到上下文表示 h [ C L S ] h[CLS] h[CLS], 然后通过sigmoid函数将 h [ C L S ] h[CLS] h[CLS]转换程0~1之间的数值,表示标签描述y被分配给文本x的概率;
对于将多个标签分配给一个实例x的任务,得到标签集
对于N标签描述的分类任务,一个实例x需要N个标签描述
建立标签描述
论文中构建了三种标签描述策略:模板策略、提取策略、抽象策略
使用不同策略构建的描述示例:
- 模板策略
参考文献: Entity-relation extraction as multi-turn ques-tion answering;Zero-shot relation extraction via reading comprehension
提取策略
因为模板策略存在(1)预先定义每个类别的描述的人工量较大,特别是当类别数量较大时;(2)模型性能对描述的构建方式很敏感,人工生成的模板可能不是最优的,这两大缺点,所以论文方法希望模型能够自己学会生成最合适的描述。提取模型
对于输入的本文 x = { x 1 ; . . . ; x T } x=\left \{x_1; ... ; x_T \right \} x={x1;...;xT}为每一个标签q生成一个描述 q y x q_{yx} qyx, 其中 q y x q_{yx} qyx是x的子串。对于输入的不同x,相同的类可以生成的不同的描述。同时对于生成的可匹配类别y的描述是x的字串,对于文本x中没有能匹配的类别y的子集时,论文设定了一个N虚拟token,如果提取模型输出的虚拟token,它将使用不同类别的手工制作的模板作为描述。
为了反向传播表明哪个字串对分类性能的贡献,论文使用强化学习的方法来获取更合适的字串作为类的描述。强化学习模型
动作
对于每个标签y,action表示在x中选择一个字串 { x i s ; . . . ; x i e } \left \{x_{i_s}; ... ; x_{i_e} \right \} {xis;...;xie}作为描述 q y x q_{yx} qyx,由于描述 q y x q_{yx} qyx是x的连续标记序列,因此仅需要选择起始索引 i s i_{s} is和终止索引 i e i_e ie
对于每一个标签y,选择其描述的起始索引 i s i_{s} is的概率 π \pi π, 对于x中的每一个子集 x k x_k xk, 将输入到BERT映射到一个表示 h k h_k hk, 然后给出 x i x_i xi作为描述 q y x q_{yx} qyx的起始描述:
最终子集 x k x_k xk作为描述 q y x q_yx qyx的概率表示为:
奖励函数:
这里的奖励值由前面章节中的分类模型给出
n表示x的最佳标签选择REINFORCE
为了找到最优策略,我们使用了加固算法, 这是一种使期望报酬最大化的策略梯度方法。对于每个生成的描述 q y x q_{yx} qyx对应的x,定义其损失函数为:
其中b为基线值,设置为之前所有奖励的平均值。初始化提取策略以生成虚拟token作为描述。然后基于奖励对提取模型和分类模型进行联合训练。抽象策略
生成模型使用seq2seq的方式,以x作为输入,为不同的x生成不同的描述 q y x q_{yx} qyx。
action and policy
对于每个类标签y,动作是生成的描述 q y x = { q 1 , . . . , q L } q_{yx}= \left \{q_{1}, ..., q_{L} \right \} qyx={q1,...,qL}, 策略 P s e q 2 s e q P_{seq2seq} Pseq2seq定义了给定x生成描述的整个字符串的概率。
论文使用Sequence level training with recurrent neural networks.方法训练抽象策略模型。
然后基于奖励对描述生成模型和分类模型进行联合训练。
实验
Description Based Text Classification with Reinforcement Learning相关推荐
- 综述:基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)
文章目录 综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...
- 深度学习文本分类文献综述(翻译自Deep Learning Based Text Classification: A Comprehensive Review)
深度学习文本分类文献综述 摘要 介绍 1. 文本分类任务 2.文本分类中的深度模型 2.1 Feed-Forward Neural Networks 2.2 RNN-Based Models 2.3 ...
- 论文列表——text classification
https://blog.csdn.net/BitCs_zt/article/details/82938086 列出自己阅读的text classification论文的列表,以后有时间再整理相应的笔 ...
- 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合
本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...
- 论文翻译 —— Episodic reinforcement learning with associative memory
标题:Episodic reinforcement learning with associative memory 文章链接:Episodic reinforcement learning with ...
- 【论文笔记】Adversarial Multi-task Learning for Text Classification
一.概要 该文章发于ACL 2017,针对于已有的大多数神经网络多任务学习模型进行文本分类,存在的共享特征(shared features)可能再次包含特定任务特征(task-specific f ...
- Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation 阅读笔记
Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation PyTorch实现:https://g ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
- 【论文 CCF C】An Adaptive Box-Normalization Stock Index Trading Strategy Based on Reinforcement Learning
论文题目:An Adaptive Box-Normalization Stock Index Trading Strategy Based on Reinforcement Learning 论文链接 ...
最新文章
- angula简单应用---购物篮
- 【模型解读】浅析RNN到LSTM
- C# 调用SQL的存储过程的接口及实现
- 位居行业第一,智能投影品牌坚果迎来3C数码零售行业的“扬眉曲线”?
- 莱斯大学找到了多被提升3G/4G网络性能的方法
- Qt creator5.7 OpenCV249之形态学处理(含源码下载)
- 可消费消息数量_战疫情!CKafka助力腾讯课堂百万消息实现稳定互动
- GeoServer地图开发解决方案(四):发布Web地图服务(WMS)篇
- DevOps组织中应用架构师的新定位与实践
- C++ 函数默认参数和占位参数
- linux查看内核分区,如何根据bootloader中MTD分区信息修改linux内核中的MTD分区
- 背景图片自适应大小(css3)
- Kafka 设计与原理详解(一)
- Tomcat环境配置 以及报错500的问题
- autojs通知栏_监听通知栏失败,请教大佬!
- gcat广告电商云南百收涉及传销新模式:社交电商消费返利
- 只想听歌曲的高潮部分?让我用python来教你做个音乐高潮提取器!
- 解决crx文件扩展程序chrome下载自动删除的问题
- 3500字归纳总结:一名合格的软件测试工程师需要掌握的技能大全
- html首行缩进2字符,可以使用CSS属性中的【text-indent】进行设置。