Description Based Text Classification with Reinforcement Learning

论文连接

文本分类通常分为两个阶段

文本特征提取
文本分类

在标准化形式中，类别仅代表了标签词汇表中的索引，模型缺乏关于分类内容的描述。

论文方法概述

论文提出了一个新的文本分类框架，其中每个类别标签都与一个类别描述相关联。描述是由手工制作的模板或使用强化学习的抽象/提取模型生成的。描述和文本的连接被提供给分类器，以决定是否应该将当前标签分配给文本。

文本分类任务: 将一个或多个类别标签分配给一个文本标记序列(情感分类、主题分类、垃圾邮件检测等)文本分类任务的这种标准形式化有一个内在的缺点:类别仅仅表示为标签词汇表中的索引，缺乏关于分类内容的明确说明。标签只能在监督信号反向传播到特征提取步骤提取的特征向量时影响训练过程。

文本中的类指示符，可能只是一两个关键词，可能被深埋在巨大的文本块中，使得模型很难从谷壳中分离出来。此外，不同类的信号可能会纠缠在文本中。

例如情感分类，一篇评论中可以包含对不同方面的情感表示，如clean updated room. friendly efficient staff . rate was too high.

论文提出了一个新的文本分类框架: 其关键点是将每个类与一个类描述关联起来，以便明确地告诉模型要分类什么。
例如：分类对一个酒店的描述内容是积极还是消极的，定义一个评价为 x = { x 1 , x 2 , . . . , x n } x=\left \{x_1, x_2, ... ,x_n \right \} x={x1,x2,...,xn} ，论文方法将对酒店的描述和内容的评价进行结合 [ C L S ] p o s i t i v e l o c a t i o n [ S E P ] x [CLS]positive location[SEP]x [CLS]positivelocation[SEP]x
通过明确描述的分类内容(标签)，迫使模型关注与标签相关的最显著的文本，这也可以被视为注意力。

该方法存在的难点与解决方案

这种方法的一个关键问题是如何获得类别描述，同时传统的方法存在一定缺点:
(1)预先定义每个类别的描述的人工量较大，特别是当类别数量较大时;
(2)模型性能对描述的构建方式很敏感，人工生成的模板可能不是最优的。

为了解决这个问题，我们提出使用强化学习来自动生成描述。描述可以以提取的方式生成，提取输入文本的子字符串并将其作为描述，或者以抽象的方式，使用生成模型生成标记字符串并将其作为描述。该模型以端到端方式进行训练，共同学习生成适当的类描述，并为文本分配正确的类标签。

文本分类任务

考虑一个文本序列 x = { x 1 , x 2 , . . . , x L } x=\left \{x_1, x_2, ... ,x_L \right \} x={x1,x2,...,xL},其中L是文本序列的长度，每个x与一个类标签 y ∈ [ 1 , N ] y\in [1, N] y∈[1,N]相关联，单标签分类任务时y只取一个值，多标签分类任务y取多个值.
基于描述的文本分类形式化中，每个类y都有一个独特的自然语言描述 q y = { q y 1 , . . . , q y L } q_y = \left \{q_{y_1}, ... ,q_{y_L} \right \} qy={qy1,...,qyL}

训练一个二分类器来决定该标签描述y，是否应该分配给实例x，标签描述集合 q y q_y qy
方法:
将标签描述 q y q_y qy与文本进行结合， { [ C L S ] ; q y ; [ S E P ] ; x } \left \{[CLS]; q_y; [SEP]; x \right \} {[CLS];qy;[SEP];x}然后送入BERT，得到上下文表示 h [ C L S ] h[CLS] h[CLS], 然后通过sigmoid函数将 h [ C L S ] h[CLS] h[CLS]转换程0~1之间的数值，表示标签描述y被分配给文本x的概率；

对于将多个标签分配给一个实例x的任务，得到标签集
对于N标签描述的分类任务，一个实例x需要N个标签描述

建立标签描述

论文中构建了三种标签描述策略：模板策略、提取策略、抽象策略
使用不同策略构建的描述示例:

模板策略

参考文献: Entity-relation extraction as multi-turn ques-tion answering；Zero-shot relation extraction via reading comprehension

提取策略
因为模板策略存在(1)预先定义每个类别的描述的人工量较大，特别是当类别数量较大时;(2)模型性能对描述的构建方式很敏感，人工生成的模板可能不是最优的，这两大缺点，所以论文方法希望模型能够自己学会生成最合适的描述。

提取模型
对于输入的本文 x = { x 1 ; . . . ; x T } x=\left \{x_1; ... ; x_T \right \} x={x1;...;xT}为每一个标签q生成一个描述 q y x q_{yx} qyx, 其中 q y x q_{yx} qyx是x的子串。对于输入的不同x，相同的类可以生成的不同的描述。同时对于生成的可匹配类别y的描述是x的字串，对于文本x中没有能匹配的类别y的子集时，论文设定了一个N虚拟token，如果提取模型输出的虚拟token，它将使用不同类别的手工制作的模板作为描述。
为了反向传播表明哪个字串对分类性能的贡献，论文使用强化学习的方法来获取更合适的字串作为类的描述。

强化学习模型
动作
对于每个标签y，action表示在x中选择一个字串 { x i s ; . . . ; x i e } \left \{x_{i_s}; ... ; x_{i_e} \right \} {xis;...;xie}作为描述 q y x q_{yx} qyx,由于描述 q y x q_{yx} qyx是x的连续标记序列，因此仅需要选择起始索引 i s i_{s} is和终止索引 i e i_e ie
对于每一个标签y，选择其描述的起始索引 i s i_{s} is的概率 π \pi π, 对于x中的每一个子集 x k x_k xk, 将输入到BERT映射到一个表示 h k h_k hk, 然后给出 x i x_i xi作为描述 q y x q_{yx} qyx的起始描述:

最终子集 x k x_k xk作为描述 q y x q_yx qyx的概率表示为:

奖励函数:
这里的奖励值由前面章节中的分类模型给出

n表示x的最佳标签选择

REINFORCE
为了找到最优策略，我们使用了加固算法, 这是一种使期望报酬最大化的策略梯度方法。对于每个生成的描述 q y x q_{yx} qyx对应的x，定义其损失函数为：

其中b为基线值，设置为之前所有奖励的平均值。初始化提取策略以生成虚拟token作为描述。然后基于奖励对提取模型和分类模型进行联合训练。
抽象策略
生成模型使用seq2seq的方式，以x作为输入，为不同的x生成不同的描述 q y x q_{yx} qyx。
action and policy
对于每个类标签y，动作是生成的描述 q y x = { q 1 , . . . , q L } q_{yx}= \left \{q_{1}, ..., q_{L} \right \} qyx={q1,...,qL}, 策略 P s e q 2 s e q P_{seq2seq} Pseq2seq定义了给定x生成描述的整个字符串的概率。

论文使用Sequence level training with recurrent neural networks.方法训练抽象策略模型。

然后基于奖励对描述生成模型和分类模型进行联合训练。

实验