bert模型可以做文本主题识别吗_网民情绪识别TOP3分享----科技战疫·大数据公益挑战赛...

摘要

针对赛题数据，本团队在数据处理部分采用数据去噪的方式保证了数据的整洁性；在模型构建部分使用了开源预训练模型，并通过预训练模型多层表示的动态权重融合方式对预训练模型进行修改，而后下接BILSTM和GRU两种异构模型来实现情绪识别；对于模型融合部分，用多异构单模的文字结果投票的方式融合，最终线上最高成绩为0.74537808，该成绩在线上的最终排名为第三名，与第一名的差距在十万分之4。

关键词

情感识别，多异构模型融合，预训练模型，动态融合

1 赛题分析

赛题要求从提供的给定微博ID和微博内容，设计算法对微博内容进行情绪识别，判断微博内容是积极的、消极的还是中性的，官方提供的数据中包含10万标注数据与90万无监督数据，其中数据字段如图1所示。

图1：数据字段

针对赛题数据集，本团队进行了较为详细的统计和分析。数据集中的文本长度分布如图2所示，其中文本最短长度为1，最大长度为241，平均长度为87。数据集中出现了部分噪音，包括一些HTML文字和特殊字符。

图2：验证集与测试集的文本长度分布

2 数据处理

2.1 无监督数据

因为经过去噪的无监督数据集99.9%的文本长度都在256以内，所以我们通过ROBERTA[1]预训练的方式，在ROBERTA-base模型的基础上，利用16G显存GPU对从90W数据得到的最大长度为256的语料进行再次预训练，将其作为新的预训练模型，并用于后期构建异构单模。

2.2有监督数据

因为训练集和测试集的文本经过去噪处理之后，得到的数据都在200以内，基于微博内容最大长度为140的原则，我们将Max Len设置成150，覆盖了绝大多数微博的内容，且短文本也加快了训练与推断的速度。

3模型方法

笔者尝试使用得到的预训练模型与Roberta预训练模型，分别下接BiGRU与BILSTM三种结构来构建文本匹配模型。最后，我们采用异构单模的结果投票进行多模融合。

3.1 BERT-BiGRU与BERT-BiLSTM

BERT预训练模型学习到的token向量输入这两种模型结构进行进一步学习，让模型更好的理解文本的上下关系，最终通过average pooling层并softmax输出分类结构。模型结构如图3所示。

图3：BERT-BiGRU/BiLSTM-Average Pooling

3.2 BERT多层表示的动态权重融合

Ganesh Jawahar等人[2]通过实验验证了BERT[3]每一层对文本的理解都有所不同。为此，我们对BERT进行了改写，将BERT的十二层transformer生成的表示赋予一个权重,权重的初始化如公式（1）所示，而后通过训练来确定权重值，并将每一层生成的表示加权平均，再通过一层全连接层降维至512维如公式（2）所示，最后结合之前的Bi-GRU和Bi-LSTM模型来获得多种异构单模。BERT多层表示的动态权重融合结构如图4所示。其中

为BERT每一层输出的表示，

为权重BERT每一层表示的权重值。

最后，笔者通过实验发现，BERT的动态融合作为模型embedding的成绩会优于BERT最后一层向量作为模型的embedding。因此，本次比赛笔者使用的异构单模均是使用BERT的动态融合向量作为模型的embedding。

3.3HireBert模型结构

我们团队后期还采用了上海交大提出的HireBert模型[4]。我们在Bert的12层的transformer_encoder的输出旁边放置了2层双向GRU，每一层的输出进过双向GRU后输入至unit为1的全连接层，用来学习每一层向量的权重。对每一层的权重与输出的向量加权相加，得到Hire的隐藏信息。融合层通过两个不同的功能步骤将HIRE提取的隐藏信息与Transformer最终层的输出进行整合，形成一种精细的语境化语言表示。其中，整合方式如公式（3）所示，模型结构如图5所示。

其中o是 Hadamard积（对应位置相乘），[;]是最后一维度的拼接。R为bert最后一层结构，A为提取出来的每一层的输出乘以训练的权重相加成一个[batchsize,seq_len,max_len]。其中每一层的权重由两个参数共享的双向GRU决定。得到的语境化表示的向量再接2层双向GRU筛选重要信息，接unit=3的全连接层进行3分类。

图5 Hire-BERT

3.4多分类F1阈值搜索[5]

我们通过训练集数据进行统计发现，标签-1:0:+1的比例为3:12:5，存在样本不均衡情况，我们通过多分类F1搜索，将得到的模型对验证集进行预测，并将预测值与真实值进行阈值搜索，找出一个权重，用于测试集的预测。最终的结果对比如下表：

3.5 模型融合

通过前几节的介绍，我们得到了多种类别的异构模型，并通过投票的方式进行融合。

4总结与展望

本次比赛笔者将预训练模型，Bi-GRU和BI-LSTM多模异构融合，BERT多层表示动态融合与Hire-BERT等方法，最终在线上排名第3名。

针对当前方案，笔者未来希望在如下几个方面进行改进：

1) 笔者对ROBERTA预训练并不算充分，在未来条件允许的情况下，笔者将继续预训练长度为256的语料，让预训练模型学习得更加充分。

2) 对BERT模型进行剪枝和蒸馏，以降低模型的时间与空间复杂度。

求个赞

关注我的微信公众号【阿力阿哩哩】~不定期更新相关专业知识~

喜欢就点个赞吧~

致谢

感谢CCF提供的这次比赛机会，让我们在参赛的过程中不断进步成长，收获新的知识。感谢团队成员们的不懈努力，使得比赛有了一个较为圆满的结果。感谢DataFountain平台的工作人员努力为比赛营造了公平公正的竞赛环境。

参考文献

[1] Liu Y , Ott M , Goyal N , et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[J]. 2019.

[2] Ganesh Jawahar, Benoît Sagot, Djamé Seddah. What does BERT learn about the structure of language?. ACL 2019 - 57th Annual Meeting of the Association for Computational Linguistics, Jul 2019, Florence, Italy. ffhal-02131630

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

[4] Yang J , Zhao H . Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding[J]. 2019.

[5] 显著提分trick之指标优化. https://zhuanlan.zhihu.com/p/106766826