目录
1绪论
1.1“智慧政务”文本挖掘的意义
1.2“智慧政务”文本挖掘的目标
1.3语言智能的里程碑技术：BERT 深度语言模型介绍
1.4本文的总体框架
1.5本文主要的创新之处
2基于 BERT 模型的留言自动分类
2.1任务介绍与实验数据集
2.2实验流程
2.3BERT 分类效果及其与其他模型的对比分析
3基于语义相似度与 BERT 命名实体识别的热点问题挖掘
3.1任务介绍与实验数据集
3.2无须预设聚类数目的 AP 聚类算法介绍
3.3热点问题总体挖掘流程
3.4热度评价指标 L 设计
3.5实验结果分析
4多特征融合的答复意见质量评价
4.1任务介绍与实验数据集
4.2答复意见的质量评价指标
4.3实验结果分析
5 结语
参考文献

1.绪论

1.1“智慧政务”文本挖掘的意义

近年来，随着“互联网+政务”服务的推进，市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时，随着大数据、云计算、人工智能特别是语言智能等技术的不断突破，建立起基于自然语言处理（Natural Language Processing, NLP）技术的智慧政务系统，已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP 技术，批量、智能、高效地处理海量的政务文本，进而建立智能化的电子政务系统，是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平，增强人民群众的幸福感，促进社会和谐，都具有重大的积极意义。

1.2“智慧政务”文本挖掘的目标

“智慧政务”文本挖掘的目标主要包含 3 部分，分别是（1）群众留言的自动分类；（2）群众留言的热点话题发现；（3）留言答复意见的质量评价。

（1）群众留言的自动分类

许多网络问政平台，每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系，对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理，对症下药。目前，大部分政务系统的群众留言，还依赖于人工凭直觉分类。不仅工作量大、效率低，而且差错率高。因此，利用自然语言处理中的文本分类（Text classification）技术实现留言自动分类，能极大地减轻政务工作人员的负担。
（2）群众留言的热点话题发现
在海量的群众留言中，存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理，有利于分清民情诉求的轻重缓急，提升政府服务的质量与效率。这属于 NLP 中的话题检测与跟踪（Topic Detection and Tracking， TDT）的课题范畴。因此，我们需要探索如何从大量留言中，自动发现某一时段内群众集中反映的热点问题。

（3）留言答复意见的质量评价

对于每一条群众留言，政府工作人员会对其答复，回应问题的处理情况，告知相关政策规定，或提供建议意见等。自动地评价答复意见的质量，有助于将群众的诉求落到实处，改善政府的办事水平。因此，在论文的第四章，我们将融合 9 项指标，从相关性、完整性、可解释性、条理性等角度，自动地综合评价答复意见的质量。

1.3语言智能的里程碑技术：BERT 深度语言模型介绍

基于神经网络架构的深度学习算法由于其能自动提取数据特征，以及其强大的拟合泛化能力，已经在计算机视觉（CV）、自然语言处理（NLP）、机器人（robotics）、推荐系统（recommendation system）等多个人工智能领域取得了重大突破。自从 2013 年谷歌的Mikolov 团队提出词汇语义表示模型 word2vec[1]后，海量文本中的每一个词都被表示为一个稠密、低维的实值向量，自然语言处理领域也进入了深度学习时代。

近年来，NLP 界以ELMo[2]、BERT[3]代表的预训练深度语言模型（Pre-trained Language Model）在以往神经网络模型的基础上，进一步改善了文本语义表示的效果，并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等 NLP 各项下游任务中取得了重大突破，频繁且大幅度刷新了之前地最好结果。例如 2018 年 Google 团队发布的 BERT 模型，在 11 项不同的 NLP 测试中，均表现出最佳效果，将通用语言理解评估（GLUE）基准提升至 80.4%，超出以往最佳模型 7.6%[4]。以 BERT 为代表的深度语言模型已经成为 NLP 里程碑式的技术。

预训练深度模型应用于下游任务，主要分为两种策略：

一是基于特征的（feature based）策略，即固定的语言特征向量从模型中提取出来服务于后续任务，以ELMo 模型为代表。

二是微调（Fine-tuning）策略，即在模型顶部添加着眼于具体任务的分类层，并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习（Transfer Learning），可以充分利用已训练的深度模型，迁移到新的任务上。与从零开始训练模型相比，微调不仅节省了大量的计算开销，也显著提高了模型的精度。而BERT 模型就是采用微调策略的预训练模型的代表[3]。

BERT (Bidirectional Encoder Representations from Transformers）是一种基于Transformer 架构的预训练深度学习语言模型，其结构主要如图 1 所示：

图 1 BERT 模型基本架构

以中文的 BERT 预训练模型为例，图 1 的 E1,E2,…EN 表示在首尾分别添加[CLS]和[SEP]标记的中文字符。它们依次经过 12 或 24 层双向的Transformer（Trm）编码器，就可以得到文本字符语境化的向量表示（ Contextual Embedding）。 Transformer 是一个基于自注意力（self-attention）机制的编码-解码器[5]。最底层的 Transformer 编码器的输入为字符向量、字符位置向量与句子片段向量之和。模型内每一层均由多头自注意力(Multi-head Self-attention) 和前馈神经网络
（Feed-forward Neural Networks）两部分构成，前者使编码器在给每个字符编码时，能关注到周围其他字符的信息；后者用于增强模型的拟合能力。模型的每一层经过一个相加与归一化（add & norm）操作后，生成新的字符向量，作为下一层编码器的输入。顶层编码器输出的[CLS]标记的向量 T1，可以视为整个句子的语义表征；而顶层编码器输出的向量T2,T3……则分别是字符 E2,E3 语境化的向量表示。它们为文本分类、命名实体识别等后续任务提供了重要支撑。

另外，为增强语义表示的能力，BERT 提出了两个预训练的目标任务：遮罩语言模型（Masked LM, MLM）和下句预测（Next Sentence Prediction, NSP）。MLM实质是一个完型填空任务，中文语料中 15%的字会被选中，其中的 80%被替换为[MASK]，10%被随机替换为另一个字，剩下的 10%保持原字。模型需要根据句中的其他字，生成被选中字位置的向量，经由一个线性分类器，预测被选中的字。被选中的 15%的字之所以没有全部替换为[MASK]，是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑，BERT 需按一定的比例在预测的字的位置放置原字或者某个随机字，使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中，模型选择若干句子对，其中有 50%的概率两句相邻，50%的概率两句不相邻。模型通过上述两个目标任务，能够较好地学习到文本中字词和句间的语义信息。

考虑到 BERT 模型在语言智能领域的显著优势，本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调（Fine-tuning）的迁移学习策略，在文本分类、文本聚类、命名实体识别（Named Entity Recognition, NER）等具体任务上，充分发挥BERT 中文模型1的功效。

1.4本文的总体框架

本文的总体组织框架如下：

第1章绪论

介绍“智慧政务”文本挖掘的意义和总体目标；介绍本文主要采用的深度语言模型 BERT 的原理；介绍本文的总体框架与主要创新点。

第2章基于 BERT 模型的留言自动分类

首先，介绍该任务的目标与实验数据集；第二，设计基于 BERT 模型的留言自动分类算法；最后，对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果（各类的F1 值与整体的 F-score）。

第3章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

首先，介绍该任务的目标与实验数据集；第二，基于 BERT 模型，将每条留言的语义向量与命名实体2（Named Entity）作为特征表示；第三，利用基于图的 Affinity Propagation（AP）聚类算法，实现留言的无监督自动聚类；

最后，对于每个聚类后的话题（问题），综合考虑（1）话题时长、（2）话题包含的留言数量；（3）每条留言的点赞数与反对数 3 项指标，设计话题热度评价体系并予以实现。

第4章多特征融合的答复意见质量评价

首先，介绍该任务的目标与实验数据集；第二，根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标，综合评价答复意见的质量。最后，在程序上实现质量评价系统，并进行效果分析。

第5章结语

总结本文的工作，展望今后的改进方向。

1.5本文主要的创新之处

（1）将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。基于BERT的留言分类模型明显优于前人的LSTM 模型与 Fasttext 模型。

（2）针对以往热点话题聚类模型健壮性（Robustness）差、效果不佳的问题，提出了利用命名实体识别（NER）任务增强留言区分度的策略，进而显著改善了留言无监督聚类的效果。

（3）针对以往无监督聚类任务不知如何预设聚类数量的问题，采用了基于距离的 Affinity Propagation（AP，亲和力传播）的聚类算法。使得自动确定聚类数量成为可能，节省了大量的试错成本。

（4）从内容丰富度、答复相关度、答复专业性、答复时效性等角度，提出了“9 项合一”答复意见质量的评测方法。更加全面地反映了政府工作人员反馈群众留言的水平。

2.基于 BERT 模型的留言自动分类

2.1任务介绍与实验数据集

该任务属于自然语言处理中的文本分类任务。附件 2 包含了 9210 条群众在网络平台上发布的留言，分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。每条留言均包含留言主题、留言详情的
字段。我们将数据集打乱顺序后，按照 8:1:1 的比例，分别划分训练集、验证集和测试集。包括 BERT 在内的所有模型，均在相同的训练集、验证集上进行训练、调整超参数，并在相同的测试集上进行测试。

2.2实验流程

在输入的文本方面，考虑到 BERT 模型允许单一文本的最长长度为 512 个字符，加之有 Sun（2019）[6]等人的相关实验表明，长文本截取前 512 个字符，已能在BERT 模型中取得理想的分类效果，我们拼接了每一条留言的主题文本与详情文本，截取前 512 个字符作为模型的输入。

在超参数设置方面，我们参考 Sun（2019）[6]等人在 BERT 上的文本分类经验，如下设置超参数：学习率 lr=2e-5，衰变因子 ξ=0.95。此外，训练遵循早停（early stopping）原则，当模型的损失在验证集上不再下降，就视为模型在验证集上已经收敛，可以停止训练。这能够有效地避免过拟合（Overfitting）问题，保证模型的泛化能力以及在测试集上的表现。

如 1.3 节所述，对于文本分类任务，BERT 模型提取顶层的符号[CLS]的特征向量 v（768 维），作为整个文本的特征表示，再后接一个 768*n 的全连接层（Fully- connected layer）W（n 为文本类别数），最后通过 softmax 函数归一化，输出一个文本分别属于各个类别c 的概率：

$P (c ∣ v) = s o f t m a x (W \cdot v)$

其中softmax 函数：

$softmax(Xc)=exp(xc)∑i=1nexp(xi)softmax(X_c) =\frac{exp(x_c)}{\sum_{i=1}^{n}exp(x_i)}$

在训练过程中，模型会调整全连接层 W 以及BERT 12 层模型的参数，使得每个文本的正确类别所对应的概率最大化。

图 2 BERT 模型在验证集上的损失变化图

如图 2 所示，当 BERT 模型在训练第 3 轮（epoch）时，在验证集上的损失开始上升。
图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况

图 3 关于 BERT 模型在验证集上的正确率（accuracy）变化情况也表明，在第 2 轮训练时，分类的正确率较前一次明显提升约 0.76%；但第 3 轮训练的accuracy 提升已不明显。因此，综合模型在验证集上的损失与正确率，根据早停
（early stopping）原则，我们认为第 2 轮训练结束后的BERT 分类模型已经收敛，可以作为最终模型。

2.3BERT 分类效果及其与其他模型的对比分析

最终收敛的BERT 模型在测试集上测试的结果如表 1 所示：

表 1: BERT 模型在测试集上的各类分类效果

为证明 BERT 模型在留言分类任务上的良好能力，我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线（baseline）模型，比较 BERT 与基线模型的效果。

LSTM 模型作为循环神经网络（RNN）的变种，是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷，成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似，输入的文本经过 LSTM 隐层后，通过 softmax 归一化层，对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。

Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示，它包含 3 个部分：input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先；输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次，隐藏层将向量特征求和取平均，并采用单层神经网络学习。最后在输出层，通过一个线性分类器，输出一个文本分别属于各类别的概率[8]。

图 4 Fasttext 文本分类模型的基本结构

表 2: LSTM 与 Fasttext 模型的超参数设置情况

LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。

文本分类通用评价指标为查准率（Precision, P）、查全率（Recall, R）与 F1值。如表 3 所示，各模型在测试集上预测了每条留言所属的类别后，可以得到一个分类结果的混淆矩阵：

表 3 分类结果混淆矩阵

已知每一类的混淆矩阵后，该类的查准率、查全率如下两式计算：

查准率 $P=TPTP+FPP=\frac{TP}{TP+FP}$

查全率 $R=TPTP+FNR=\frac{TP}{TP+FN}$

F1 值综合了上述两个指标，是它们的调和均值：
$F1=2∗P∗RP+RF1=\frac{2*P*R}{P+R}$

如果要评测一个模型在综合的分类能力，可用F-Score 衡量：

$=\frac{1}{n}\sum_{i=1}^n \frac{2P_iR_i}{P_i+R_i}$

其中 n 为类别数量，

2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）相关推荐

2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享
5.2问题二模型的建立与求解本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题.也就是给每一条留言都量化一个热度指数.并且根据热度指数进行排序,从而获取热度较高的评价问题.对于问题热 ...
第八届“泰迪杯”数据挖掘挑战赛的一点心得
第八届"泰迪杯"数据挖掘挑战赛的一点心得前言大三下学期,我和我的两位队友一起参加了第八届"泰迪杯"数据挖掘挑战赛,我们选择了C题--"智慧政务 ...
第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文（基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析）
目录第一章引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述第二章群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...
大数据分析练习-第八届泰迪杯A题-基于数据挖掘的上市公司高送转预测
报告书-pdf 本实验在Anaconda环境下进行编程,使用jupyter. 具体有以下注意点: 文件结构 : 主文件目录 - |-- Main.ipynb 主文件 |-- ReadMe.md ...
第八届泰迪杯优秀论文B题（基于Mask R-CNN 及Yolov4 的电力巡检中绝缘子缺陷研究）
目录一. 绪论 1 1.1研究背景 1 1.2国内研究现状 1 1.3研究目标及流程 1 二. 数据预处理 3 2.1图像分割 3 2.2图像金字塔 4 2.3数据增强 4 2.4归一化图像大小 5 ...
“泰迪杯” 挑战赛 - 基于市场资金流向分析的商品期货量化交易策略（附suibian代码）
目录基于市场资金流向分析的 Suibian 期货策略摘要 1 问题重述 1.1 问题重述 2 符号说明及名字定义 3 问题分析与求解 3.1 资金流向指标的定义 3.2 持仓量.成交量和价格的关系 ...
“泰迪杯”挑战赛 - 基于用户协同过滤算法的电影推荐系统(附算法代码)
目录第 1 章绪论 1.1.研究背景 1.2.国际发展形势第 2 章基于用户协同过滤推荐技术第 2 章基于用户协同过滤推荐技术 2.1 电子商务推荐系统概述 2.2 协同过滤推荐技术第 3 ...
“泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解针对日常电器的电力数据挖掘
目录 1.挖掘目标 2.分析方法与过程 2.1 问题 1 分析方法与过程 2.1.1 单个设备运行特征 2.1.2 实时用电量计算 2.2 问题 2 分析方法与过程 2.2.1 流程图 2.2.2 基 ...
“泰迪杯”挑战赛 - 基于Java的面向网络舆情的关联度分析（附算法代码）
目录研究目标分析方法与过程 2.1. 总体流程 2.2. 具体步骤 2.3. 结果分析结论参考文献 1. 挖掘目标本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给 ...

2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）

1.绪论

1.1“智慧政务”文本挖掘的意义

1.2“智慧政务”文本挖掘的目标

（1）群众留言的自动分类

（3）留言答复意见的质量评价

1.3语言智能的里程碑技术：BERT 深度语言模型介绍

1.4本文的总体框架

第1章绪论

第2章基于 BERT 模型的留言自动分类

第3章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

第4章多特征融合的答复意见质量评价

第5章结语

1.5本文主要的创新之处

2.基于 BERT 模型的留言自动分类

2.1任务介绍与实验数据集

2.2实验流程

2.3BERT 分类效果及其与其他模型的对比分析

2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）相关推荐

最新文章

热门文章

2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）

1.绪论

1.1“智慧政务”文本挖掘的意义

1.2“智慧政务”文本挖掘的目标

（1）群众留言的自动分类

（3）留言答复意见的质量评价

1.3语言智能的里程碑技术：BERT 深度语言模型介绍

1.4本文的总体框架

第1章 绪论

第2章 基于 BERT 模型的留言自动分类

第3章 基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

第4章 多特征融合的答复意见质量评价

第5章 结语

1.5本文主要的创新之处

2.基于 BERT 模型的留言自动分类

2.1任务介绍与实验数据集

2.2实验流程

2.3BERT 分类效果及其与其他模型的对比分析

2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）相关推荐

最新文章

热门文章

第1章绪论

第2章基于 BERT 模型的留言自动分类

第3章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

第4章多特征融合的答复意见质量评价

第5章结语