目录
1绪论
1.1“智慧政务”文本挖掘的意义
1.2“智慧政务”文本挖掘的目标
1.3语言智能的里程碑技术:BERT 深度语言模型介绍
1.4本文的总体框架
1.5本文主要的创新之处
2基于 BERT 模型的留言自动分类
2.1任务介绍与实验数据集
2.2实验流程
2.3BERT 分类效果及其与其他模型的对比分析
3基于语义相似度与 BERT 命名实体识别的热点问题挖掘
3.1任务介绍与实验数据集
3.2无须预设聚类数目的 AP 聚类算法介绍
3.3热点问题总体挖掘流程
3.4热度评价指标 L 设计
3.5实验结果分析
4多特征融合的答复意见质量评价
4.1任务介绍与实验数据集
4.2答复意见的质量评价指标
4.3实验结果分析
5 结语
参考文献

1.绪论

1.1“智慧政务”文本挖掘的意义

近年来,随着“互联网+政务”服务的推进,市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时,随着大数据、云计算、人工智能特别是语言智能等技术的不断突破,建立起基于自然语言处理(Natural Language Processing, NLP) 技术的智慧政务系统,已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP 技术,批量、智能、高效地处理海量的政务文本,进而建立智能化的电子政务系统,是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平,增强人民群众的幸福感,促进社会和谐,都具有重大的积极意义。

1.2“智慧政务”文本挖掘的目标

“智慧政务”文本挖掘的目标主要包含 3 部分,分别是(1)群众留言的自动分类;(2)群众留言的热点话题发现;(3)留言答复意见的质量评价。

(1)群众留言的自动分类

许多网络问政平台,每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系,对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理,对症下药。目前,大部分政务系统的群众留言,还依赖于人工凭直觉分类。不仅工作量大、效率低,而且差错率高。因此,利用自然语言处理中的文本分类(Text classification)技术实现留言自动分类,能极大地减轻政务工作人员的负担。
(2)群众留言的热点话题发现
在海量的群众留言中,存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理,有利于分清民情诉求的轻重缓急,提升政府服务的质量与效率。这属于 NLP 中的话题检测与跟踪(Topic Detection and Tracking, TDT)的课题范畴。因此,我们需要探索如何从大量留言中,自动发现某一时段内群众集中反映的热点问题。

(3)留言答复意见的质量评价

对于每一条群众留言,政府工作人员会对其答复,回应问题的处理情况,告知相关政策规定,或提供建议意见等。自动地评价答复意见的质量,有助于将群众的诉求落到实处,改善政府的办事水平。因此,在论文的第四章,我们将融合 9 项指标,从相关性、完整性、可解释性、条理性等角度,自动地综合评价答复意见的质量。

1.3语言智能的里程碑技术:BERT 深度语言模型介绍

基于神经网络架构的深度学习算法由于其能自动提取数据特征,以及其强大的拟合泛化能力,已经在计算机视觉(CV)、自然语言处理(NLP)、机器人(robotics)、推荐系统(recommendation system)等多个人工智能领域取得了重大突破。自从 2013 年谷歌的Mikolov 团队提出词汇语义表示模型 word2vec[1]后, 海量文本中的每一个词都被表示为一个稠密、低维的实值向量,自然语言处理领域也进入了深度学习时代。

近年来,NLP 界以ELMo[2]、BERT[3]代表的预训练深度语言模型(Pre-trained Language Model)在以往神经网络模型的基础上,进一步改善了文本语义表示的效果,并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等 NLP 各项下游任务中取得了重大突破,频繁且大幅度刷新了之前地最好结果。例如 2018 年 Google 团队发布的 BERT 模型,在 11 项不同的 NLP 测试中, 均表现出最佳效果,将通用语言理解评估(GLUE)基准提升至 80.4%,超出以往最佳模型 7.6%[4]。以 BERT 为代表的深度语言模型已经成为 NLP 里程碑式的技术。

预训练深度模型应用于下游任务,主要分为两种策略:

一是基于特征的(feature based)策略,即固定的语言特征向量从模型中提取出来服务于后续任务,以ELMo 模型为代表。

二是微调(Fine-tuning)策略,即在模型顶部添加着眼于具体任务的分类层, 并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习(Transfer Learning),可以充分利用已训练的深度模型,迁移到新的任务上。与从零开始训练模型相比,微调不仅节省了大量的计算开销,也显著提高了模型的精度。而BERT 模型就是采用微调策略的预训练模型的代表[3]。

BERT (Bidirectional Encoder Representations from Transformers)是一种基于Transformer 架构的预训练深度学习语言模型,其结构主要如图 1 所示:

图 1 BERT 模型基本架构

以中文的 BERT 预训练模型为例,图 1 的 E1,E2,…EN 表示在首尾分别添加[CLS]和[SEP]标记的中文字符。它们依次经过 12 或 24 层双向的Transformer(Trm)编码器,就可以得到文本字符语境化的向量表示( Contextual Embedding)。 Transformer 是一个基于自注意力(self-attention)机制的编码-解码器[5]。最底层的 Transformer 编码器的输入为字符向量、字符位置向量与句子片段向量之和。模型内每一层均由多头自注意力(Multi-head Self-attention) 和前馈神经网络
(Feed-forward Neural Networks)两部分构成,前者使编码器在给每个字符编码时,能关注到周围其他字符的信息;后者用于增强模型的拟合能力。模型的每一层经过一个相加与归一化(add & norm)操作后,生成新的字符向量,作为下一层编码器的输入。顶层编码器输出的[CLS]标记的向量 T1,可以视为整个句子的语义表征;而顶层编码器输出的向量T2,T3……则分别是字符 E2,E3 语境化的向量表示。它们为文本分类、命名实体识别等后续任务提供了重要支撑。

另外,为增强语义表示的能力,BERT 提出了两个预训练的目标任务:遮罩语言模型(Masked LM, MLM)和下句预测(Next Sentence Prediction, NSP)。MLM实质是一个完型填空任务,中文语料中 15%的字会被选中,其中的 80%被替换为[MASK],10%被随机替换为另一个字,剩下的 10%保持原字。模型需要根据句中的其他字,生成被选中字位置的向量,经由一个线性分类器,预测被选中的字。被选中的 15%的字之所以没有全部替换为[MASK],是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑,BERT 需按一定的比例在预测的字的位置放置原字或者某个随机字,使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中,模型选择若干句子对,其中有 50%的概率两句相邻,50%的概率两句不相邻。模型通过上述两个目标任务,能够较好地学习到文本中字词和句间的语义信息。

考虑到 BERT 模型在语言智能领域的显著优势,本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调(Fine-tuning)的迁移学习策略,在文本分类、文本聚类、命名实体识别(Named Entity Recognition, NER)等具体任务上,充分发挥BERT 中文模型1的功效。

1.4本文的总体框架

本文的总体组织框架如下:

第1章 绪论

介绍“智慧政务”文本挖掘的意义和总体目标;介绍本文主要采用的深度语言模型 BERT 的原理;介绍本文的总体框架与主要创新点。

第2章 基于 BERT 模型的留言自动分类

首先,介绍该任务的目标与实验数据集;第二,设计基于 BERT 模型的留言自动分类算法;最后,对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果(各类的F1 值与整体的 F-score)。

第3章 基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

首先,介绍该任务的目标与实验数据集;第二,基于 BERT 模型,将每条留言的语义向量与命名实体2(Named Entity)作为特征表示;第三,利用基于图的 Affinity Propagation(AP)聚类算法,实现留言的无监督自动聚类;

最后,对于每个聚类后的话题(问题),综合考虑(1)话题时长、(2)话题包含的留言数量;(3)每条留言的点赞数与反对数 3 项指标,设计话题热度评价体系并予以实现。

第4章 多特征融合的答复意见质量评价

首先,介绍该任务的目标与实验数据集;第二,根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标,综合评价答复意见的质量。最后,在程序上实现质量评价系统, 并进行效果分析。

第5章 结语

总结本文的工作,展望今后的改进方向。

1.5本文主要的创新之处

(1)将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。基于BERT的留言分类模型明显优于前人的LSTM 模型与 Fasttext 模型。

(2)针对以往热点话题聚类模型健壮性(Robustness)差、效果不佳的问题, 提出了利用命名实体识别(NER)任务增强留言区分度的策略,进而显著改善了留言无监督聚类的效果。

(3)针对以往无监督聚类任务不知如何预设聚类数量的问题,采用了基于距离的 Affinity Propagation(AP,亲和力传播)的聚类算法。使得自动确定聚类数量成为可能,节省了大量的试错成本。

(4)从内容丰富度、答复相关度、答复专业性、答复时效性等角度,提出了“9 项合一”答复意见质量的评测方法。更加全面地反映了政府工作人员反馈群众留言的水平。

2.基于 BERT 模型的留言自动分类

2.1任务介绍与实验数据集

该任务属于自然语言处理中的文本分类任务。附件 2 包含了 9210 条群众在网络平台上发布的留言,分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。每条留言均包含留言主题、留言详情的
字段。我们将数据集打乱顺序后,按照 8:1:1 的比例,分别划分训练集、验证集和测试集。包括 BERT 在内的所有模型,均在相同的训练集、验证集上进行训练、调整超参数,并在相同的测试集上进行测试。

2.2实验流程

在输入的文本方面,考虑到 BERT 模型允许单一文本的最长长度为 512 个字符,加之有 Sun(2019)[6]等人的相关实验表明,长文本截取前 512 个字符,已能在BERT 模型中取得理想的分类效果,我们拼接了每一条留言的主题文本与详情文本,截取前 512 个字符作为模型的输入。

在超参数设置方面,我们参考 Sun(2019)[6]等人在 BERT 上的文本分类经验,如下设置超参数:学习率 lr=2e-5,衰变因子 ξ=0.95。此外,训练遵循早停(early stopping)原则,当模型的损失在验证集上不再下降,就视为模型在验证集上已经收敛,可以停止训练。这能够有效地避免过拟合(Overfitting)问题,保证模型的泛化能力以及在测试集上的表现。

如 1.3 节所述,对于文本分类任务,BERT 模型提取顶层的符号[CLS]的特征向量 v(768 维),作为整个文本的特征表示,再后接一个 768*n 的全连接层(Fully- connected layer)W(n 为文本类别数),最后通过 softmax 函数归一化,输出一个文本分别属于各个类别c 的概率:

P(c∣v)=softmax(W⋅v)P(c|v) = softmax(W·v)P(cv)=softmax(Wv)

其中softmax 函数:

softmax(Xc)=exp(xc)∑i=1nexp(xi)softmax(X_c) =\frac{exp(x_c)}{\sum_{i=1}^{n}exp(x_i)}softmax(Xc)=i=1nexp(xi)exp(xc)

在训练过程中,模型会调整全连接层 W 以及BERT 12 层模型的参数,使得每个文本的正确类别所对应的概率最大化。

图 2 BERT 模型在验证集上的损失变化图

如图 2 所示,当 BERT 模型在训练第 3 轮(epoch)时,在验证集上的损失开始上升。
图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况

图 3 关于 BERT 模型在验证集上的正确率(accuracy)变化情况也表明,在第 2 轮训练时,分类的正确率较前一次明显提升约 0.76%;但第 3 轮训练的accuracy 提升已不明显。因此,综合模型在验证集上的损失与正确率,根据早停
(early stopping)原则,我们认为第 2 轮训练结束后的BERT 分类模型已经收敛,可以作为最终模型。

2.3BERT 分类效果及其与其他模型的对比分析

最终收敛的BERT 模型在测试集上测试的结果如表 1 所示:

表 1: BERT 模型在测试集上的各类分类效果

为证明 BERT 模型在留言分类任务上的良好能力,我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线(baseline)模型,比较 BERT 与基线模型的效果。

LSTM 模型作为循环神经网络(RNN)的变种,是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷,成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似,输入的文本经过 LSTM 隐层后,通过 softmax 归一化层,对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。

Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示,它包含 3 个部分:input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先;输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次,隐藏层将向量特征求和取平均,并采用单层神经网络学习。最后在输出层,通过一个线性分类器,输出一个文本分别属于各类别的概率[8]。

图 4 Fasttext 文本分类模型的基本结构


表 2: LSTM 与 Fasttext 模型的超参数设置情况

LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。

文本分类通用评价指标为查准率(Precision, P)、查全率(Recall, R)与 F1值。如表 3 所示,各模型在测试集上预测了每条留言所属的类别后,可以得到一个分类结果的混淆矩阵:

表 3 分类结果混淆矩阵

已知每一类的混淆矩阵后,该类的查准率、查全率如下两式计算:

查准率P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP

查全率R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP

F1 值综合了上述两个指标,是它们的调和均值:
F1=2∗P∗RP+RF1=\frac{2*P*R}{P+R}F1=P+R2PR

如果要评测一个模型在综合的分类能力,可用F-Score 衡量:

F−score=1n∑i=1n2PiRiPi+RiF-score =\frac{1}{n}\sum_{i=1}^n \frac{2P_iR_i}{P_i+R_i}Fscore=n1i=1nPi+Ri2PiRi

其中 n 为类别数量,

2020第八届“泰迪杯”特等奖(基于 BERT 深度语言模型的“智慧政务”文本挖掘应用)相关推荐

  1. 2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享

    5.2问题二模型的建立与求解 本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题.也就是给每一条留言都量化一个热度指数.并且根据热度指数进行排序,从而获取热度较高的评价问题.对于问题热 ...

  2. 第八届“泰迪杯”数据挖掘挑战赛的一点心得

    第八届"泰迪杯"数据挖掘挑战赛的一点心得 前言   大三下学期,我和我的两位队友一起参加了第八届"泰迪杯"数据挖掘挑战赛,我们选择了C题--"智慧政务 ...

  3. 第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文(基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析)

    目 录 第一章 引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述 第二章 群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...

  4. 大数据分析练习-第八届泰迪杯A题-基于数据挖掘的上市公司高送转预测

    报告书-pdf 本实验在Anaconda环境下进行编程,使用jupyter. 具体有以下注意点: 文件结构 : 主文件目录 - |-- Main.ipynb 主文件 ​ |-- ReadMe.md ​ ...

  5. 第八届泰迪杯优秀论文B题(基于Mask R-CNN 及Yolov4 的电力巡检中绝缘子缺陷研究)

    目录 一. 绪论 1 1.1研究背景 1 1.2国内研究现状 1 1.3研究目标及流程 1 二. 数据预处理 3 2.1图像分割 3 2.2图像金字塔 4 2.3数据增强 4 2.4归一化图像大小 5 ...

  6. “泰迪杯” 挑战赛 - 基于市场资金流向分析的商品期货量化交易策略(附suibian代码)

    目录 基于市场资金流向分析的 Suibian 期货策略 摘要 1 问题重述 1.1 问题重述 2 符号说明及名字定义 3 问题分析与求解 3.1 资金流向指标的定义 3.2 持仓量.成交量和价格的关系 ...

  7. “泰迪杯”挑战赛 - 基于用户协同过滤算法的电影推荐系统(附算法代码)

    目录 第 1 章 绪论 1.1.研究背景 1.2.国际发展形势第 2 章 基于用户协同过滤推荐技术 第 2 章 基于用户协同过滤推荐技术 2.1 电子商务推荐系统概述 2.2 协同过滤推荐技术 第 3 ...

  8. “泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解针对日常电器的电力数据挖掘

    目录 1.挖掘目标 2.分析方法与过程 2.1 问题 1 分析方法与过程 2.1.1 单个设备运行特征 2.1.2 实时用电量计算 2.2 问题 2 分析方法与过程 2.2.1 流程图 2.2.2 基 ...

  9. “泰迪杯”挑战赛 - 基于Java的面向网络舆情的关联度分析(附算法代码)

    目 录 研究目标 分析方法与过程 2.1. 总体流程 2.2. 具体步骤 2.3. 结果分析 结论 参考文献 1. 挖掘目标 本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给 ...

最新文章

  1. Autodesk 产品二次开发技术研讨会将在上海广州北京相继举行
  2. 使用VMware VSphere WebService SDK进行开发 (七)——获取数据中心、集群、主机、虚拟机的目录结构
  3. 初级开发人员的缺点_在您作为初级开发人员的第一年获得此建议
  4. Oracle多表连接查询
  5. android工程改包名及多工程设置
  6. spring相互依赖怎么解决_被问到Spring循环依赖怎么解决?秀给面试官看!内附图解...
  7. ios开发之验证你的服务器ATS是否PASS
  8. Opencv环境配置
  9. 服务器打补丁重启时候系统掉,服务器自动重启我的服务器windowssever高级版,但每次开 爱问知识人...
  10. python初级课程-辛舒展-专题视频课程
  11. java 常用框架MP
  12. AI火爆干货最全整理!五套深度学习和算法学习教程和三套Python学习视频!!!限时无套路免费领取!...
  13. 怎么在微信公众平台上传PPT?
  14. BIM的发展现状与技术优势
  15. 一文读懂 协方差矩阵
  16. Python爬虫学习(十一)下载验证码图片
  17. PoE交换机的多种连接方式 PoE交换机的4种连接方式
  18. android wcf 上传文件,第二篇 ( wcf 与 android 图片上传下载)
  19. 重新启动SQLSever服务
  20. 深度学习前沿算法思想

热门文章

  1. 如何加入家庭组计算机打印机,解决方案:Win7系统设置家庭组计算机设置共享打印机...
  2. 算法:找出1-10000之间的所有素数
  3. sourctree Commit merged changes immediately选项解读
  4. mapping 映射的简单操作
  5. Log4j的基本应用
  6. GlobalSign证书有哪些基本好处
  7. 人工智能导论练习题(上)
  8. 怎么将图片kb压缩变小?
  9. 边缘计算在视频直播场景的应用与实践
  10. K8s 集群节点在线率达到 99.9% 以上,扩容效率提升 50%,我们做了这 3 个深度改造...