2020 泰迪杯 C 题，含数据代码

思路
第一问
- 数据预处理
- - 二元语法
  - 词袋模型
分类模型
- 机器学习方法
- 多层感知器
- 模型
- 结果
第二问
- 数据预处理
- - 分词
  - 停用词过滤
  - 词袋模型
  - PCA 降维
- 热度挖掘
- - 话题——聚类
- 热点描述
第三问
- 答复相关性
- - 词向量
  - 相似度计算
- 答复完整性（代码没有实现）
代码与提问

本人专挑数据挖掘、机器学习和 NLP 类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。

本人不会回访，不互关，不互吹，以及谢绝诸如此类事

赛题官网：https://www.tipdm.org/
返回目录

思路

具体思路请见：https://blog.csdn.net/weixin_42141390/article/details/106069244

返回目录

第一问

数据预处理

首先打开附件 2：

然后以留言详情为输入数据，以一级标签为输出标签，于是问题转换为一个文本分类的问题。因此，我们需要将非结构型文本数据转换为结构型文本数据（表格）；将文本标签（一级标签）转换为自然数，以表示类别，如下所示：

返回目录

二元语法

对于输入文本，首先用二元语法对文本进行拆分，如下所示：

返回目录

词袋模型

进行二元语法拆分后，我们需要进行特征提取，将上述文本结构转换为结构化数据。我们将上述所有的数据的取值作为表头，每一条数据，在某一列的取值为，其对应的二元字符，出现的频次。

如第 0 条数据，列 “3区” 的取值 1；列“尊敬” 的取值为 0。不过，在实际编程上，可定不能直接用一个表格表示，因为转换后的数据必然是极其稀疏的稀疏表格。并且，直接用中文字符来作为列名，也十分浪费存储空间。本人曾经试过，若转换为稀疏表格，则将占用 40 GB… 而我的小电脑才 8 GB 内存呀…

于是这里用稀疏矩阵的方式来存储，比如将第一行存储为：

[(0, 1),(1, 1),(2, 1),(3, 1),
...(90, 1),(91, 1),(92, 1)]

第二行存储为：

[(7, 1),
(26, 1),
(73, 1),
(77, 1),
(93, 1),
...
(163, 1),
(164, 1),
(165, 1)]

转换为稀疏矩阵后，由于输入特征的数量很多，容易造成维度灾难，所以需要采用一些过滤方法。这里采用卡方检测法：卡方检测法用于检测两个分布是否独立，我们可以遍历每一个输入特征，与标签做卡方检测，若证明独立，则可以排除掉当前特征。

这里设置卡方检测的显著水平为 0.001，原假设为当前输入特征与标签是独立的。可得，那些保留下来的特征共 30291 个。

最后的出来的数据集为，一个 9210X30291 的稀疏矩阵：

返回目录

分类模型

机器学习方法

根据“没有免费午餐定律”，我们首先从如下模型中筛选最佳模型：

算法	逻辑回归	k近邻算法	朴素贝叶斯分类器	支持向量机分类	决策树	随机森林	AdaBoost
符号	lg	knn	nb	svc	dtc	rf	ada

但在此之前，先结合交叉验证，网格寻优寻找最合适参数，参数网格和筛选结果如下：（其中随机森林的基函数为最大深度为 5 的决策树； AdaBoost 的基模型为逻辑回归模型）

然后，在根据 5 折交叉验证，计算最合适参数下，各模型的 F1 如下：

从各模型的 F1 的均值可以剔除决策树、随机森林和 kNN。剩下的模型差别均不大。但是，人们不能贸然地认为这些模型在效果上是等价的。因此，为了判断这些模型是否等价，还需要采用 T 检验的方法。我们对上述保留下来的模型进行两两 T 检验：（原假设为均值相等）

可见，这些模型都是等价的。但由于 AdaBoost 耗费资源最多，训练时长过长，运行时间过长，不建议选用。

个人觉得，除了 AdaBoost 之外，其他模型的性能如下表：

模型	占用空间	训练时长	运行时间
lg	***	**	**
svc	***	*	*
nb	*	**	***

* 越多越好

分别训练三个模型，并将数据集按 7:3 拆分为训练集、测试集，测出模型在训练集、测试集中的 F1 值如下所示：

返回目录

多层感知器

模型

因为我们将分类标签视为 0/1/2 等自然数，所以这里可将分类问题看成一个回归问题。（这也是一种解题思路吧，其实就是本人太懒了…）

当然，如果你想要按分类问题来做，那么利用深度学习的方法的话，你就必须进行 one-hot 编码了！

设置网络的拓扑结构如下：

训练算法为：Adam；评价指标为：均方误差（MSE）；损失函数也是均方误差。同时，对每一层隐藏层加上一个 dropout 率为 0.1 的 Dropout 正则化。

返回目录

结果

第二问

数据预处理

要从每一个群众的留言中，收集某一时间段内群众集中反映的问题，显然属于一个文本聚类的问题。如果将群众相似的留言聚成一簇，即可将簇视为某个集中问题。根据该簇包含的留言条数、支持和反对的总数，并考虑其热度随时间的衰减，即可估计该问题的热度。

为了提取出聚类簇中留言的问题描述，以及地点和人群。这里考虑使用关键语句提取算法，从而自动生成关键句，再从关键句中人工提取出地点和人群。籍此就可以降低直接从留言详情中，人工提取问题概述的工作量。

返回目录

分词

首先，我们用一个条件随机场来分词。当然，条件随机场是一个序列标注模型，属于机器学习的一部分。为了训练一个条件随机场的分词模型，我们用了开源的分词数据集 MSR，最后训练出以条件随机场分词模型。

以附件 3 的第一条为例，用条件随机场分词结果如下：

[座落, 在, A市, A, 3区联丰路米兰春天G2栋320, ，, 一家, 名, 叫, 一米, 阳光, 婚纱, 艺术, 摄影, 的, 影楼, ，, 据说, 年单, 这, 一个, 工作, 室, 营业额, 就, 上百万, ，, 因为, 地处, 居民, 楼, 内部, ，, 而且, 有, 蛮长, 的, 时间, 了, ，, 请, 税务局, 和, 工商局, 查, 一下, ，, 看看, 这个, 一米, 阳光, 有没有, 正常, 纳税, ！, 如果, 没有, ，, 应该, 会, 怎么, 操作, ！]

返回目录

停用词过滤

采用双向匹配法，运用 hanlp 自带的停用词字典，过滤掉那些没有意义的词和符号：


['座落', 'A市', 'A', '3区联丰路米兰春天G2栋320', '一家', '一米', '阳光', '婚纱', '艺术', '摄影', '影楼', '据说', '年单', '工作', '室', '营业额', '上百万', '地处', '居民', '楼', '内部', '蛮长', '时间', '请', '税务局', '工商局', '查', '看看', '一米', '阳光', '有没有', '正常', '纳税', '没有', '应该', '会', '操作']

返回目录

词袋模型

和第一问一样，我们依旧是用词的频次作为每一个特征的取值，以第一条为例，其值为：

{0: 1,1: 1,2: 1,
...32: 1,33: 1,34: 2}

第二条其值为：

{1: 3,2: 1,6: 1,15: 1,26: 1,
...76: 1,77: 2,78: 2}

词袋模型有很多，除了单纯地使用频次外，还有使用 TF-IDF 的，但是使用 TF-IDF，会破坏数据的稀疏性，从而导致无法处理，所以这里只能采用频次，但没关系，能够用就可以。

返回目录

PCA 降维

数据的特征个数，经过分词、停用词过滤、词袋模型之后，共有 42754 个。我们将其降低至 1000 个，同时计算其贡献和累计贡献，图如下：

返回目录

热度挖掘

本文定义：话题热度 = 话题留言数 + 点赞数 - 0.5 反对数；且热度随着时间的延迟而呈现指数下降。

话题——聚类

什么是话题？每条留言的背后都是一个话题，于是，肯定有些留言的话题是相似的，相同的。为了找出话题，我们可以采用聚类的方法。

注意：聚类并不能找出语义的相似，而是找出“表面”的相似，比如：
我是慢热的人 和 他是慢热的人 可能属于一类，但 我是慢热的人 和 我是内向的人 却不是同一类，即使后者语义更加相近，反应的更近似于同一个主题。
但是，为了让大家学习，我们这里采用聚类。在第三问，还有求相似度的。到了那里，我们再用其他方法好不？
其实这里主要是为了让大家学习啦。不然我第一问就用分词的方法了，何必再重复呢？希望大家能学到更多的东西，如果觉得这篇文章对你们有所帮助，请点赞咯~

如何聚类呢？这里采用 DBSCAN。

聚类结果如下：

{-1: 3629, 0: 3, 1: 2, 2: 227, 3: 2, 4: 3, 5: 2, 6: 2, 7: 2, 8: 2, 9: 2, 10: 3, 11: 2, 12: 2, 13: 2, 14: 2, 15: 3, 16: 4, 17: 2, 18: 2, 19: 2, 20: 2, 21: 2, 22: 2, 23: 3, 24: 3, 25: 3, 26: 3, 27: 2, 28: 2, 29: 2, 30: 2, 31: 2, 32: 2, 33: 2, 34: 2, 35: 3, 36: 2, 37: 2, 38: 2, 39: 2, 40: 2, 41: 4, 42: 2, 43: 3, 44: 3, 45: 2, 46: 3, 47: 5, 48: 3, 49: 3, 50: 2, 51: 2, 52: 2, 53: 2, 54: 2, 55: 2, 56: 3, 57: 3, 58: 3, 59: 2, 60: 4, 61: 2, 62: 2, 63: 2, 64: 2, 65: 2, 66: 2, 67: 2, 68: 3, 69: 4, 70: 2, 71: 2, 72: 2, 73: 2, 74: 2, 75: 2, 76: 2, 77: 3, 78: 4, 79: 2, 80: 2, 81: 2, 82: 2, 83: 2, 84: 3, 85: 2, 86: 2, 87: 2, 88: 2, 89: 2, 90: 2, 91: 2, 92: 3, 93: 2, 94: 2, 95: 2, 96: 2, 97: 2, 98: 2, 99: 2, 100: 2, 101: 2, 102: 2, 103: 2, 104: 2, 105: 2, 106: 2, 107: 2, 108: 2, 109: 3, 110: 2, 111: 2, 112: 2, 113: 2, 114: 2, 115: 2, 116: 2, 117: 2, 118: 2, 119: 2, 120: 2, 121: 2, 122: 2, 123: 2, 124: 2, 125: 2, 126: 2, 127: 2, 128: 2, 129: 3, 130: 2, 131: 2, 132: 2, 133: 2, 134: 2, 135: 2, 136: 2, 137: 2, 138: 2, 139: 2, 140: 2, 141: 4, 142: 2, 143: 2, 144: 2, 145: 2, 146: 2, 147: 2, 148: 3, 149: 3, 150: 2, 151: 3, 152: 2, 153: 2, 154: 2, 155: 2, 156: 2, 157: 2, 158: 2, 159: 2, 160: 5, 161: 2, 162: 2, 163: 2, 164: 2, 165: 2, 166: 3, 167: 2, 168: 2, 169: 2, 170: 3, 171: 2, 172: 2, 173: 2, 174: 2, 175: 2, 176: 2, 177: 2, 178: 2, 179: 2, 180: 2, 181: 2, 182: 2, 183: 2, 184: 3, 185: 2, 186: 2, 187: 2, 188: 2, 189: 2, 190: 2, 191: 2, 192: 2, 193: 2, 194: 2, 195: 2, 196: 2, 197: 2, 198: 2, 199: 2, 200: 2, 201: 2, 202: 3, 203: 4, 204: 2, 205: 2, 206: 2, 207: 2, 208: 2, 209: 2, 210: 2}

其中 -1 为游离个体。

我们把一个簇叫做一个话题。我们得出每一个话题的热点计算公式如下：

{yi=10+Y−0.5N+Δyiyi>00yi≤0\left\{\begin{array}{ll} y_{i}=10+Y-0.5 N+\Delta y_{i} & y_{i}>0 \\ 0 & y_{i} \leq 0 \end{array}\right. {yi=10+Y−0.5N+Δyi0yi>0yi≤0
Δyi\Delta y_iΔyi 为时间衰退。按一般观点，热度的衰退应该是呈现指数型的，所以我们将 Δyi\Delta y_iΔyi 定义为如下格式：
−Δy=aexp⁡(bΔt)−c-\Delta y=a \exp (b \Delta t)-c −Δy=aexp(bΔt)−c
那么定义上述的参数呢？观察数据可以发现，最近的留言时间为 T=2020-1-26 19:47:11；最远的留言时间为：2017-6-8 17:31:20，时间间隔为 962 天。

挖掘所有课题，发现 10+Y−0.5N10 + Y - 0.5N10+Y−0.5N 取值最大为 2107。因此，我们定义：经过 962 天后，热度应下降 2107。经过 962/2962/2962/2 天后，关注度下降 2107/162107/162107/16，据此可列出方程为：
{aexp⁡(0)−c=0aexp⁡(9622b)−c=2107/16aexp⁡(962b)−c=2107\left\{\begin{array}{l} a \exp (0)-c=0 \\ a \exp \left(\frac{962}{2} b\right)-c=2107 / 16 \\ a \exp (962 b)-c=2107 \end{array}\right. ⎩⎨⎧aexp(0)−c=0aexp(2962b)−c=2107/16aexp(962b)−c=2107
于是热度下降函数为：
−Δy=262.125exp⁡(0.0023Δt)−262.125-\Delta y=262.125 \exp (0.0023 \Delta t)-262.125 −Δy=262.125exp(0.0023Δt)−262.125

可得热度结果如下：

最后得出前 10 热点问题的所有留言如下：

返回目录

热点描述

这里模仿 google 的 pagerank 算法提出一种 textrank 算法（前人做的）。对于 pagerank，我们将网页视为节点，节点的分数决定了其热度。设节点 ViV_iVi 的分数为 S(Vi)S(V_i)S(Vi)，设节点 Vi,VjV_i,V_jVi,Vj 存在有向边，则：

S(Vi)=(1−d)+d×∑Vj∈In⁡(Vi)1∣Out(Vj)∣S(Vj)S\left(V_{i}\right)=(1-d)+d \times \sum_{V_{j} \in \operatorname{In}\left(\mathrm{V}_{\mathrm{i}}\right)} \frac{1}{\left|\mathrm{Out}\left(\mathrm{V}_{\mathrm{j}}\right)\right|} S\left(V_{j}\right) S(Vi)=(1−d)+d×Vj∈In(Vi)∑∣Out(Vj)∣1S(Vj)
S(V)S(V)S(V)的初始化为 1，KaTeX parse error: Can't use function '\]' in math mode at position 9: d\in(0,1\̲]̲ 是一个常数因子，模拟用户点击网页 ViV_iVi 的概率。Out(Vj)Out(V_j)Out(Vj) 表示从 VjV_jVj出发链接到的节点的所有节点。

将 pagerank 推广到关键句识别中。以句子为节点，设每条句子两两都存在链接，并记 ddd 为当前句子和其他所有句子之间的平均“间隔”，即处于中心的句子，ddd 越大。

由于所有句子都存在链接，所以上述公式不能用了。

因此，这是因为 ∣Out(Vj)∣|Out(V_j)|∣Out(Vj)∣ 都相同。因此这里定义两条句子的相似度如下：
BM25(Vi,Vj)=∑k=1nIDF(term k)TF(term⁡k,Vi)(α+1)TF(term⁡k,Vi)+α(1−β+β∣Vi∣DL)\begin{array}{r} B M 25\left(V_{i}, V_{j}\right)=\sum_{k=1}^{n} I D F\left(\text { term }_{k}\right) \frac{T F\left(\operatorname{term}_{k}, V_{i}\right)(\alpha+1)}{T F\left(\operatorname{term}_{k}, V_{i}\right)+\alpha\left(1-\beta+\beta \frac{\left|V_{i}\right|}{D L}\right)} \end{array} BM25(Vi,Vj)=∑k=1nIDF( term k)TF(termk,Vi)+α(1−β+βDL∣Vi∣)TF(termk,Vi)(α+1)

其中 α,β=1\alpha, \beta=1α,β=1，∣Vi∣|V_i|∣Vi∣ 为句子 ViV_iVi 的单词量，TF(termk,Vi)TF(term_k, V_i)TF(termk,Vi) 为单词 termkterm_ktermk 在句子 ViV_iVi 中的词频。DFDFDF 为所有句子构成的合成文档中，每一条句子的平均词量，IDF 为逆文本频率，计算公式如下：
IDF(term k)=log⁡(SDF+1)I D F\left(\text { term }_{k}\right)=\log \left(\frac{S}{D F+1}\right) IDF( term k)=log(DF+1S)
这里的 DFDFDF 为合成文档中，包含单词 termkterm_ktermk 的句子数，SSS为合成文档中，句子的总数。于是，仿照 pagerank，可得句子的分数如下：

S(Vi)=(1−d)+d×∑Vj∈In⁡(Vi)BM25(Vi,Vj)∑Vk∈Out⁡(Vj)BM25(Vi,Vk)S(Vj)\begin{array}{l} S\left(V_{i}\right)=(1-d)+ d \times \sum_{V_{j} \in \operatorname{In}\left(V_{\mathrm{i}}\right)} \frac{B M 25\left(V_{i}, V_{j}\right)}{\sum_{V_{k} \in \operatorname{Out}\left(\mathrm{V}_{\mathrm{j}}\right)} B M 25\left(V_{i}, V_{k}\right)} S\left(V_{j}\right) \end{array} S(Vi)=(1−d)+d×∑Vj∈In(Vi)∑Vk∈Out(Vj)BM25(Vi,Vk)BM25(Vi,Vj)S(Vj)

我们将属于前 10 热度的，同一个话题的所有问题的详细描述，合成一个文档。之后，计算每一条句子的得分，最终找出得分最多的前三条句子作为关键句，即可得出问题描述。

对于时间范围，我们将同一话题的所有问题数据的时间，的最近、最远时间构成时间范围即可。

至于地点和人群…，自己找吧

2020 泰迪杯 C 题相关推荐

2020泰迪杯C题解题流程
注:本文为赛前所写,仅队内提供大致思路,和实际的解题流程有一定出入,仅供参考,有一些错误,笔者并没有更正(主要是没空),如想深入交流请私信. 1.对留言进行分类 1.1对数据进行分析. 观察数据集规模 ...
2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享
5.2问题二模型的建立与求解本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题.也就是给每一条留言都量化一个热度指数.并且根据热度指数进行排序,从而获取热度较高的评价问题.对于问题热 ...
【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测】第二大问代码分享+解题思路（EDA数据再探索+LightGBM模型）
[第十一届泰迪杯B题产品订单的数据分析与需求预测]第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型) 写在前面: 拖了这么长时间,一方面是我在找实习面试准备.另一方面是在做第二问 ...
【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据（源码+数据）
["第十一届"泰迪杯"数据挖掘挑战赛-- C 题:泰迪内推平台招聘与求职双向推荐系统构建(采集数据)] 问题: 数据详情: 根据工作id获取详细数据(1571条).csv ...
泰迪杯C题第三问[文本有效性分析] (1)
导入库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 中文分 ...
第8届泰迪杯C题问题总结
文章目录写作模板问题从网上下载了一个牛逼哄哄的模板,用 Winedit 打开时,却跳出错误弹出.我顿时懵逼了!!! 编译模板时,跳出 Improper alphabetic constant 错误 ...
智能阅读模型的构建(第六届泰迪杯C题)
项目描述: 构建智能阅读模型主要通过两个方法来实现,第一个是TF-IDF的变种--TFC-ICF,TFC-ICF较于TF-IDF是将一个问题的所有答案看成一个整体,类比于TF-IDF文本分类的文件夹, ...
第十一届泰迪杯B题：产品订单的数据分析与需求预测
赛题描述一．问题背景近年来企业外部环境越来越不确定,复杂多变的外部环境,让企业供应链面临较多难题.需求预测作为企业供应链的第一道防线,重要程度不言而喻,然而需求预测受多种因素的影响,导致预测准确率 ...
2021泰迪杯A题-通讯产品销售和盈利能力分析_任务一解题代码
import pandas as pd 统计 data = pd.read_excel('非洲通讯产品销售数据.xlsx',engine = 'openpyxl',sheet_name = 0) da ...
2022泰迪杯a题害虫检测
目前已全部完成,map在0.78左右,结果也已经导出完成,小伙伴们可以来一起讨论讨论!

2020 泰迪杯 C 题

2020 泰迪杯 C 题，含数据代码

思路

第一问

数据预处理

二元语法

词袋模型

分类模型

机器学习方法

多层感知器

模型

结果

第二问

数据预处理

分词

停用词过滤

词袋模型

PCA 降维

热度挖掘

话题——聚类

热点描述

2020 泰迪杯 C 题相关推荐

最新文章

热门文章