2020泰迪杯C题解题流程
注:本文为赛前所写,仅队内提供大致思路,和实际的解题流程有一定出入,仅供参考,有一些错误,笔者并没有更正(主要是没空),如想深入交流请私信。
1.对留言进行分类
1.1对数据进行分析。
- 观察数据集规模,是否有空值,是否重复记录
- 留言的长度,最大最小值和极差。可绘制词数直方图,确定padding长度。
- 有多少个一级分类,涉及到多少种分类
- 未登陆词有哪些,关键是地名
1.2 数据预处理
- 整体数据集去重复
- 对回复文本去除数字标点符号去停用词,并进行分词处理
- 建立词索引词典,将词语id表示
- 简单地词频向量化,每条回复用一个词频向量表示XiX_{i}Xi,一维稀疏向量。
- 使用word2vec词向量表示,每个词向量的维数为k,每条回复中有n个词,每条回复用一个矩阵表示RiR_{i}Ri,RiR_{i}Ri是一个k×nk \times nk×n的矩阵
- 为每一个标签进行量化。或者onehot化
1.3 Baseline模型
使用朴素贝叶斯训练一个多分类模型,输入使用词频向量(经过tf-idf特征提取),使用测试集测试,计算F-score作为baseline
或者SVM,或者多层感知机,在此基础上可以使用组合方法提高准确率。
1.4 CNN神经网络模型
首先使用语料库(笔者做完之后发现使用词向量反而准确率降低了,原因可能是使用的维基百科语料库中的语料和训练数据差异太大,因此可以使用tensorflow 中embedding层自行训练)训练出word2vec模型,把每一个词用向量表示出来。假设用零向量填充,得到一个回复矩阵。
开始使用CNN训练多分类模型,计算F-score。调整参数,词向量的维度、卷积核大小(必须和词向量的维度匹配,只能一个方向移动)、batch_size、卷积层和池化层的层数、激活函数、优化器选择、正则化处理。
2.热点挖掘
2.1问题目标
挖掘在某一时间段内反应特定地点和特定人群的热点问题。因此需要聚类分析。得到的ddd个聚类结果,要进行主题提取(句干分析?自动还是人工?)。此外,我们还需要建立一个热度评价指标,这可能与:每个事件被反映的频率、被反映的次数、点赞数、反对数有关。
我们已经将每条回复表示为了文档矩阵。如何进行聚类分析?
2.2 数据观察
可以从留言主题中提取出相关地点和人群
不同点在于点赞数和反对数
2.3 K-means聚类
在聚类之前首先需要使用命名体识别,将特定的地点人群识别出来,然后对不同的人群地点单独聚类,也可以先聚类,然后把特定的人群地点挑出来放到一起
方法一:
需要对回复矩阵进行压缩
(w11w12…w1nw21w22…w2n⋮⋱⋮⋮wk1wk2⋯wkn)\begin{gathered} \begin{pmatrix} w_{11} & w_{12} & \ldots & w_{1n}\\ w_{21}& w_{22} & \ldots & w_{2n} \\ \vdots& \ddots&\vdots& \vdots\\ w_{k1}& w_{k2}&\cdots & w_{kn}\end{pmatrix} \end{gathered} ⎝⎜⎜⎜⎛w11w21⋮wk1w12w22⋱wk2……⋮⋯w1nw2n⋮wkn⎠⎟⎟⎟⎞
要将每条回复压缩成一个一维向量,计算空间距离来聚类。可以计算每个词tf-idf值,作为权重进行横向加权求平均 ,之后,要考虑是否还需要进行标准化处理。应该不用了,他们的尺度是相通的。
方法二
如果我们使用词频向量进行聚类,需要特征提取,PCA降维是个不错的选择,这就需要标准化了。我们可以对比两种方法,观察哪种聚类效果更好。
2.4 LDA主题建模
对LDA还不是特别了解,不知道是否可行。使用吉布斯采样获得文档-主题(热点)-词语的分布,提取主题和对应的词语,是否可以计算出一篇回复最有可能对应的主题,这样对每条回复贴一个标签,对这些标签进行分类汇总,提取出热点。
并不适用,LDA比较适合于长文本的主题发现,留言这种较短的文本主题往往是单一的。
2.5热度评价指标
设每个事件被反映的频率为fff、被反映的次数mmm、点赞数zzz、反对数rrr,怎么建立这个指标HotHotHot呢?
自定义一个模型,言之有理即可
3.答复意见的评价
- 相似度:文本相似度
- 完整性:正则匹配特定格式
- 时效性:意见与回复时间差
将指标量化分析综合评定
2020泰迪杯C题解题流程相关推荐
- 2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享
5.2问题二模型的建立与求解 本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题.也就是给每一条留言都量化一个热度指数.并且根据热度指数进行排序,从而获取热度较高的评价问题.对于问题热 ...
- 【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)
[第十一届泰迪杯B题产品订单的数据分析与需求预测]第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型) 写在前面: 拖了这么长时间,一方面是我在找实习面试准备.另一方面是在做第二问 ...
- 【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)
["第十一届"泰迪杯"数据挖掘挑战赛-- C 题:泰迪内推平台招聘与求职双向推荐系统构建(采集数据)] 问题: 数据详情: 根据工作id获取详细数据(1571条).csv ...
- 泰迪杯C题第三问[文本有效性分析] (1)
导入库 import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 中文分 ...
- 2021泰迪杯A题-通讯产品销售和盈利能力分析_任务一解题代码
import pandas as pd 统计 data = pd.read_excel('非洲通讯产品销售数据.xlsx',engine = 'openpyxl',sheet_name = 0) da ...
- 智能阅读模型的构建(第六届泰迪杯C题)
项目描述: 构建智能阅读模型主要通过两个方法来实现,第一个是TF-IDF的变种--TFC-ICF,TFC-ICF较于TF-IDF是将一个问题的所有答案看成一个整体,类比于TF-IDF文本分类的文件夹, ...
- 第8届泰迪杯C题问题总结
文章目录 写作模板问题 从网上下载了一个牛逼哄哄的模板,用 Winedit 打开时,却跳出错误弹出.我顿时懵逼了!!! 编译模板时,跳出 Improper alphabetic constant 错误 ...
- 2018年 数据挖掘“泰迪杯” C题 第四问
一.问题背景 题目:游客目的地印象分析 提升景区及酒店等旅游目的地美誉度是各地文旅主管部门和旅游相关企业非常重视和关注的工作,涉及到如何稳定客源.取得竞争优势.吸引游客到访消费等重要事项.游客满意度与 ...
- 第十一届泰迪杯B题:产品订单的数据分析与需求预测
赛题描述 一.问题背景 近年来企业外部环境越来越不确定,复杂多变的外部环境,让企业供应链面临较多难题.需求预测作为企业供应链的第一道防线,重要程度不言而喻,然而需求预测受多种因素的影响,导致预测准确率 ...
最新文章
- 如何从0-1构建自己的”pytorch“(自己专属的深度学习框架)——part01
- python入门要多久-初学者如何快速上手python入门要多久
- condest--1-范数的条件数估计
- unity 角度限制_Unity自定义可编程渲染管线(SRP)(九)——灯光照明
- rds 数据库营销报告_千人千面的营销数智化测试,你还没做?
- 岗位内推 | 微软亚洲互联网工程院自然语言处理组招聘NLP工程师
- codeforces 1287A -Angry Students(模拟)
- php theexcerpt,wordpress的excerpt()函数的用法示例
- 强化学习《基于价值 - Double Q-Learning》
- MYSQL端口自动开启的问题~
- 360 nginx+php,windows Nginx+PHP7+Mysql独立环境部署
- validation problems were found problem cvc-complex-type.2.4a
- Safari中的代理设置(在【偏好设置中】)。
- atitit.web 推送实现方案集合
- php和mysql web开发 5_WEB开发圣经:PHP和MySQL Web开发(原书第5版) 原版pdf+完整源码...
- zend studio php 错误提示,Zend Studio错误总结,zendstudio总结_PHP教程
- loading等待载入正在加载的动画GIF图片圆形图标
- KYLO的Java基础知识总结(其二)
- Thymeleaf指定背景图片以及图片如何调整大小
- 汉化版PHP代码审计工具rips