【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 赛后总结、46页论文及代码
1 相关链接
(1)问题一方案及实现博客介绍
(2)问题二方案及实现博客介绍
(3)问题三方案及实现博客介绍
2 方案
针对问题一: 为了实现文本二分类,手动标注了部分数据集作为训练集和测试集,利用中科院计算所的分词系统接口进行分词,哈工大的停用词表去停用词,再提取1000维度的TFIDF特征,最后采用基于支持向量机的二分类算法模型训练,测试集验证准确率达为0.82,召回率0.83,F1值0.83。
针对问题二: 在问题一的基础上,对微信公号中的文本进行筛选,选择与文旅相关的样本。再从附件中的酒店评论、景区评论、餐饮评论、游记攻略和微信公众号的文本中,选择部分样本采用 BIOES 标注体系进行实体标注。最后训练基于改进的Bert命名实体算法,再用该算法进行预测所有数据集。建立从旅游产品的频次和情感分析两个角度的热度评价模型,分析得出2018年至2021年最热门的旅游产品分别为清香面包店(车田街店)、元晟坊蛋糕(南香公园店)、菠斯蒂蛋糕、友情有意音乐餐厅。
针对问题三: 在问题二的基础上,对数据集中每个样本进行旅游产品独热编码,计算所有产品的支持度、置信度和提升度,并以三者的加权作为关联度。并选择关联度大于0的旅游产品进行了关联图谱可视化。
针对问题四: 根据疫情前后的历史数据做出的关联图谱、旅游产品热度和种类可视化对比,从旅游产品之间的关联性、旅游产品热度和旅游产品种类三个角度分析了疫情所带来的影响和变化。并根据分析结果对当地部门提出合适的防控建议和增大旅游业发展的建议。
**关键词:**文本分类;命名实体;旅游产品;知识图谱;
3 论文部分图片
论文https://github.com/BetterBench/My-mianbaoduo
4 论文
完整论文下载:私信我,同时把该文章链接发给我
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 赛后总结、46页论文及代码相关推荐
- 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 31页省一等奖论文及代码
相关链接 (1)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统负荷预测分析 问题一Baseline方案 (2)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统 ...
- 分享篇:第十届“泰迪杯”数据挖掘挑战赛-农田害虫图像识别(特等奖)
第十届"泰迪杯" 数据挖掘挑战赛优秀作品-农田害虫图像识别--特等奖 实验结果分析 4.1.1 实验配置 本篇论文的实验都是基于 Ubuntu 系统下进行,使用 GPU 和 CPU ...
- 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 问题二 时间突变分析 Python实现
目录 相关链接 完整代码下载链接 1 定义绘图函数 2 通过对原始测量应用阈值来查找异常值 3 手动设置阈值 4 使用分位数设置阈值 5 3Sigma原则(IQR) 6 设定分位数 6.1 导入数据 ...
- 分享篇:第十届“泰迪杯”数据挖掘挑战赛-农田害虫图像识别(特等奖)一
1.1 赛题背景 昆虫的种类浩如烟海,农田常见的昆虫是人工生态系统的重要组成部分.分辨益 虫和害虫,保留益虫,消灭害虫,对于减轻害虫对农田的生产危害有重要意义.常见 农田害虫共有 138 种,天敌昆虫 ...
- 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析第一问LSTM模型的建立
1️⃣问题分析 地区负荷的中短期预测分析 根据附件中提供的某地区电网间隔15分钟的负荷数据,建立中短期负荷预测模型:
- 2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(1.数据处理)
1. 前言 本题相对来说比较适合新手,包括针对数据的预处理,数据分析,特征提取以及模型训练等多个步骤,完整的做下来是可以学到很多东西的. 2.问题一思路分析 本题要求利用附件中的训练数据进行深入的分析 ...
- 2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(2.数据探索性分析)
前言 继续上一片数据预处理进行续写,利用预处理之后的数据进行数据分析并且解决问题一相关的问题.问题一主要目的是让研究各种因素对于需求量的影响,然后找到确定影响需求量的主要因素并且进行数据分析和主要特征 ...
- 泰迪杯数据挖掘挑战赛C题 通用论坛正文提取
参与第五届泰迪杯,侥幸获得二等奖,简单记录一下. 一.问题的背景 在当今的大数据时代里,伴随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量 ...
- 第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文(基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析)
目 录 第一章 引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述 第二章 群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...
- 泰迪杯-数据挖掘挑战赛
http://www.tipdm.org/bdrace/tzjingsai/20181226/1544.html?cName=ral_101 第七届泰迪杯数据挖掘挑战赛组委会及专家组名单 2018-0 ...
最新文章
- SpringBoot (二) :全局异常处理设置
- 【SPOJ-QTREE】树链剖分
- 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...
- boost::fusion::set用法的测试程序
- 【转】怎样判断自己掌握了学到的新知识
- flask框架数据库增删改查
- 卸载失败_Windows 10可能的新功能-自动卸载失败的补丁更新
- 第十节 4基于ashx方式的ASP.Net开发
- 从3年前接触区块链,到开发出装机量最大客户端Geth,看看人家的职业发展之路 | 人物志...
- sqlserver 建表指定主键_3-自增字段;主键约束
- 【PostgreSQL-9.6.3】进程及体系结构
- sql server 左右连接 内外连接
- JavaWeb的环境配置
- c-free显示运行程序错误怎么办_Mac电脑没声音了怎么办?解决Mac上声音问题
- python 归一化方法
- java库的使用--Failsafe
- JavaEE Spring框架学习笔记(AOP Introductions介绍)
- WEB前端 -- onfocus=quot;this.blur()quot;
- 7-11 输出大写英文字母 (15 分)
- java发送get请求400解决
热门文章
- 医院管理系统服务器,医院管理的十大运行系统!
- 中央网信委印发《“十四五”国家信息化规划》,​网络安全市场进入快速增长期
- 【超图+CESIUM】【基础API使用示例】48、超图|CESIUM - 漫游飞行效果
- MYSQL--数据库约束
- 卷积神经网络通道剪枝算法小结
- (转载)高速ADC的关键指标:量化误差、offset/gain error、DNL、INL、ENOB、分辨率、RMS、SFDR、THD、SINAD、dBFS、TWO-TONE IMD...
- GET和POST区别详解
- 数据处理—ArcGIS处理地理空间数据云30mDEM数据
- 夸计算机老师的成语,赞美老师的成语句子
- 实战 使用Java开发简易小游戏:贪吃蛇(附源码!)