2021 泰迪杯 C 思路
希望大家能获得好成绩。
第一题
首先分词,分词本质上是一个序列标注问题,建议使用条件随机场。条件随机场可以用网络上开源的 SigHan05 的 MSR 分词语料库来训练。分词过后,当然还要删除停用词。删除停用词可以用双向匹配,即基于规则的词典匹配法。停用词字典的话,开源的有很多,这都不是问题。
另外要注意的问题是,英文怎么解决?我觉得只能手动翻译了,当然也可以不管,或者删除。
如何提取关键热词呢?有三个方法:
- 词频统计:缺点在于反复出现的词不一定是热词
- TF-IDF:占用空间太大
- TextRank:类似于 google 排行算法的 PageRank,把词看成节点,应该就能懂了。
然后,最重要的一点,就是结合上述的方法,最后提出热门词。
第二题
评价模型的训练,感觉其实是一个监督学习中的回归问题。但这个机器学习,数据集有些少,就 50 个。
如何解决呢?首先将景区下的所有评论,拼接成一个长文档,再采用分词和停用词过滤,再用词袋模型(如TF-IDF)将非结构化的文本,转换为结构化的向量。
之后,再将评分一个个单独拆开,从而构成一个个回归问题。最后采用机器学习,或者深度学习就好了。
第三题
所谓无效,就是指那些复制粘贴的东西嘛。所以,我觉得可以用聚类,将那些属于一类的视为重复(无效)就行了。
当然,这里还是用分词,再用词袋模型(词频),将非结构化的文本,转换为结构化的向量。
第四题
合并同一景区所有评论,采用 BM25+TextRank 提取出 100 条关键句,然后在根据第一问的方法,提取出 20 个关键词。就可以看出热门的词汇,再根据热门的词汇,来分析景区的特色即可。
当然,对于高、中、低层次,可以用评分中的“总评分”,再用四分位数区分出高、中、低层次即可。
文档
https://blog.csdn.net/weixin_42141390/article/details/116504403
2021 泰迪杯 C 思路相关推荐
- 2021泰迪杯数据分析技能赛B题-肥料登记数据分析
调用模块: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns p ...
- 2021泰迪杯A题-通讯产品销售和盈利能力分析_任务一解题代码
import pandas as pd 统计 data = pd.read_excel('非洲通讯产品销售数据.xlsx',engine = 'openpyxl',sheet_name = 0) da ...
- 2021泰迪杯-数据挖掘练习1-京东热水器评论分析
说明: 所有代码和数据可在gitee中获取 地址:https://gitee.com/success123/teddy-cup 本次挖掘目标 ①分析某一热水器的用户情感倾向 ②从评论文本中挖掘 ...
- 2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码)、数据挖掘、数据分析实战
2021 年"泰迪杯"数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码).数据挖掘.数据分析实战 前言: 整理了2021 年"泰迪杯"数据分析技能 ...
- 记第一次Python数据分析练习——2018年“泰迪杯”数据分析职业技能大赛B题(2021/5/20)
文章目的 本人目前是应用统计专业大二(2021/5/20)的本科生,上学期上过Python课,但说实话讲的不深,过了一个学期也基本上忘光了. 最近深刻地觉得计算机专业真是好啊,以后我也要当程序员.JP ...
- 第十届“泰迪杯”比赛B题解题思路及代码论文
今年大二,因为对编程感兴趣入坑,算下来自学编程快要一年了,了解了关于计算机的很多方向,暑假偶然间了解到数据分析和挖掘,觉得挺有趣的就想深入学习以下,于是开始学习pandas,然后机器学习,并在天池上做 ...
- 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)
[第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...
- 【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)
[第十一届泰迪杯B题产品订单的数据分析与需求预测]第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型) 写在前面: 拖了这么长时间,一方面是我在找实习面试准备.另一方面是在做第二问 ...
- 第五届泰迪杯数据分析技能大赛思路
各有关单位: 为推广我国高校数据分析实践教学,培养学生数据分析的应用和创新能力,增加校企交流合作和信息共享,提升我国高校的教学质量和企业的竞争能力,"泰迪杯"数据分析技能赛(以下简 ...
- 【第十一届“泰迪杯”数据挖掘挑战赛】B题产品订单的数据分析与需求预测“解题思路“”以及“代码分享”
[第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 ]第一大问代码分享(后续更新LSTM+informer多元预测多变量模型) PS: 代码全写有注释,通俗易懂,包看懂!!! ...
最新文章
- asp sql查询字段 过滤空格_SQL面试经典问答集萃
- 以未来的计算机为题写一篇作文,请以“未来的交通工具”为题写一篇英语作文...
- C# 获取随机可用端口号
- POJ 1836 Alignment
- xpath和css selector
- python中那些鲜为人知的功能特性
- H5前端性能测试总结
- Asp.net MVC权限设计思考 (二)逻辑部分实现
- MySQL数据库学习资料(六)
- 系统分析师学习笔记(八)
- python中localtime和gtime的区别及时区计算的代码
- win7计算机摄像头怎么打开,Win7笔记本摄像头怎么打开?Win7笔记本打开摄像头的方法...
- 搭档之家:木材已成为疫情冲击下对冲新贵 忘掉黄金吧!伐木头养你~
- 【echarts】柱状图正负值双色
- 【PPic】在PPic图床中如何配置使用七牛
- 使用Quartus II9.0验证74161计数器
- 谷歌账号电子邮件怎么改_如何使用Google仅搜索您的电子邮件,事件和其他内容...
- gateway资源详解
- python画正方形的代码_python画正方形的代码是什么?
- 排位赛一 A Cow Gymnastics
热门文章
- 孪生网络 应用_数字孪生在航空发动机制造工艺中的应用探索
- XAP部署错误代码大全
- wordpress主题_ripro美化子主题_虎造子主题集成后台美化包v2.0
- powerbuilder11.5 免安装 时的注意事项
- delphi7 安装/卸载控件通用方法
- delphi7+firebird+dbexpress
- android内存卡测试,安卓sd卡真假检测工具_内存卡检测扩容卡软件_sd insight
- PSP3000/2000V3用5.03GEN-C安装教程
- CSV 导入SQL Server(bulk insert方式)
- VMware搭建PXE无盘工作站,出现这种问题各位遇到过吗?