希望大家能获得好成绩。

第一题

首先分词,分词本质上是一个序列标注问题,建议使用条件随机场。条件随机场可以用网络上开源的 SigHan05 的 MSR 分词语料库来训练。分词过后,当然还要删除停用词。删除停用词可以用双向匹配,即基于规则的词典匹配法。停用词字典的话,开源的有很多,这都不是问题。

另外要注意的问题是,英文怎么解决?我觉得只能手动翻译了,当然也可以不管,或者删除。

如何提取关键热词呢?有三个方法:

  1. 词频统计:缺点在于反复出现的词不一定是热词
  2. TF-IDF:占用空间太大
  3. TextRank:类似于 google 排行算法的 PageRank,把词看成节点,应该就能懂了。

然后,最重要的一点,就是结合上述的方法,最后提出热门词。

第二题

评价模型的训练,感觉其实是一个监督学习中的回归问题。但这个机器学习,数据集有些少,就 50 个。

如何解决呢?首先将景区下的所有评论,拼接成一个长文档,再采用分词和停用词过滤,再用词袋模型(如TF-IDF)将非结构化的文本,转换为结构化的向量。

之后,再将评分一个个单独拆开,从而构成一个个回归问题。最后采用机器学习,或者深度学习就好了。

第三题

所谓无效,就是指那些复制粘贴的东西嘛。所以,我觉得可以用聚类,将那些属于一类的视为重复(无效)就行了。

当然,这里还是用分词,再用词袋模型(词频),将非结构化的文本,转换为结构化的向量。

第四题

合并同一景区所有评论,采用 BM25+TextRank 提取出 100 条关键句,然后在根据第一问的方法,提取出 20 个关键词。就可以看出热门的词汇,再根据热门的词汇,来分析景区的特色即可。

当然,对于高、中、低层次,可以用评分中的“总评分”,再用四分位数区分出高、中、低层次即可。

文档

https://blog.csdn.net/weixin_42141390/article/details/116504403

2021 泰迪杯 C 思路相关推荐

  1. 2021泰迪杯数据分析技能赛B题-肥料登记数据分析

    调用模块: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns p ...

  2. 2021泰迪杯A题-通讯产品销售和盈利能力分析_任务一解题代码

    import pandas as pd 统计 data = pd.read_excel('非洲通讯产品销售数据.xlsx',engine = 'openpyxl',sheet_name = 0) da ...

  3. 2021泰迪杯-数据挖掘练习1-京东热水器评论分析

    说明: 所有代码和数据可在gitee中获取 地址:https://gitee.com/success123/teddy-cup 本次挖掘目标 ​ ①分析某一热水器的用户情感倾向 ​ ②从评论文本中挖掘 ...

  4. 2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码)、数据挖掘、数据分析实战

    2021 年"泰迪杯"数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码).数据挖掘.数据分析实战 前言: 整理了2021 年"泰迪杯"数据分析技能 ...

  5. 记第一次Python数据分析练习——2018年“泰迪杯”数据分析职业技能大赛B题(2021/5/20)

    文章目的 本人目前是应用统计专业大二(2021/5/20)的本科生,上学期上过Python课,但说实话讲的不深,过了一个学期也基本上忘光了. 最近深刻地觉得计算机专业真是好啊,以后我也要当程序员.JP ...

  6. 第十届“泰迪杯”比赛B题解题思路及代码论文

    今年大二,因为对编程感兴趣入坑,算下来自学编程快要一年了,了解了关于计算机的很多方向,暑假偶然间了解到数据分析和挖掘,觉得挺有趣的就想深入学习以下,于是开始学习pandas,然后机器学习,并在天池上做 ...

  7. 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

    [第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...

  8. 【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)

    [第十一届泰迪杯B题产品订单的数据分析与需求预测]第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型) 写在前面: ​ 拖了这么长时间,一方面是我在找实习面试准备.另一方面是在做第二问 ...

  9. 第五届泰迪杯数据分析技能大赛思路

    各有关单位: 为推广我国高校数据分析实践教学,培养学生数据分析的应用和创新能力,增加校企交流合作和信息共享,提升我国高校的教学质量和企业的竞争能力,"泰迪杯"数据分析技能赛(以下简 ...

  10. 【第十一届“泰迪杯”数据挖掘挑战赛】B题产品订单的数据分析与需求预测“解题思路“”以及“代码分享”

    [第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 ]第一大问代码分享(后续更新LSTM+informer多元预测多变量模型) PS: 代码全写有注释,通俗易懂,包看懂!!! ...

最新文章

  1. asp sql查询字段 过滤空格_SQL面试经典问答集萃
  2. 以未来的计算机为题写一篇作文,请以“未来的交通工具”为题写一篇英语作文...
  3. C# 获取随机可用端口号
  4. POJ 1836 Alignment
  5. xpath和css selector
  6. python中那些鲜为人知的功能特性
  7. H5前端性能测试总结
  8. Asp.net MVC权限设计思考 (二)逻辑部分实现
  9. MySQL数据库学习资料(六)
  10. 系统分析师学习笔记(八)
  11. python中localtime和gtime的区别及时区计算的代码
  12. win7计算机摄像头怎么打开,Win7笔记本摄像头怎么打开?Win7笔记本打开摄像头的方法...
  13. 搭档之家:木材已成为疫情冲击下对冲新贵 忘掉黄金吧!伐木头养你~
  14. 【echarts】柱状图正负值双色
  15. 【PPic】在PPic图床中如何配置使用七牛
  16. 使用Quartus II9.0验证74161计数器
  17. 谷歌账号电子邮件怎么改_如何使用Google仅搜索您的电子邮件,事件和其他内容...
  18. gateway资源详解
  19. python画正方形的代码_python画正方形的代码是什么?
  20. 排位赛一 A Cow Gymnastics

热门文章

  1. 孪生网络 应用_数字孪生在航空发动机制造工艺中的应用探索
  2. XAP部署错误代码大全
  3. wordpress主题_ripro美化子主题_虎造子主题集成后台美化包v2.0
  4. powerbuilder11.5 免安装 时的注意事项
  5. delphi7 安装/卸载控件通用方法
  6. delphi7+firebird+dbexpress
  7. android内存卡测试,安卓sd卡真假检测工具_内存卡检测扩容卡软件_sd insight
  8. PSP3000/2000V3用5.03GEN-C安装教程
  9. CSV 导入SQL Server(bulk insert方式)
  10. VMware搭建PXE无盘工作站,出现这种问题各位遇到过吗?