python爬取携程旅游评价信息词云图分析

前言

前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据

这一篇呢,咱们主要使用jieba和wordcloud这两个包进行评价词云图分析。jieba是一个中文分词的工具包,wordcloud是专门用来画词云图的。

先来看看效果图吧

从图中我们也能够看到,大家评价大多数是不错、方便这种积极的态度。对整体旅行的评价,通过这张图我们还是能够有很清楚的认识的。接下来,我将详细的讲一下源代码。

源代码分析

这次代码的讲解是基于上一篇博客,建议先浏览上一篇博客。

上次我们能够将旅游团的游客的评价爬取出来,这次,我们先将评价信息输出到文本中。

1. 评价输出文本

def  mainfun():comment_all = []traveldestination = ['重庆']#这里是添加旅游地点for i in range(len(traveldestination)):listdata = test1(traveldestination[i])print("地点:",traveldestination[i],end='\n')for data in listdata:print(data[0])comment_all.append(test2(data[1]))with open('comments.txt',encoding='utf-8',mode='w') as f:for comment in comment_all:for comment_data in comment:f.write(comment_data+'\n')

此方法在原有基础上,将评价信息首先存储到list列表中,然后通过for循环输出到txt文件中。

同时,test2()方法我们也做了两处地方的修改:

2. jieba分词

def splitword():with open('comments.txt',encoding='utf-8',mode='r') as f:listdata = f.readlines()commentdata = []for delword in ['我们','酒店','携程','就是','自己']:jieba.del_word(delword)for data in listdata:commentdata.append(' '.join(jieba.cut(data,cut_all=False)))dataall = ' '.join(commentdata)return dataall

我们首先看一下txt文本中的数据形式:

此方法的作用是对这些长句子进行分词,以此来分析关键词。

  1. 通过jieba.del_word()方法,可以去掉一些没有意义的词语,这些词语出现频率高,但是对我们没有任何信息价值。
  2. jieba.cut()参数1 是数据文本,类型需要时str。参数2是cut_all,为True是,为全模式,为False时,为精确模式。

jieba 常用方法

3. wordcloud词云图

def word_cloud(dataall):maskpng = np.array(Image.open('mask.png'))WordClouds = WordCloud(background_color='white',mask=maskpng,#遮罩图font_path='font/msyh.ttf',#字体max_words=50,#最大词数random_state=50,#随机种子scale=1.5 #放大比例)WordClouds.generate(dataall)plt.imshow(WordClouds)plt.axis('off')plt.show()
  1. 首先我们创建一个WordCloud对象,然后设置相应的参数
  2. 使用WordClouds.generate(dataall) 生成词云图
  3. plt.imshow(WordClouds)显示词云图
  4. 不显示坐标轴
  5. 由于我是在pycharm写的代码,所以需要写上plt.show() 才能够显示,jupyter notebook 上不用添加这个语句。

字体下载连接:微软雅黑字体下载

对象方法详细参数说明:详细参数说明

总结

词云图通过字体的大小来表示词语出现的频率,使我们能够更加直观的看到文本中的关键信息。同时这两个包还有很多其他的用法,大家可以多去尝试一下,在这里我们只是举了个非常简单的例子供大家参考。

最后附上jieba和wordcloud两个包的github地址

  • wordcloud
    常简单的例子供大家参考。

python爬取携程旅游评价信息词云图分析相关推荐

  1. python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  2. python 爬取携程旅游景点评论

    python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...

  3. python爬携程景区评论_python爬取携程景点评论信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  4. python 携程登陆,Python爬取携程信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  5. python爬取携程机票并发送过滤后的机票信息到指定邮箱

    0x0 前言 在疫情发生之前,在知乎上刷到一个回答,说是用服务器实现一个自动爬取机票并将过滤后的机票信息发送到自己的邮箱中,感觉十分有趣.由于疫情原因无法返校,加上家和学校相隔接近3000公里,再加上 ...

  6. python中飞机票购买程序_「最低折扣机票查询」Python 爬取携程所有机票找出最低折扣机票,让你无忧回家过年 - seo实验室...

    最低折扣机票查询 前言 对于平时出行大多数人都是选择坐高铁,当然了如果这是对于距离比较近的行程是最划算的,如果对于路途长远的人言,提前购买飞机票价格可能比高铁票更加的便宜,如果我们可以爬取机票数据并分 ...

  7. Python爬取携程机票代码实例

    Python爬取携程机票代码实例 现在携程的页面是通过接口传递数据的,不能直接使用xpath进行解析,需要模拟调用接口的步骤 dcity是指出发地的城市编码 acity是指目的地的城市编码 其他参数是 ...

  8. python爬取携程景区用户评论

    python爬取携程景区用户评论(爬虫时遇到翻页但url不变问题时的解决办法) python爬取携程景区用户评论 Ajax页面加载的页面和普通页面的不同 解决办法 效果 python爬取携程景区用户评 ...

  9. python爬取携程酒店信息_不写代码玩转爬虫实例(3) - 抓取携程酒店信息

    背景需求 有不少朋友问永恒君携程网站的酒店信息怎么抓取,今天这篇文章来分享一下使用web scraper来快速实现抓取携程酒店信息. 例如,在携程官网搜索北京 密云水库的酒店信息, 可以搜索到非常多的 ...

最新文章

  1. python保留字-9.Python关键字(保留字)一览表
  2. 《Cisco QoS认证考试指南(第2版)》一导读
  3. 电脑模拟器哪个好_《英雄聯盟:激鬥峽谷》电脑版哪个安卓模拟器好用?《英雄聯盟:激鬥峽谷》手游电脑版怎么玩...
  4. InMobi收购美国Sprint旗下数据和广告公司Pinsight Media
  5. 【BZOJ4417】: [Shoi2013]超级跳马
  6. LeetCode 1340. 跳跃游戏 V(DP)
  7. poj2778DNA Sequence (AC自动机+矩阵快速幂)
  8. 新增成功到编制为空bug_36 个JS 面试题为你助力金九银10
  9. 【less-4】sqli-labs靶场第四关
  10. Intel的新玩法:固态硬盘也超频
  11. 局域网如何测试网速手机软件,如何轻松测试局域网网速
  12. 微信小程序 下拉刷新 性能优化 参考饿了么小程序首页列表加载
  13. 微信小程序云数据库调用模板
  14. python安装以及插件安装
  15. 16张扑克逻辑思维问题详解
  16. 计算机网络 之 DNS (Domain Name System)域名服务器
  17. 助力篇|常见金融风控数据分析内容汇总,助你面试道路畅通无阻
  18. 如果能天天送书,天天爽就好了,再送5本
  19. 能勾起你美好回忆的英文经典情歌二十首!绝对经典!
  20. iOS开发-声网Agora Demo

热门文章

  1. java群发邮件_JAVA邮件群发 - Java-Android-jwebee - BlogJava
  2. [翻译]pb技巧、代码和实用工具[程序员家园论坛]
  3. 使用 hugo oss 搭建个人博客网站
  4. 计算机应用系特色活动,职教桥:用匠心打造计算机应用专业特色课程体系
  5. ff14 人最多的服务器,记录FF14全服人数最少的服务器红茶川
  6. 读研攻略(7)—从0到1,研究生第一篇SCI的诞生
  7. Learning without Forgetting 详解(LwF)
  8. Excel使用空格/逗号等对数据进行分列
  9. 【COCI 2011】送票
  10. 关于VMware虚拟机中调节图标字体大小