python爬取携程旅游评价信息词云图分析

前言

前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据

这一篇呢,咱们主要使用jieba和wordcloud这两个包进行评价词云图分析。jieba是一个中文分词的工具包,wordcloud是专门用来画词云图的。

先来看看效果图吧

从图中我们也能够看到,大家评价大多数是不错、方便这种积极的态度。对整体旅行的评价,通过这张图我们还是能够有很清楚的认识的。接下来,我将详细的讲一下源代码。

源代码分析

这次代码的讲解是基于上一篇博客,建议先浏览上一篇博客。

上次我们能够将旅游团的游客的评价爬取出来,这次,我们先将评价信息输出到文本中。

1. 评价输出文本

def mainfun():

comment_all = []

traveldestination = ['重庆']#这里是添加旅游地点

for i in range(len(traveldestination)):

listdata = test1(traveldestination[i])

print("地点:",traveldestination[i],end='\n')

for data in listdata:

print(data[0])

comment_all.append(test2(data[1]))

with open('comments.txt',encoding='utf-8',mode='w') as f:

for comment in comment_all:

for comment_data in comment:

f.write(comment_data+'\n')

此方法在原有基础上,将评价信息首先存储到list列表中,然后通过for循环输出到txt文件中。

同时,test2()方法我们也做了两处地方的修改:

2. jieba分词

def splitword():

with open('comments.txt',encoding='utf-8',mode='r') as f:

listdata = f.readlines()

commentdata = []

for delword in ['我们','酒店','携程','就是','自己']:

jieba.del_word(delword)

for data in listdata:

commentdata.append(' '.join(jieba.cut(data,cut_all=False)))

dataall = ' '.join(commentdata)

return dataall

我们首先看一下txt文本中的数据形式:

此方法的作用是对这些长句子进行分词,以此来分析关键词。

通过jieba.del_word()方法,可以去掉一些没有意义的词语,这些词语出现频率高,但是对我们没有任何信息价值。

jieba.cut()参数1 是数据文本,类型需要时str。参数2是cut_all,为True是,为全模式,为False时,为精确模式。

3. wordcloud词云图

def word_cloud(dataall):

maskpng = np.array(Image.open('mask.png'))

WordClouds = WordCloud(background_color='white',

mask=maskpng,#遮罩图

font_path='font/msyh.ttf',#字体

max_words=50,#最大词数

random_state=50,#随机种子

scale=1.5 #放大比例

)

WordClouds.generate(dataall)

plt.imshow(WordClouds)

plt.axis('off')

plt.show()

首先我们创建一个WordCloud对象,然后设置相应的参数

使用WordClouds.generate(dataall) 生成词云图

plt.imshow(WordClouds)显示词云图

不显示坐标轴

由于我是在pycharm写的代码,所以需要写上plt.show() 才能够显示,jupyter notebook 上不用添加这个语句。

对象方法详细参数说明:详细参数说明

总结

词云图通过字体的大小来表示词语出现的频率,使我们能够更加直观的看到文本中的关键信息。同时这两个包还有很多其他的用法,大家可以多去尝试一下,在这里我们只是举了个非常简单的例子供大家参考。

最后附上jieba和wordcloud两个包的github地址

wordcloud

常简单的例子供大家参考。

python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析相关推荐

  1. python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  2. python爬歌词生成词云图_Python爬虫摇滚网易云音乐歌词生成词云图

    我相信经过前三篇文章,大家已经学会了怎么下载歌词和歌曲了.看了我的文章后开始行动起来的应该都享受到音乐的福利了.问一个问题,当你疲惫时,你想提起精神来去工作或者看书,你会选择听什么歌曲让自己兴奋起来呢 ...

  3. 【python】用python实现wordcloud大数据词云图分析

    [python]用python实现wordcloud大数据词云图分析 一.应用场景 二.工具包安装及代码 三.中文不能正常显示问题 四.关键词重复问题 五.最终结论 一.应用场景 大数据词云(word ...

  4. python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........

    原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...

  5. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  6. python爬网页统计数据_Python爬取阿拉丁统计信息过程图解

    背景 目前项目在移动端上,首推使用微信小程序.各项目的小程序访问数据有必要进行采集入库,方便后续做统计分析.虽然阿拉丁后台也提供了趋势分析等功能,但一个个的获取数据做数据分析是很痛苦的事情.通过将数据 ...

  7. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

  8. python爬取天气数据_Python爬取历史天气数据

    Python爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据的 ...

  9. python爬取大众点评数据_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...

    作者 | 胡萝卜酱 责编 | 伍杏玲 成都到处都是火锅店,有名的店,稍微去晚一点,排队都要排好久,没听说的店,又怕味道不好. 那么如何选择火锅店呢?最简单的肯定是在美团.大众点评上找一找啊.所以,本文 ...

最新文章

  1. mysql三次握手_一文彻底搞懂 TCP三次握手、四次挥手过程及原理
  2. 使用OneHotEncoderEstimator操作Affairs
  3. 学习css3中的动画
  4. 一个自定义类型的运算符重载的例子
  5. PHP从零开始--基础篇
  6. ASP.NET 使用Ajax(转)
  7. 如何修改 匿名类型 中的属性值 ?
  8. 实验五 网络编程与安全-----实验报告
  9. macOS Big Sur应用图标替换教程︳big sur图标包
  10. 央视报道短视频侵权 呼吁多方配合保护影视版权
  11. 刚刚GitHub 收购 npm,旨在提升开源软件供应链安全
  12. 开始菜单跑到左边去了_你的车“跑偏”吗?也许是你的方向盘本身就不正
  13. OGRE学习笔记(一)通过例子了解场景管理器---------地形创建
  14. python + opencv 中值滤波器、最大值滤波器和最小值滤波器
  15. win10环境redis集群搭建(非主从模式)
  16. 【超图+CESIUM】【基础API使用示例】47、超图|CESIUM - 平行光源设置
  17. Mdict to macOS Dictionary转换笔记
  18. 计算机公式SUBSTITUTE,SUBSTITUTE函数公式函数用法(查找替换)
  19. 大神之路:Java再撸一遍:Java多特么的线程
  20. 为何日本手机走不出国门?

热门文章

  1. 列表和字符串de各种捣蛋
  2. 深度技术 GHOST XP八分钟快速装机版 V5.0 发布[原生NTFS格式]
  3. WiFi 6e与wifi6有何区别?其作用又是什么
  4. asp.net中如何隐藏链接传的值
  5. 小宝宝乖乖(半岁了:)
  6. 性能测试如何进行需求分析
  7. 学习笔记2-ES6/TypeScript/JavaScript内存优化
  8. 骁龙865与鸿蒙900,麒麟9000性能详解:横向对比骁龙865 Plus/骁龙865谁更强?
  9. HTML JavaScript 命运石之门时间线动态时钟(附代码)
  10. 蚂蚁金服启动Pre-IPO轮融资;爱奇艺诉手机电影索赔百万;高通与华为谈专利纠纷丨价值早报