这两天获取了两份关于长沙的数据:长沙景点和长沙美食,之后进行了分析,如果有朋友想去长沙或者周边城市玩,要仔细看看喔。

导入库

长沙景点

数据获取

长沙景点的数据获取方法和之前那篇关于厦门的文章是一样的,只是重新跑了一遍代码,具体过程不再阐述,感兴趣的朋友可以看之前的文章,爬取的字段:

中文名

英文名

攻略数

评价数

位置

排名

驴友占比

简介

具体的源代码如下:

最终数据有1152条,数据中绝大部分是长沙的景点数据,也有少量少量周边城市,比如:宁乡、浏阳等的数据,整体的数据前5行如下:

下面重点介绍数据分析的过程

整体情况

首先看看整体的数据情况:

很显然:橘子洲、岳麓山、岳麓书院、太平老街排名靠前

排名靠前景点

看看排名靠前的景点是哪些?

通过排名我们发现:橘子洲(烟火、大桥、天心阁)、岳麓山(书院)、黄兴路步行街、马王堆汉墓遗址、湖南省博物馆,整体排名很靠前,深受游客们欢迎,具体看看排名前20的景点:

[图片上传失败…(image-809a5a-1633093980387)]

评论火爆景点

很多游客到了一个景点喜欢写评论,看下哪些景点获得大量的评论:

攻略在手,旅游不愁

出门旅游之前最好还是做一份旅游攻略,看看提供攻略最多的前10景点是哪些:

如果我们考虑前20个景点的攻略数:

驴友占比

我们爬取到的驴友数据是百分比,类型是字符串类型,我们现在去掉%符号,取出左边的数值,如果没有则用0代替,方便最终画图,具体操作如下:

取出排名前10的驴友占比景点:

景点介绍

获取到的abstract字段是用来描述景点的基本信息,可以用来制作词云图,具体处理过程如下:

长沙美食

第二部分介绍的是长沙(附近部分长沙)的美食,接下来从3个方面介绍:

字段获取

数据保存及处理

美食数据分析

发送请求

字段获取

名称cn_title

评分socre

均价person_avg

地址address

推荐菜recommand

评价comment

1、源码结构

网页显示每页有10个景点(最后页未必是10个),总共200页的数据,每个景点的信息包括在一个标签对中,我们只需要从标签中获取到相应的信息即可

2、名称和评分两个字段的获取相对简单,直接通过正则表达式来获取,关键字定位需要准确(以后会详细详解正则表达式的使用)

3、关于剩下4个字段的获取,相对复杂。因为他们并不是在每个店的信息中存在,有的,但是他们有一个共同点:全部是隐藏一个标签对中,而且每个字段都有自己的关键词

具体处理方法:先大后小

1、先整体:提取下面的全部信息

2、从步骤1的信息进行判断,获取4个单独字段

剩下3个字段处理类似:

4、上面是获取单页数据的解析过程,下面讲解如何获取200页的字段数据:

获取全网数据

5、提取到每个字段后生成整体数据,并保存:

美食数据分析

前期处理

在进行数据分析之前,需要进行前期的处理:

改变两字字段的数据类型:

长沙到底有几家文和友?

1、文和友是长沙的知名老店,那获取到的数据中有几家和文和友相关的店?

数据显示:20家

看看前5家:

2、哪家文和友得分最高?

我们看看前5名:

可以看到:府中路的这家店是评分最高的,网友给的评价是:

虾肉很新鲜,口感嫩滑,入味极佳,个人觉得不是很辣,但是如果对于吃辣程度一般的人来说,绝对足够了。

臭豆腐香不香?

1、看看数据中有臭豆腐店

数据显示有19家,我们看看前5家店

2、臭豆腐的价格如何?

太平街21号的一份臭豆腐31块?不知道香不香!!!

3、整体臭豆腐店的分布,基于得分和均价两个字段

茶颜悦色好喝吗?

1、数据中几家茶颜悦色的店?

数据显示是10家,但是我想长沙肯定是不止10家!!!数据量还是太少了

2、茶颜悦色价格如何?

筛选出价格大于0的,我们:茶颜悦色的价格基本在17元左右

[图片上传中…(image-7913eb-1633093980386-7)]

湖南人爱嗦粉

湖南人非常喜欢吃粉,尤其是常德的米粉非常出名

1、看看数据中有几家粉店?

数据显示有103家!!!果然湖南人爱嗦粉

2、查看得分排名前10的粉店

排名靠前的10位店价格基本上控制在14-15左右

3、米粉店整体分布

[图片上传中…(image-62ef48-1633093980386-5)]

4、店铺汇总

另外,查看数据发现,还有15家酒吧,28家火锅店,我们汇总下。数据量过少,仅供参考

网友推荐菜

对于网友的推荐菜,采用词云图展示:

总结

文章通过对两份数据获取和分析,数据量并不大,但还是想到长沙旅游的朋友几点建议:

1、橘子洲你应该去看看

从长沙景点数据分析中看出来,不管是整体排名、游客提供的攻略数、评论数,橘子洲都是排名第一的,可以在橘子洲大桥看烟火

2、五一广场真的很热门

五一广场整个片区很多吃喝玩乐的地方:太平老街、火宫殿、黄兴路步行街等,爱吃爱玩的你应该去

3、博物馆和遗址

如果喜欢历史,可以去湖南省博物馆、马王堆汉墓遗、长沙简牍博物馆址逛逛

4、不怕辣就吃龙虾

喜欢吃小龙虾的就去文和友吧,口味挺齐全的。推荐:海信广场店

5、一定要尝下湖南米粉

上面的数据已经显示了,大大小小的粉店在长沙太多了,到了长沙务必尝下,推荐:原味粉店家

送书

本周赠书:《Python最优算法实战》

从推公式到写代码:代码是联系理论和现实的桥梁,本书通过代码实现*化算法,将理论与实践相结合,在编程中思考算法的计算过程,并通过代码将算法应用在实际问题中,以达到解决问题的目的。

规则

抽奖说明:

书籍是全部免费包邮送出!本意是送给有真正需要的人,同时也是读者福利,所以有以下几点说明:

1、参与者须关注公众号**(同时仅限在本文右下角点击「点赞」的粉丝参与)**

2、未点点赞的中奖者获奖无效

3、为了大家都能有拿书机会,同一位读者一个月内只有一本!

·················END·················

[图片上传中…(image-b37e6d-1633093980384-1)]

我把手机打造成了 Python 开发利器,分享下攻略

[图片上传中…(image-a88646-1633093980375-0)]

为什么随机 IP、随机 UA 也逃不掉被反爬虫的命运

用 Python 爬取网红城市大长沙!相关推荐

  1. 去长沙没有攻略? Python 爬取网红城市大长沙游玩攻略,送给第一次去长沙的你。

    前言: 这两天获取了两份关于长沙的数据:长沙景点和长沙美食,之后进行了分析,如果有朋友想去长沙或者周边城市玩,要仔细看看喔. 导入库 import pandas as pd import re imp ...

  2. Python爬取网易云热歌榜所有音乐及其热评

    获取特定歌曲热评: 首先,我们打开网易云网页版,击排行榜,然后点击左侧云音乐热歌榜,如图: 关于如何抓取指定的歌曲的热评,参考这篇文章,很详细,对小白很友好: 手把手教你用Python爬取网易云40万 ...

  3. python爬取网易云音乐热评_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  4. python爬取网易云评论最多的歌_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  5. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...

    想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...

  6. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

  7. Python爬取网易云音乐热歌榜(爬虫)

    Python爬取网易云音乐热歌榜歌曲,并下载到本地 找到要下载歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更 ...

  8. python爬取网易云热歌榜

    Python爬取网易云音乐热歌榜歌曲,并下载到本地 找到要下载歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 #网易 ...

  9. python爬取网易云音乐生成王力宏歌曲词云

    python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...

最新文章

  1. JAVA-JSP内置对象之pageContext对象取得不同范围属性
  2. Javascript绝句欣赏
  3. 设计模式第19篇:访问者模式
  4. linux如何开启sni服务,Nginx开启单IP多SSL证书支持-TLS SNI support
  5. 五分钟教你如何用函数计算部署钉钉群发机器人
  6. 新手tiktok怎么做?海外tiktok怎么赚钱!
  7. atitit.团队建设总结o6o fix
  8. 2019全国地图数据下载-高德腾讯百度地图
  9. obs 推流编码在哪设置_直播工具OBS推流配置操作指引
  10. 职业发展的明线与暗线
  11. html有形状导航栏制作,div css制作导航栏
  12. 关于BottomNavigationView的使用姿势都在这里了
  13. 掌握Android图像显示原理(上)
  14. Apache——CVE-2021-41773
  15. 原创 | 大数据学习思维导图
  16. python 两点曲线_Python自学教程| 3万字详解每个重要知识点(内附视频)
  17. pdb文件及其作用(转)
  18. 抖音小黄车挂淘宝店相关问题记录
  19. Docker 入门终极指南,这是我见过最好的教程!
  20. outlook express 邮件报错:服务器错误: 0x800CCC90, 错误号: 0x800420CD

热门文章

  1. 阿里云虚拟主机使用教程
  2. 网络工程师考试(上午)考点分布导航图
  3. matlab中norm是什么函数
  4. C++STL标准库学习总结/索引/学习建议
  5. 机器学习(十四):K均值聚类(kmeans)
  6. 不到一百行python代码简单实现A星算法
  7. 渗透测试——信息收集(详细)
  8. 2022年深圳杯数学建模D题复杂水平井三维轨道设计解题全过程文档及程序
  9. 从0开始写bootloader
  10. 算法学习笔记--OJ入门