python爬虫 去哪网数据分析
#1.下载去哪网数据
import requests
import csv
import time
from bs4 import BeautifulSoup
#定义数据字典
subjects = {"游乐场","自然风光","文化古迹","城市观光"}
headers = {"User_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"}
#准备CSV文档
csv_file = open("data.csv","w+",encoding="utf-8-sig",newline="")
csv_writer = csv.writer(csv_file)
#将CSV文件的头写入到文件中
csv_writer.writerow(["景点名称","所在城市","景点类型","景点级别","景点地址","景点热度"])
#定义一个用来请求URL函数
def get_html_by_url(url):try:response = requests.get(url=url,headers=headers)if response.status_code == 200:return response.textexcept:print("爬虫数据错误!")
#解析HTML,并将数据插存入到CSV文件中
def parse_html(html,subject):#先判断HTML中是否有数据,则直接返回Noneif not html:return None#开始解析,创建BS类对象soupsoup = BeautifulSoup(html,"html.parser")#通过HTML代码的分析,我们发现所有的有效数据都在一个叫#所以我们要通过BS先查找search-list节点search_list = soup.find(id="search-list")#将search-list节点中所有的子节点获取到,形成一个列表items = search_list.find_all("div",class_="sight_item")#通过循环取出每一个景点中的信息数据for item in items:#获取景点名称name = item["data-sight-name"]#获取景点类别category = item["data-sight-category"]#获取景点城市city = item["data-districts"]#获取景点地址address = item["data-address"]#获取景点级别level = item.find("span",class_="level")level = level.text if level else ""#获取景点热度hot = item.find("span",class_="product_star_level")hot = hot.text if hot else ""#将数据写入到CSV文件中csv_writer.writerow([name,city,category,level,address,hot])
#开始执行爬虫
def start():for subject in subjects:for page in range(10):page+=1url = "https://piao.qunar.com/ticket/list.htm?keyword=热门景点&subject={}&page={}".format(subject,page)print(url)#获取指定url页面的html代码html = get_html_by_url(url)#解析htmlparse_html(html,subject)#每次下载数据之后,暂停3秒time.sleep(3)
if __name__ == "__main__":start()
#2.对数据进行清洗,将有效数据保存到CSV文件中
#3.通过Pandas对CSV数据进行分析
python爬虫 去哪网数据分析相关推荐
- python爬虫去哪儿网_大型爬虫案例:爬取去哪儿网
世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...
- python爬虫去哪儿网_用python爬虫爬取去哪儿4500个热门景点,看看国庆不能去哪儿...
引用 那么问题来了,去哪儿玩呢?百度输了个"国庆",出来的第一条居然是"去哪里旅游人少"--emmmmmmm,因缺思厅. 于是我萌生了通过旅游网站的景点销量来判 ...
- Python爬虫——去哪儿网评论
需求 由于疫情的影响,可能大家更加偏向于与家人在周边游~ 所以我们来到去哪儿网的周边游:https://dujia.qunar.com/p/around 界面如下: 可以看到,我们的周边游也有很多页的 ...
- 基于python的旅游系统_基于python的去哪儿网旅游数据分析
20011 基于python的去哪儿网旅游数据分析 运行视频.代码等: 链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg 提取码:1589 复制这段 ...
- python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
- python爬虫爬取网易云音乐歌曲_Python网易云音乐爬虫进阶篇
image.png 年前写过一篇爬网易云音乐评论的文章,爬不了多久又回被封,所以爬下来那么点根本做不了什么分析,后面就再改了下,加入了多线程,一次性爬一个歌手最热门50首歌曲的评论,算是进阶版了- 思 ...
- python爬虫----爬取网易云音乐
使用python爬虫爬取网易云音乐 目录 使用python爬虫爬取网易云音乐 需要使用的模块 开始工作 运行结果 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页 ...
- 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】
[大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...
- python爬虫17K小说网资料
python爬虫17K小说网资料 爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...
最新文章
- Servlet深入服务之响应response
- clob类型用java怎么存,Java 储存和读取 oracle CLOB 类型字段的实用方法
- iphone屏幕上的圆圈怎么设置_iphone亮度条不变屏幕变暗怎么回事【解决方法】
- WeChall_PHP-0817
- arpanet(阿帕网)
- 菜鸟也能搞定C++内存泄漏
- iPhone 诈骗又出新招,别看见弹窗就输密码
- 客户读取文件服务器上文件的过程,java从服务器上读取文件
- c# u盘使用记录_金属U盘定制加工 各种款式金属U盘加工
- 协议栈处理中的conntrack HASH查找/Bloom过滤/CACHE查找/大包与小包/分层处理风格
- The Willpower Instinct(自控力,意志力)
- NOIp2018集训test-10-20 (bike day6)
- [最短路-Floyd][数学]Luogu P1552 牛的旅行
- python获取灰度图边界
- win7计算机ip地址怎么查,win7电脑的IP地址怎样查看
- Java程序员是考研还是毕业就就业?
- Flutter Ticker类的用法
- 三子棋超详细思路及步骤
- 软工专硕考研_03 2018年考研经验贴:西安交通大学软件工程专硕
- 全网唯一正确身份证和社统一社会信用代码自定义表单校验器(身份证校验和社统一社会信用代码校验)