#1.下载去哪网数据
import requests
import csv
import time
from bs4 import BeautifulSoup
#定义数据字典
subjects = {"游乐场","自然风光","文化古迹","城市观光"}
headers = {"User_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"}
#准备CSV文档
csv_file = open("data.csv","w+",encoding="utf-8-sig",newline="")
csv_writer = csv.writer(csv_file)
#将CSV文件的头写入到文件中
csv_writer.writerow(["景点名称","所在城市","景点类型","景点级别","景点地址","景点热度"])
#定义一个用来请求URL函数
def get_html_by_url(url):try:response = requests.get(url=url,headers=headers)if response.status_code == 200:return response.textexcept:print("爬虫数据错误!")
#解析HTML,并将数据插存入到CSV文件中
def parse_html(html,subject):#先判断HTML中是否有数据,则直接返回Noneif not html:return None#开始解析,创建BS类对象soupsoup = BeautifulSoup(html,"html.parser")#通过HTML代码的分析,我们发现所有的有效数据都在一个叫#所以我们要通过BS先查找search-list节点search_list = soup.find(id="search-list")#将search-list节点中所有的子节点获取到,形成一个列表items = search_list.find_all("div",class_="sight_item")#通过循环取出每一个景点中的信息数据for item in items:#获取景点名称name = item["data-sight-name"]#获取景点类别category = item["data-sight-category"]#获取景点城市city = item["data-districts"]#获取景点地址address = item["data-address"]#获取景点级别level = item.find("span",class_="level")level = level.text if level else ""#获取景点热度hot = item.find("span",class_="product_star_level")hot = hot.text if hot else ""#将数据写入到CSV文件中csv_writer.writerow([name,city,category,level,address,hot])
#开始执行爬虫
def start():for subject in subjects:for page in range(10):page+=1url = "https://piao.qunar.com/ticket/list.htm?keyword=热门景点&subject={}&page={}".format(subject,page)print(url)#获取指定url页面的html代码html = get_html_by_url(url)#解析htmlparse_html(html,subject)#每次下载数据之后,暂停3秒time.sleep(3)
if __name__ == "__main__":start()
#2.对数据进行清洗,将有效数据保存到CSV文件中
#3.通过Pandas对CSV数据进行分析

python爬虫 去哪网数据分析相关推荐

  1. python爬虫去哪儿网_大型爬虫案例:爬取去哪儿网

    世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...

  2. python爬虫去哪儿网_用python爬虫爬取去哪儿4500个热门景点,看看国庆不能去哪儿...

    引用 那么问题来了,去哪儿玩呢?百度输了个"国庆",出来的第一条居然是"去哪里旅游人少"--emmmmmmm,因缺思厅. 于是我萌生了通过旅游网站的景点销量来判 ...

  3. Python爬虫——去哪儿网评论

    需求 由于疫情的影响,可能大家更加偏向于与家人在周边游~ 所以我们来到去哪儿网的周边游:https://dujia.qunar.com/p/around 界面如下: 可以看到,我们的周边游也有很多页的 ...

  4. 基于python的旅游系统_基于python的去哪儿网旅游数据分析

    20011 基于python的去哪儿网旅游数据分析 运行视频.代码等: 链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg 提取码:1589 复制这段 ...

  5. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

  6. python爬虫爬取网易云音乐歌曲_Python网易云音乐爬虫进阶篇

    image.png 年前写过一篇爬网易云音乐评论的文章,爬不了多久又回被封,所以爬下来那么点根本做不了什么分析,后面就再改了下,加入了多线程,一次性爬一个歌手最热门50首歌曲的评论,算是进阶版了- 思 ...

  7. python爬虫----爬取网易云音乐

    使用python爬虫爬取网易云音乐 目录 使用python爬虫爬取网易云音乐 需要使用的模块 开始工作 运行结果 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页 ...

  8. 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】

    [大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...

  9. python爬虫17K小说网资料

    python爬虫17K小说网资料 爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名.作者.出版单位(或首发网站).出版时间(或网上发布时间).内容简介.小说封面图画.价格.读者 ...

最新文章

  1. Servlet深入服务之响应response
  2. clob类型用java怎么存,Java 储存和读取 oracle CLOB 类型字段的实用方法
  3. iphone屏幕上的圆圈怎么设置_iphone亮度条不变屏幕变暗怎么回事【解决方法】
  4. WeChall_PHP-0817
  5. arpanet(阿帕网)
  6. 菜鸟也能搞定C++内存泄漏
  7. iPhone 诈骗又出新招,别看见弹窗就输密码
  8. 客户读取文件服务器上文件的过程,java从服务器上读取文件
  9. c# u盘使用记录_金属U盘定制加工 各种款式金属U盘加工
  10. 协议栈处理中的conntrack HASH查找/Bloom过滤/CACHE查找/大包与小包/分层处理风格
  11. The Willpower Instinct(自控力,意志力)
  12. NOIp2018集训test-10-20 (bike day6)
  13. [最短路-Floyd][数学]Luogu P1552 牛的旅行
  14. python获取灰度图边界
  15. win7计算机ip地址怎么查,win7电脑的IP地址怎样查看
  16. Java程序员是考研还是毕业就就业?
  17. Flutter Ticker类的用法
  18. 三子棋超详细思路及步骤
  19. 软工专硕考研_03 2018年考研经验贴:西安交通大学软件工程专硕
  20. 全网唯一正确身份证和社统一社会信用代码自定义表单校验器(身份证校验和社统一社会信用代码校验)

热门文章

  1. AMD5470显卡Ubuntu下的U盘的使用
  2. 内存泄漏——内存溢出区别
  3. TensorNet——基于TensorFlow的大规模稀疏特征模型分布式训练框架
  4. C语言代码输出星期几,C语言程序设计: 输入年月日 然后输出是星期几
  5. wpf listview 切换数据源 位置不刷新_连载| 8 初识数据源
  6. golang转义json字符串
  7. 首次结算和汇总不一致处理方式总结
  8. 攻城掠地sdk服务器没有响应,攻城掠地没落的原因及对策
  9. JVM优化系列-JVM垃圾收集器介绍
  10. 计算机 未来哪种技术稀缺,2015级职业生涯规划考试试题