python爬取去哪儿网酒店信息

利用selenium+python爬取去哪儿网酒店信息,获取酒店名称、酒店地址、第一条评论、评论数、最低价格等信息,写入excel表。

1、观察网页结构

浏览器地址栏输入https://hotel.qunar.com/city/xiamen/#fromDate=2020-01-01&cityurl=xiamen&toDate=2020-01-02&from=qunarHotel进入去哪儿网主页面,如下图:

右键点击网页查看源代码,观察结构,发现所要获取信息并未直接写在网页源码中,而是以Json的形式进行动态交互的,所需要信息封装在class='b_hlistPanel~之中。

2、爬取信息

# -*- coding:utf-8 -*-
import time
import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup# 创建EXCEL文件地址
EXCEL_PATH = '酒店信息.xlsx'
all_lists = []
number = 1path = r'C:\chromedriver'
driver = webdriver.Chrome(executable_path=path)
url = "https://hotel.qunar.com/city/xiamen/#fromDate=2020-01-01&cityurl=xiamen&toDate=2020-01-02&from=qunarHotel"
driver.get(url)
time.sleep(5)for z in range(0, 10): # 爬取页数设置for i in range(5):driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # 自动下拉网页time.sleep(3)page = driver.page_sourcehtml = BeautifulSoup(page, 'html.parser') # 从网页提取数据lists = html.find('div', class_='b_hlistPanel')for list in lists:name = list.find('a', class_='e_title js_list_name').get_text()address = list.find('span', class_='area_contair').get_text()comment = list.find('p', class_='review first_review').get_text()grade = list.find('p', class_='score').find('b').get_text()amount = list.find('p', class_='user_comment').find('cite').get_text()lowestprice = list.find('p', class_='item_price js_hasprice').find('b').get_text()goods = {'序号': number,'酒店名称':name,'地址':address,'评价':comment,'点评数':amount,'价格':lowestprice}number += 1all_lists.append(goods)df = pd.DataFrame(all_lists)
writer = pd.ExcelWriter(EXCEL_PATH)
df.to_excel(excel_writer=writer, columns=['序号', '酒店名称', '地址', '评价', '点评数', '价格'], index=False,encoding='utf-8', sheet_name='Sheet')
writer.save()
writer.close()
~

3、结果如下图


欢迎查看我的其他博客点击这里

python爬取去哪儿网酒店信息相关推荐

  1. 爬取去哪儿网酒店信息,再利用百度API将酒店地址的经纬度爬取!

    Python3 的 selenium库可以模拟打开页面,获得加载完成的页面信息,一些基本用法,请自行度娘,就不再赘述了 1.将某城市的所有酒店链接爬取下来. 先打开两个酒店页面 ** https:// ...

  2. 爬取去哪儿网酒店信息

    不说太多废话,就简单一句:你们你要爬哪里可以把地点改一下,还有时间改一下,爬取数量自己修改参数和代码,变化不大.有问题请留言,我不再次废话分析(这里我爬取的上海最近的酒店信息) # coding=ut ...

  3. 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

  4. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  5. python爬取去哪儿网机票_干货|Python爬取《去哪儿》攻略库,制作一份详细的旅行攻略,疫情后来一场说走就走的旅行!...

    去哪儿是中国领先的在线OTA网站,为消费者提供机票.酒店.会场 .度假产品的实时搜索,并提供旅游产品团购以及其他旅游信息服务.去哪儿网站上有丰富的图片.评论数据,这些大量的数据对于从事数据岗位的来说的 ...

  6. python爬取去哪儿网_python网络爬虫(12)去哪网酒店信息爬取

    目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源 少部分来源于书.python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...

  7. python爬取去哪网数据_用户观点:企查查数据爬取技术与Python 爬取企查查数据...

    主体数据来源是全国工商信用网但是每个省的工商系统都不同,要针对每个省的工商系统单独写爬虫每个省的验证码也不同,也要单独做.企查查的原理不是主动爬去数据,而是有人查询该企业时,如果自己的数据库没有该企业 ...

  8. 【pyecharts数据可视化】python爬取去哪儿网景点数据,做交互式数据可视化

    写在前面 在网易云课堂看到城市数据团大鹏老师讲的<Python数据可视化利器:Pyecharts!>[传送门],于是把前一篇南京的景点数据做一个可视化. 1.还是去哪儿网景点爬取 具体可以 ...

  9. python爬取去哪网数据_python最强的代理池,突破IP的封锁爬取海量数据(送项目源码)...

    一个强大到超乎你的想象的异步IP池项目--async-proxy-pool 随着大型网站反扒机制的增强,更改IP登陆已经成为一种最高效的方式,为此打造一款超强IP池项目,采用最新最快的Python技术 ...

最新文章

  1. 数据库系统概念 第六版 大学数据库代码
  2. 中科大 × MSRA | 周明博士讲座实录:自然语言处理让生活更美好
  3. 2021年春季学期-信号与系统-第八次作业参考答案
  4. 快速入门在Vue中使用滑动插件Swiper
  5. 我觉得要技术者上升到整体去考虑会好点
  6. 新媒体运营的“钱途”在哪里?
  7. ACM之八数码问题----BFS搜索----数独游戏的模拟(下)
  8. 27留数及其应用(三)
  9. 微软专家推荐11个Chrome 插件
  10. Windows下PHP环境的搭建
  11. thinkphp5.0接入芝麻信用分
  12. 扒一扒那些叫欧拉的定理们(一)——基本介绍和简单多面体欧拉定理
  13. 高薪程序员面试题精讲系列81之说一下SQL查询语句的执行顺序详解-作用篇(上)
  14. 欧拉线 Euler line
  15. 证明厄米矩阵不同特征值对应特征向量正交
  16. 北京计算机动漫游戏制作职高,北京的动漫学校(计算机动漫设计与制作)
  17. 信息安全工程师学习笔记《第四章》
  18. SQL计算两个日期之间的工作日天数,去除法定节假日和周末
  19. 前端-基础篇-HTML-HTML基本结构
  20. Redis安装与配置Redis安装与配置

热门文章

  1. Windows Server 2012 R2 部署MySQL服务 安装环境错误整理
  2. 信息系统项目管理师论文范例5:成本管理
  3. Javascript日期和时间戳(毫秒/秒)相互转化,日期分隔符不同转化结果不同
  4. 我的 keylogger 终于搞定了。。
  5. 同为高并发,微博热搜、天猫秒杀、12306 抢票有什么不同?
  6. 全图文详细记录安装 免费SSL证书
  7. 复化梯形公式、复化Simpon公式、Romberg算法(python)
  8. 博客生成静态站点工具 Top 30
  9. git提交代码常用命令
  10. 计算机安排表,计算机系考安排表.doc