不说太多废话,就简单一句:你们你要爬哪里可以把地点改一下,还有时间改一下,爬取数量自己修改参数和代码,变化不大。有问题请留言,我不再次废话分析(这里我爬取的上海最近的酒店信息)

# coding=utf-8
import csv#用来储存文件的模块
import time
import requests
import json
import pandas as pd#excel出处理# 区域店铺id ct_Poi cateName抓取,传入参数为区域id
def crow_id(city):url = 'https://wxapp.qunar.com/api/hotel/hotellist'#目标网址headers = {"wx-v": "","content-type": "application/json","Connection": "Keep-Alive","Accept-Encoding": "gzip","wx-q": "","unionid": "ovaMOwE6dQvbGOmZjLLPaGSM5ZtU","openid": "oIjYJ0TuQcTF_WTWsKcUPR1cRJI0","wx-t": "","User-Agent": "Mozilla/5.0 (Linux; Android 6.0.1; OPPO A57 Build/MMB29M; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/55.0.2883.91 Mobile Safari/537.36 MicroMessenger/6.7.2.1340(0x2607023A) NetType/WIFI Language/zh_CN","charset": "utf-8","referer": "https://servicewechat.com/wx799d4d93a341b368/114/page-frame.html","Host": "wxapp.qunar.com","Cookie": "QN48=tc_437f21c62a765ca0_165c198a408_e56b; QN1=qunar; QN66=smart_app; QN1=O5cv+luWLPthsvB1BKl0Ag==","Content-Length": "0",}#请求头和cookiep0 = {'http': 'http://101.132.122.230:3128'}p1 = {'http': 'http://114.113.126.83:80'}p2 = {'http': 'http://210.45.123.127:9999'}p3 = {'http': 'http://118.190.217.182:80'}p4 = {'http': 'http://120.27.14.125:80'}p5 = {'http': 'http://118.31.223.194:3128'}p6 = {'http': 'http://101.37.79.125:3128'}p7 = {'http': 'http://125.62.26.197:3128'}p8 = {'http': 'http://218.60.8.98:3129'}p9 = {'http': 'http://114.215.95.188:3128'}p10 = {'http': 'http://218.60.8.99:3129'}p11 = {'http': 'http://218.60.8.83:3129'}p12 = {'http': 'http://118.190.217.61:80'}p13 = {'http': 'http://203.86.26.9:3128'}p14 = {'http': 'http://114.113.126.87:80'}p15 = {'http': 'http://106.12.32.43:3128'}#爬取不同页网址p = p1page = 1#抓取我们需要的数据data = {"city": city,"cityUrl": "","page": page,"extra": "{}","sort": "","keywords": "","checkOutDate": "2020-10-29","checkInDate": "2020-10-29","locationAreaFilter": "","comprehensiveFilter": "[]","fixedComprehensiveFilter": "[]","SDKVersion": "2.2.4","wxUnionId": "ovaMOwE6dQvbGOmZjLLPaGSM5ZtU","wxOpenId": "oIjYJ0TuQcTF_WTWsKcUPR1cRJI0","bd_source": "smart_app","bd_origin": "pt-onl-ots-ggjd",}r = requests.post(url, headers=headers, params=data, proxies=p)result = json.loads(r.text)pages = result['data']['totalPage']# pages=586hotel = result['data']# attrs = hotel['attrs']print("当前总页数:",pages)print("Page:%d" %page)print(len(hotel), pages)df = pd.DataFrame(data=hotel['hotels'])df.to_csv('qunaer9.csv', mode='a', header=False)df.drop(df.index, inplace=True)if pages > 1:pages = pages - pagepage +=1while pages >=0:data2 = {"city": city,"cityUrl": "","page": page,"extra": "{}","sort": "","keywords": "","checkOutDate": "2020-11-2","checkInDate": "2020-11-1","locationAreaFilter": "","comprehensiveFilter": "[]","fixedComprehensiveFilter": "[]","SDKVersion": "2.2.4","wxUnionId": "ovaMOwE6dQvbGOmZjLLPaGSM5ZtU","wxOpenId": "oIjYJ0TuQcTF_WTWsKcUPR1cRJI0","bd_source": "smart_app","bd_origin": "pt-onl-ots-ggjd",}try:r = requests.post(url, headers=headers, params=data2, proxies=p)print(len(hotel), pages)print(page)result = json.loads(r.text)hotel = result['data']# attrs = hotel['attrs']df = pd.DataFrame(data=hotel['hotels'])df.to_csv('qunaer9.csv',mode='a',header=False)df.drop(df.index,inplace=True)except Exception as e:print(e)finally:print("Page:%d" %page)pages -= 1page = page+1time.sleep(3.1)if __name__ == '__main__':a = {"areaObj": {"上海": [{"city": '上海'}]}}datas = a['areaObj']b = datas.values()area_list = []for data in b:for d in data[0:]:area_list.append(d)l = 0old = time.time()for i in range(len(area_list)):print("开始抓取%s区域:" % (area_list[i]['city']))crow_id(area_list[i]['city'])

爬取去哪儿网酒店信息相关推荐

  1. python爬取去哪儿网酒店信息

    python爬取去哪儿网酒店信息 利用selenium+python爬取去哪儿网酒店信息,获取酒店名称.酒店地址.第一条评论.评论数.最低价格等信息,写入excel表. 1.观察网页结构 浏览器地址栏 ...

  2. 爬取去哪儿网酒店信息,再利用百度API将酒店地址的经纬度爬取!

    Python3 的 selenium库可以模拟打开页面,获得加载完成的页面信息,一些基本用法,请自行度娘,就不再赘述了 1.将某城市的所有酒店链接爬取下来. 先打开两个酒店页面 ** https:// ...

  3. 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

  4. python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现

    目录 准备工作 一.webdriver部分 二.定位到新页面 三.提取酒店信息 ??这里要注意?? 四.输出结果 五.全部代码 准备工作 1.pip install selenium 2.配置浏览器驱 ...

  5. python爬取酒店信息_python selenium爬取去哪儿网的酒店信息(详细步骤及代码实现)...

    准备工作 1.pip install selenium 2.配置浏览器驱动.配置其环境变量 Selenium3.x调用浏览器必须有一个webdriver驱动文件 Chrome驱动文件下载chromed ...

  6. python爬虫去哪儿网_大型爬虫案例:爬取去哪儿网

    世界那么大,我想去看看.相信每到暑假期间,就会有很多人都想去旅游.但是去哪里玩,没有攻略这又是个问题.这次作者给大家带来的是爬取去哪网自由行数据.先来讲解一下大概思路,我们去一个城市旅行必定有一个出发 ...

  7. 使用Python requests和BeautifulSoup库爬取去哪儿网

    功能说明:爬取去哪儿网城市下面若干条景点详细信息并将数据导入Excel表(使用xlwt库) 爬取去哪儿网的教程参考自 https://blog.csdn.net/gscsd_t/article/det ...

  8. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  9. 使用python+selenium爬取同城旅游网机票信息

    最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...

最新文章

  1. ASP.NET MVC之从控制器传递数据到视图四种方式(一)
  2. .NET疯狂架构经验分享系列之(七)WCF支持(转)
  3. jQuery处理点击父级checkbox所有子级checkbox都选中,取消选中所有子级checkbox都取消...
  4. fiddler修改response header
  5. SD从零开始01-02
  6. (5)css样式表特征
  7. MySql事务隔离级别概述
  8. html target=_blank 弹出独立窗口,HTML base 标签的 target 属性 —— base target=_blank /...
  9. securerandom java_Java 随机数 Random VS SecureRandom
  10. ERP员工入职登记(五)
  11. 如何生成SSH key
  12. 电商宝:做最懂电商卖家的财务管理“小秘书”
  13. 详解LDC架构-设计业务异地多活架构
  14. 浅聊矢量场 —— 3. 什么是旋度(Rotational Vector)
  15. 人人都懂设计模式--Everybody Know Design Patterns : How to comprehend Design Patterns from daily life
  16. Windows注册表的基本知识及应用
  17. L2-039 清点代码库
  18. 信号量——计数信号量
  19. 电脑双屏开机后副屏黑屏,电脑开机显示器黑屏,教您电脑开机后屏幕黑屏怎么解决...
  20. WebRTC Video JitterBuffer

热门文章

  1. 巧算24点C语言程序设计,巧算24点??
  2. python追踪屏幕的移动目标_利用树莓派和Python建立一个简单、便宜的移动目标探测器...
  3. TIB自动化测试快讯 -- 自动化测试空间一周精选(2012-2-6)
  4. 蜜蜂会发现蜜没了吗?
  5. 如何用家用普通路由器中继(放大)其他wifi信号
  6. Windows下msysGit安装
  7. 大众文艺杂志大众文艺杂志社大众文艺编辑部2022年第9期目录
  8. AHCI协议、NVME协议、SATA总线、PCIe总线、SATA接口、PCIe接口、M.2接口
  9. 计算机专业中级竞聘 报告,中级干部竞聘上岗演讲稿
  10. 合成/聚合复用原则(CARP)