利用python爬取飞猪信息_python+selenium爬取飞猪酒店详情信息
import requests
from selenium import webdriver
from selenium.webdriver import ChromeOptions
import os
import json
import time
from lxml import etree
# zmip = requests.get('http://')#动态ip地址
# cc =zmip.content.decode()
# json =json.loads(cc)
#
# option = ChromeOptions()
# ip =str(json['data'][0]['ip'])+':'+str(json['data'][0]['port'])
# option.add_argument(('--proxy-server=' + ip))
#
#
# browser = webdriver.Chrome('G:\\Project\\feizhu\chromedriver.exe',options=option)
browser = webdriver.Chrome('G:\\Project\\feizhu\chromedriver.exe')
browser.get('https://login.taobao.com/member/login.jhtml?redirectURL=http%3A%2F%2Fhotel.alitrip.com%2Fhotel_detail2.htm%3Fspm%3D181.11197625.4973973.5.7be74a0axVB4BQ%26shid%3D50810030%26_output_charset%3Dutf8&uuid=4ab3c03469ac43b568df64d1ab6769b4')
browser.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys('user')
browser.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys('psw')
browser.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
time.sleep(2)
js = "window.open('https://hotel.alitrip.com/hotel_detail2.htm?spm=181.11197625.4973973.5.7be74a0axVB4BQ&shid=50810030&_output_charset=utf8')"
browser.execute_script(js)
browser.switch_to.window(browser.window_handles[1])
time.sleep(1)
# browser.find_element_by_xpath('.//*[@id="J_RoomList"]/div[2]/div/div/div/div/button').click()
# print(browser.page_source)
html = etree.HTML(browser.page_source)
biaoti=html.xpath('//*[@id="hotel-page"]/div/div[2]/div[3]/div[1]/h2/text()')[0]
lists=html.xpath('.//*[@id="J_RoomList"]')
for list in lists:
list_code= list.xpath('div/div/div/div[1]/div/button/@data-srtid')
for a in list_code:
for i in range(5):
js = f"window.open('https://hotel.fliggy.com/ajax/hotelDetailRT.htm?start=0{+i}&orderBy=0&orderDir=0&srtid={a}&drid=&checkIn=2020-10-29&checkOut=2020-10-30&searchBy=&laterPay=false&isFreeCancel&isInstantConfirm&_ksTS=1603764360489_1380&callback=jsonp1381&shid=50810030&city=510100&urlType=1&biParam=no&sellerIds=&activityCode=&filterByRoomTickets=&searchId=d-10194f44-8596-4e8d-b331-baa7f5a632d5')"
browser.execute_script(js)
browser.switch_to.window(browser.window_handles[-1])
time.sleep(2)
json_data=browser.page_source
print(json_data)
print('网址__'+browser.current_url)
print(biaoti)
利用python爬取飞猪信息_python+selenium爬取飞猪酒店详情信息相关推荐
- python爬取酒店信息_python selenium爬取去哪儿网的酒店信息(详细步骤及代码实现)...
准备工作 1.pip install selenium 2.配置浏览器驱动.配置其环境变量 Selenium3.x调用浏览器必须有一个webdriver驱动文件 Chrome驱动文件下载chromed ...
- python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
- Python爬虫:最牛逼的 selenium爬取方式!
Python爬虫:最牛逼的 selenium爬取方式! 作为一个男人 在最高光的时刻 这是小编准备的python爬虫学习资料,加群:700341555即可免费获取! Python爬虫:最牛逼的 sel ...
- python爬取豆瓣电影信息_Python|简单爬取豆瓣网电影信息
前言: 在掌握一些基础的爬虫知识后,就可以尝试做一些简单的爬虫来练一练手.今天要做的是利用xpath库来进行简单的数据的爬取.我们爬取的目标是电影的名字.导演和演员的信息.评分和url地址. 准备环境 ...
- python爬取微信好友信息_python itchat 爬取微信好友信息
「itchat」一个开源的微信个人接口,今天我们就用itchat爬取微信好友信息,无图言虚空 三张图分别是「微信好友头像拼接图」.「性别统计图」.「个性签名统计图」 「微信好友头像拼接图」 「性别统计 ...
- python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- 利用Python制作微信机器人(三)实现爬取JD商品价格
从前两篇的博客来看,目前已经实现了机器人单向给微信发消息,和与机器人进行交互式发消息,详情如下: 利用Python制作微信机器人(一)机器人单向发消息 利用Python制作微信机器人(二)与机器人进行 ...
- python爬虫爬取多个页面_Python 爬虫爬取多页数据
但是,按照常规的爬取方法是不可行的,因为数据是分页的: 最关键的是,不管是第几页,浏览器地址栏都是不变的,所以每次爬虫只能爬取第一页数据.为了获取新数据的信息,点击F12,查看页面源代码,可以发现数据 ...
- python爬取微博评论点赞数_Python selenium爬取微博数据代码实例
爬取某人的微博数据,把某人所有时间段的微博数据都爬下来. 具体思路: 创建driver-–get网页--找到并提取信息-–保存csv--翻页--get网页(开始循环)-----没有"下一页& ...
- python爬取付费漫画_python selenium爬取kuku漫画
在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会 ...
最新文章
- 五张动图,看清神经机器翻译里的Attention!
- 计算机应用基础知识点.pdf,《计算机应用基础》复习知识点.pdf
- npm 安装报错 rollbackFailedOptional verb npm-session无法解决?
- 红旗桌面版本最新运用方式和题目问题解答100例-4
- Python实例讲解 -- 图片处理
- 一名亚马逊软件工程师的辛酸苦楚
- 机器学习正面临着可重现性危机!
- 挑战malloc极限,看看你的系统有多大的内存分配能力
- 问题十七:怎么用ray tracing画多个球?
- Python_pip_03_安装模块出现错误时咋整
- Python网络爬虫
- PRD产品需求文档原型模版 Axure RP格式
- python 什么是原类_python中什么是类
- poj 3295 Tautology【离散数学之重言式】
- 仅有银行转账凭证,是否可认定为民间借贷关系
- SpringBoot-集成Shiro
- 问:未来5年的IT互联网行业,就业形势会是什么样的?
- Nodejs实现给手机发送短信验证码用于登录功能(免费短信)
- 报表服务器虚拟目录,报表服务器虚拟目录
- java 实体转map