requests模块

前言:

通常我们利用Python写一些WEB程序、webAPI部署在服务端,让客户端request,我们作为服务器端response数据;

但也可以反主为客利用Python的requests模块模拟浏览器行为,向其他站点发送request,让其他站点response数据给我们;

一、requests模块介绍

requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(其本质就是封装了urllib3),

特点:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求

1、安装requests模块

pip3 install requests

2、requests模块支持的请求方式

常用的就是requests.get()和requests.post(),建议在正式学习requests前,先熟悉下HTTP协议;http://www.cnblogs.com/linhaifeng/p/6266327.html

>>> import requests

>>> r = requests.get('https://api.github.com/events')

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})

>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})

>>> r = requests.delete('http://httpbin.org/delete')

>>> r = requests.head('http://httpbin.org/get')

>>> r = requests.options('http://httpbin.org/get')

二、requests发送GET请求

1、基本get请求

import requests

response=requests.get('http://dig.chouti.com/')

print(response.text)

response查看response编码

respose.encoding:查看返回网页数据默认编码

import requests

url='https://www.baidu.com/'

respose=requests.get(

url=url,

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1;Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

})

print(respose.encoding)#查看网页编码

respose.encoding='utf-8' #设置网页编码

print(respose.status_code)

with open('a.html','w',encoding='utf-8') as f:

f.write(respose.text)

2、带参数的GET请求

url编码

#带参数的url,+url编码

from urllib.parse import urlencode

import requests

k=input('输入关键字: ').strip()

res=urlencode({'wd':k},encoding='utf-8') #url编码

respose=requests.get('https://www.baidu.com/s?%s'% res,

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

},

# params={'wd':k}

)

with open('a.html','w',encoding='utf-8') as f:

f.write(respose.text)

headers设置请求头

respose=requests.get('https://www.baidu.com/s?%s'% res,

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

},

params 请求参数设置(自动处理URL后参数编码)

k=input('输入关键字: ').strip()

# res=urlencode({'wd':k},encoding='utf-8') #url编码

respose=requests.get('https://www.baidu.com/s?',

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

},

params={'wd':k}

)

with open('a.html','w',encoding='utf-8') as f:

f.write(respose.text)

Cookies 请求携带cookie信息

respose=requests.get('https://www.baidu.com/s?',

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

},

params={'wd':k},

Cookies={'user_session':'wGMHFJKgDcmRIVvcA14_Wrt_3xaUyJNsBnPbYzEL6L0bHcfc'},

)

allow_redirects=False 禁止根据resposes的响应头的location做页面跳转,默认是true跳转;

设置为flase可以停留在本次请求(request),获取本次响应(responses)响应头,让跳转的loction地址;否则跳转了获取得就是跳转之后页面的响应内容了!

r3=session.get('https://passport.lagou.com/grantServiceTicket/grant.html',

headers={

'Referer':'//passport.lagou.com/login/login.html',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',

'Host':'passport.lagou.com',

},

allow_redirects = False # 禁止授权完成之后,禁止做页面跳转

,

)

小结:

L3Byb3h5L2h0dHBzL2ltYWdlczIwMTcuY25ibG9ncy5jb20vYmxvZy8xMTIyODY1LzIwMTcxMS8xMTIyODY1LTIwMTcxMTEzMTUxMjQzOTM3LTU4OTUzOTI4LnBuZw==.jpg

三、requests发送POST请求

1、get请求和post请求的区别

GET请求:HTPP默认的请求方式是GET;

GETt请求的特点:

*没有请求体,携带数据保存在URL后面

*GET请求携带的参数必须在1k之内

*GET请求的携带的数据由于封装在URL后面,所以会暴露在浏览器地址栏中

POST请求:用户先server端提交上传数据一般会使用POST请求

POST请求的特点:

*有请求体,数据保存在请求体中

*上传提交的数据无上限

*请求体中如果存在中文,会使用URL编码!

小结:

requests.post()用法与requests.get()完全一致,特殊的是requests.post()有一个data参数,用来存放请求体数据,也就是POST请求的请求体;

2、发送post请求,模拟浏览器的登录github

import requests

import re

#访问登录页面

r1=requests.get('https://github.com/login/',

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'},

)

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text,re.S)[0]

# print(r1.cookies.items()) #获取元祖类型的cookies信息

# print(r1.cookies.get_dict())#获取字典类型的cokies信息

cookies=r1.cookies.get_dict()

#访问登录页面

r2=requests.post('https://github.com/session',

data={

'commit':'Sign in',

'utf8':'✓',

'authenticity_token':authenticity_token,

'login':'13220198866@163.com',

'password':'123.com'},

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'},

cookies=cookies)

#访问设置个人主页

cookies2=r2.cookies.get_dict() #获取登录页面返回的cokies信息

r3=requests.get('https://github.com/settings/emails',cookies=cookies2)

print('13220198866@163.com' in r3.text )

3、使用request.post() 之 content-type

requests.post(url='xxxxxxxx',

data={'xxx':'yyy'}) #没有指定请求头,#默认的请求头:application/x-www-form-urlencoed

#如果需要向server端传说json数据,必须设置 content-ype:application/json,并且用data传值, 否则服务端取不到值

requests.post(url='',

data={'':1,},

headers={

'content-type':'application/json'

})

四 、requests模块的响应Response

当我们使用requets模块,发送了正确GET/POST请求之后,服务端势必会给我们一个response(响应内容)

1、response属性

respose=requests.get('http://www.cnblogs.com/sss4/')

print(respose.text) #显示文本内容

print(respose.content) #显示二进制内容(比如爬 图片 或视频需要)

print(respose.status_code) #返回的状态码

print(respose.headers) #获取响应头

print(respose.cookies) #获取服务端响应的cokies信息

print(respose.cookies.get_dict()) #获取字典形式的cokies信息

print(respose.cookies.items()) #获取列表类型的cookis信息

print(respose.url) #获取请求的URLhttp://www.cnblogs.com/sss4/

print(respose.history)#获取跳转前的url

print(respose.json()) #获取json数据

respose.encoding='gbk'#设置 requests模块的编码

五、requests模块的高级用法

1、SSL Cert Verification(验证证书)

大家平时访问某网站的时候,URL是以https开头的,这是为什么呢?

https是http+ssl协议:基于证书校验的http协议

世界上有一个专门负责为浏览器颁发证书的CA机构

某些网站会去CA中心买1个数字证书,这样浏览器每次去访问该网站都会去访问权威CA机构,获取该证书携带该证书过去访问该网站;

还有一类网站不愿去花钱去CA购买权威的证书,自己搭建了一个颁发证书的CA,这些CA中心是不被浏览器认可的,所以每次访问这些网站的时候,浏览器会去私有证书颁发机构获取证书,浏览器会提示用户这是一个不安全的链接,让用户选择处理;

我们在做爬虫的时候如何绕过证书验证环节呢?

情况1:不再证书验证

不做证书验证的情况,在某些情况下是行不通的的;

除非某些网站购买的是权威的CA证书,已经和浏览器和操作系统做了合作下载浏览器时把证书自带下载好了;(提升了用户体验,也提升了安全性。)

另外一种情况是 虽然该网站做了证书验证,但是不使用https协议也能正常登录;(用户体验为上)

verify=False 代表不做证书验证

#证书验证(大部分网站都是https)

import requests

respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端

去掉报错,并且去掉警报信息

import requests

from requests.packages import urllib3

urllib3.disable_warnings() #关闭警告

respone=requests.get('https://www.12306.cn',verify=False)

print(respone.status_code)

情况2:必须做用户证书验证的网站

但是一些网站必须硬性要求浏览器携带证书,比如12306这种刚需网站,如何破?(安全至上)

import requests

respone=requests.get('https://www.12306.cn',

cert=('/path/server.crt',

'/path/key'))

print(respone.status_code)

2、使用爬虫代理

如果你使用爬某网站的频率过高,IP会被该网站封掉,如何破?找一个代理使用别人的IP地址去访问

#官网链接: http://docs.python-requests.org/en/master/user/advanced/#proxies

#代理设置:先发送请求给代理,然后由代理帮忙发送(封ip是常见的事情)

import requests

proxies={

'http':'http://egon:123@localhost:9743',#带用户名密码的代理,@符号前是用户名与密码

'http':'http://localhost:9743',

'https':'https://localhost:9743',

}

respone=requests.get('https://www.12306.cn',

proxies=proxies)

print(respone.status_code)

#支持socks代理,安装:pip install requests[socks]

import requests

proxies = {

'http': 'socks5://user:pass@host:port',

'https': 'socks5://user:pass@host:port'

}

respone=requests.get('https://www.12306.cn',

proxies=proxies)

print(respone.status_code)

3、超时设置

import requests

result=requests.get('https://www.baidu.com/',timeout=0.0001 ) #timeout=0.0001 代表 请求+接收服务端数据的总时间;

#如果想明确控制 连接 和 等待接收服务端数据的时间timeout=(1,2))

result2=requests.get('https://www.baidu.com/',timeout=(1,2)) #timeout=(0.1,0.2)#0.1代表链接超时时间 0.2代表接收数据的超时时间

4、 认证设置

爬取公司内网需要输入用户名和密码的 内网 例如:监控系统、乐视人(线上报销)

#官网链接:http://docs.python-requests.org/en/master/user/authentication/

#认证设置:登陆网站是,弹出一个框,要求你输入用户名密码(与alter很类似),此时是无法获取html的

# 但本质原理是拼接成请求头发送

# r.headers['Authorization'] = _basic_auth_str(self.username, self.password)

# 一般的网站都不用默认的加密方式,都是自己写

# 那么我们就需要按照网站的加密方式,自己写一个类似于_basic_auth_str的方法

# 得到加密字符串后添加到请求头

# r.headers['Authorization'] =func('.....')

#看一看默认的加密方式吧,通常网站都不会用默认的加密设置

import requests

from requests.auth import HTTPBasicAuth

r=requests.get('xxx',auth=HTTPBasicAuth('user','password'))

print(r.status_code)

#HTTPBasicAuth可以简写为如下格式

import requests

r=requests.get('xxx',auth=('user','password'))

print(r.status_code)

5、requests模块自带异常处理

#异常处理

import requests

from requests.exceptions import * #可以查看requests.exceptions获取异常类型

try:

r=requests.get('http://www.baidu.com',timeout=0.00001)

except ReadTimeout:

print('===:')

# except ConnectionError: #网络不通

# print('-----')

# except Timeout:

# print('aaaaa')

except RequestException:

print('Error')

6、使用requests模块上传文件

import requests

files={'file':open('a.jpg','rb')}

respone=requests.post('http://httpbin.org/post',files=files)

print(respone.status_code)

六、requests.session()方法

每次写爬虫都要在响应头中获取cokies信息,然后在把获取的cokies信息加在请求头,太繁琐了;

如果有了 requests.session()对象,就可以自动处理cokies问题了;

session= requests.session() #相当于设置了 一个会话相关的容器,把所有会话相关的cookie都存放起来(自动保存cookie问题)

r1=session.get('https://github.com/login/',

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'},

)

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text,re.S)[0]

瞎驴博客:

selenium模块

前言:

由于requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断;

selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的;

一、安装selenium+chromdriver.exe

1.安装selenium

pip install selenium

2.下载chromdriver.exe放置python安装路径/scripts目录下

下载chromdriver.exe放到python安装路径的scripts目录中即可,注意最新版本是2.29,并非2.9

国内镜像网站地址:http://npm.taobao.org/mirrors/chromedriver/2.29/

最新的版本去官网找:https://sites.google.com/a/chromium.org/chromedriver/downloads

3.测试是否安装成功

from selenium import webdriver

browser=webdriver.Chrome() #实例化1个谷歌浏览器对象

browser.get('https://www.baidu.com/') #开始

二、selenium基本使用

import time

from selenium import webdriver#驱动浏览器

from selenium.webdriver import ActionChains #滑动

from selenium.webdriver.common.by import By #选择器

from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC #等待所有标签加载完毕

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载完毕 寻找某些元素

browser=webdriver.Chrome() #调用Chrome 驱动,生成浏览器对象

wait=WebDriverWait(browser,10) #设置selenium等待浏览器加载完毕的最大等待时间

try:

browser.get('https://www.baidu.com/')

baidu_input_tag=browser.find_element_by_id("kw") #寻找到百度页面的id='kw'的标签

key=baidu_input_tag.send_keys('张根') #在标签中输入'张根'

baidu_button_tag=browser.find_element_by_id('su') #寻找到百度页面id='su'的标签

baidu_button_tag.click() #点击

wait.until(EC.presence_of_element_located((By.ID,''))) #等待百度页面 ID='4'的标签完毕,最大等待10秒

'''

请求相关:

browser.get('url')

响应相关:

print(browser.page_source) #显示网页源码

print(browser.current_url) #获取当前url

print(browser.get_cookies()) #获取当前网页cokies

'''

finally:

time.sleep(5)

browser.close() #关闭浏览器

三、selenium选择器

模拟浏览器无非请求---->显示页面----->寻找标签 ------>点击标签的事件,所以selenium的关键是怎么找到页面中的标签,进而触发标签事件;

1.通过标签id属性进行定位

browser.find_element(By.ID,'kw').send_keys("美女")

browser.find_element_by_id('kw').send_keys('性感')

2.通过标签name属性进行定位

browser.find_element_by_name("wd").send_keys("Linux")

browser.find_element(By.NAME,'wd').send_keys("美女")

3.通过标签名进行定位

browser.find_element_by_tag_name("input").send_keys("selenium")

browser.find_element(By.TAG_NAME, 'input').send_keys('aaa')

4.通过CSS查找方式进行定位

browser.find_element(By.CSS_SELECTOR, '#kw').send_keys('python django')

browser.find_element(By.CSS_SELECTOR, '#kw').send_keys('python 之美')

5.通过xphan方式定位

browser.find_element_by_xpath('//*[@id="kw"]').send_keys("python Tornado")

browser.find_element(By.XPATH, '//*[@id="kw"]').send_keys('吐槽大会')

6.通过搜索 页面中 链接进行定位

有时候不是一个输入框也不是一个按钮,而是一个文字链接,我们可以通过link

browser.find_element_by_link_text("新闻").click()

7.通过搜索 页面中 链接进行定位 ,可以支持模糊匹配

browser.find_element_by_partial_link_text("新").click()

browser.find_element_by_partial_link_text("闻").click()

8.小结

上述均可以改写成find_element(By.ID,'kw')的形式

find_elements_by_xxx的形式是查找到多个元素,结果为列表

import time

from selenium import webdriver#驱动浏览器

from selenium.webdriver import ActionChains #滑动

from selenium.webdriver.common.by import By #选择器

from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC #等待所有标签加载完毕

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载完毕 寻找某些元素

browser=webdriver.Chrome() #调用Chrome 驱动,生成浏览器对象

wait=WebDriverWait(browser,10) #设置selenium等待浏览器加载完毕的最大等待时间

try:

browser.get('https://www.baidu.com/')

#通过标签id属性进行定位

# browser.find_element(By.ID,'kw').send_keys("美女")

# browser.find_element_by_id('kw').send_keys('性感')

#通过标签name属性进行定位

# browser.find_element_by_name("wd").send_keys("Linux")

# browser.find_element(By.NAME,'wd').send_keys("美女")

#通过标签名称进行定位

# browser.find_element_by_tag_name("input").send_keys("selenium")

# browser.find_element(By.TAG_NAME, 'input').send_keys('aaa')

# 通过CSS查找方式进行定位

# browser.find_element(By.CSS_SELECTOR, '#kw').send_keys('python django')

# browser.find_element(By.CSS_SELECTOR, '#kw').send_keys('泰山')

# 通过xphan方式定位

# browser.find_element_by_xpath('//*[@id="kw"]').send_keys("python Tornado")

# browser.find_element(By.XPATH, '//*[@id="kw"]').send_keys('吐槽大会')

# 通过搜索 页面中 链接进行定位

# browser.find_element_by_link_text("新闻").click()

#通过搜索 页面中 链接进行定位 ,可以支持模糊匹配

# browser.find_element_by_partial_link_text("新").click()

# browser.find_element_by_partial_link_text("闻").click()

finally:

browser.find_element_by_id("su").click()

time.time(3)

browser.close() # 关闭浏览器browser.quit()

示例

四、等待元素被加载

#1、selenium只是模拟浏览器的行为,而浏览器解析页面是需要时间的(执行css,js),一些元素可能需要过一段时间才能加载出来,为了保证能查找到元素,必须等待

#2、等待的方式分两种:

wait=WebDriverWait(browser,10) #显式等待

wait1=browser.implicitly_wait(10) #隐式等待

wait.until(EC.presence_of_element_located((By.CLASS_NAME,'tH0')))

'''

显式等待:指定等待某个标签加载完毕

隐式等待:等待所有标签加载完毕

'''

五、元素交互操作

0.ActionChains(动作链)

用selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况(如:iframe标签),比如单击、双击、点击鼠标右键、拖拽(滑动验证)等等。而selenium给我们提供了一个类来处理这类事件——ActionChains;

#iframe标签切换

# 如果网页页面嵌套frame标签,子页面访问不到父页面的内容,父页面也访问不到子页面的内容所以需要切换;

from selenium import webdriver

from selenium.webdriver import ActionChains #鼠标键盘动作链

from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys # 键盘按键操作

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素

import time

browser=webdriver.Chrome()

wait1=WebDriverWait(browser,10)

browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

browser.switch_to.frame('iframeResult')#切换到id='iframewrapper'的iframe子标签

action_chains=ActionChains(browser) #实例化1个动作链队列

source=browser.find_element_by_id('draggable') #找到拖拽的源标签

target=browser.find_element_by_id('droppable')#找到拖拽的目标标签

action_chains.drag_and_drop(source,target).perform()#把动作放到动作链中,perform()准备串行执行;

'''

click(on_element=None) ——单击鼠标左键

click_and_hold(on_element=None) ——点击鼠标左键,不松开

context_click(on_element=None) ——点击鼠标右键

double_click(on_element=None) ——双击鼠标左键

drag_and_drop(source, target) ——拖拽到某个元素然后松开

drag_and_drop_by_offset(source, xoffset, yoffset) ——拖拽到某个坐标然后松开

key_down(value, element=None) ——按下某个键盘上的键

key_up(value, element=None) ——松开某个键

move_by_offset(xoffset, yoffset) ——鼠标从当前位置移动到某个坐标

move_to_element(to_element) ——鼠标移动到某个元素

move_to_element_with_offset(to_element, xoffset, yoffset) ——移动到距某个元素(左上角坐标)多少距离的位置

perform() ——执行链中的所有动作

release(on_element=None) ——在某个元素位置松开鼠标左键

send_keys(*keys_to_send) ——发送某个键到当前焦点的元素

send_keys_to_element(element, *keys_to_send) ——发送某个键到指定元素

'''

time.sleep(5)

browser.quit()

ActionChains动作链示例

关于ActionChains参看:http://blog.csdn.net/huilan_same/article/details/52305176

1.点击,清空

import time

from selenium import webdriver#驱动浏览器

from selenium.webdriver import ActionChains #滑动

from selenium.webdriver.common.by import By #选择器

from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC #等待所有标签加载完毕

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载完毕 寻找某些元素

browser=webdriver.Chrome() #调用Chrome 驱动,生成浏览器对象

wait=WebDriverWait(browser,10) #设置selenium等待浏览器加载完毕的最大等待时间

browser.get('https://www.baidu.com/')

browser.find_element(By.ID,'kw').send_keys("美女")

browser.find_element_by_id("su").click()#点击按钮

time.sleep(4)

browser.find_element(By.ID,'kw').clear()#清空input标签中的内容,让重新输入

browser.find_element_by_id('kw').send_keys('性感')

browser.find_element_by_id("su").click() #点击按钮

点击和清空

2.前进和后退

L3Byb3h5L2h0dHBzL2ltYWdlczIwMTcuY25ibG9ncy5jb20vYmxvZy8xMTIyODY1LzIwMTgwMS8xMTIyODY1LTIwMTgwMTIxMTA1NzU2NzcxLTIwNjg5MDA2MjUucG5n.jpg

import time

from selenium import webdriver#驱动浏览器

from selenium.webdriver import ActionChains #滑动

from selenium.webdriver.common.by import By #选择器

from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC #等待所有标签加载完毕

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载完毕 寻找某些元素

import time

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('http://www.cnblogs.com/sss4/')

browser.find_element_by_partial_link_text( 'PythonWEB框架之Flask').click()

time.sleep(3)

browser.back() #后退

time.sleep(3)

browser.forward() #前进

time.sleep(5)

browser.close()

示例

3.cokies相关

import time

from selenium import webdriver#驱动浏览器

from selenium.webdriver import ActionChains #滑动

from selenium.webdriver.common.by import By #选择器

from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR

from selenium.webdriver.common.keys import Keys #键盘按键操作

from selenium.webdriver.support import expected_conditions as EC #等待所有标签加载完毕

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载完毕 寻找某些元素

from selenium import webdriver

browser=webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

print(browser.get_cookies()) #获取cokies信息

browser.add_cookie({'k1':'xxx','k2':'yyy'}) #添加cokies信息

print(browser.get_cookies())

browser.delete_all_cookies() #删除cokies信息,慎用

示例

4.选项卡管理

L3Byb3h5L2h0dHBzL2ltYWdlczIwMTcuY25ibG9ncy5jb20vYmxvZy8xMTIyODY1LzIwMTgwMS8xMTIyODY1LTIwMTgwMTIxMTEwODAyMjcxLTE2ODkwNDM4NzYucG5n.jpg

from selenium import webdriver

browser=webdriver.Chrome()

browser.execute_script('window.open()') #打开选项卡

browser.execute_script('window.open()')

print(browser.window_handles) #获取所有的选项卡

browser.switch_to_window(browser.window_handles[0]) #切换至选项卡0

browser.get('https://www.taobao.com')

browser.switch_to_window(browser.window_handles[1]) #切换至选项卡1

browser.get('https://www.baidu.com')

browser.switch_to_window(browser.window_handles[2]) #切换至选项卡2

browser.get('https://v.qq.com/')

示例

5.selenium异常处理

from selenium import webdriver

from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException

try:

browser=webdriver.Chrome()

browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

browser.switch_to.frame('iframssseResult')

except TimeoutException as e:

print(e)

except NoSuchFrameException as e:

print(e)

finally:

browser.close()

示例

参考:

爬虫(五)—— selenium模块启动浏览器自动化测试

目录 selenium模块 一.selenium介绍 二.环境搭建 三.使用selenium模块 1.使用chrome并设置为无GUI模式 2.使用chrome有GUI模式 3.查找元素 4.获取标签 ...

requests+selenium==requestium模块介绍

有时,你可能会在网上实现一些自动化操作.比如抓取网站,进行应用测试,或在网上填表,但又不想使用API,这时自动化就变得很必要.Python提供了非常优秀的Requests库可以辅助进行这些操作.可惜, ...

第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求

第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为 ...

第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS

第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求

selenium模块 selenium模块为第三方模块需要安装,selenium模块是一个操作各种浏览器对应软件的api接口模块 selenium模块是一个操作各种浏览器对应软件的api接口模块,所以 ...

十六 web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS

PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的 ...

用selenium 模块控制浏览器

11.8 用selenium 模块控制浏览器selenium 模块让Python 直接控制浏览器,实际点击链接,填写登录信息,几乎就像是有一个人类用户在与页面交互.与Requests 和Beautif ...

selenium模块控制浏览器

利用selenium模块控制浏览器 导入selenium模块:from selenium import webdriver browserFirefox = webdriver.Firefox()#打 ...

python Web抓取(二)selenium模块的使用、对浏览器的按键操作及错误处理

建议以下帖子: 教你在Windows上搭建Python+Selenium环境:https://blog.csdn.net/huilan_same/article/details/52888262 py ...

随机推荐

有关attribute和property,以及各自对select中option的影响

这个问题老生常谈,但是直到现在我依旧时常会把它搞混.下面列一些各自的特性.   attribute property 设置方法 option.setAttribute('selected', true ...

ImFire即时通讯系统构建(需求)

ImFire需求 一期需求(近期) 1.新用户(账号)注册. 2.用户登入登出,支持pc端,移动端同时登录. 3.获取好友列表,包含好友的各种信息,状态. 4.根据用户id或用户名申请添加好友. 5. ...

c#中winform的MVP模式的简单实现

MVP模式是类似于MVC模式的一种设计模式,最近在做项目学习过程中遇到,弄了很久终于有一些眉目,这是学习过程中的一些笔记.MVP指的是实体对象Model.视图Viw和业务处理Presenter.MVP ...

如何在cocos2dx lua的回调函数里面用self

回调里的self是另一个不同的东西了,通常是触发回调的对象,或_G或nil ,视情况而定 我的 print(self) 输出 userdata function MyClass:sayFromCall ...

ATL一:CWindowImpl

1,#ifdef _ATL_DISABLE_NO_VTABLE#define ATL_NO_VTABLE#else#define ATL_NO_VTABLE __declspec(novtable)# ...

HW7.6

import java.util.Scanner; public class Solution { public static void main(String[] args) { Scanner i ...

Repeater在无数据记录时显示暂无数据

原文:Repeater在无数据记录时显示暂无数据 方法就是在FooterTemplate加个Label并根据repeater.Items.Count判断是否有记录.关键代码如下:

【LeetCode】306. Additive Number

题目: Additive number is a string whose digits can form additive sequence. A valid additive sequence s ...

H5数飞机

当时进入民航大培训前做过一系列的测试,一共是8个小游戏,主要测试情景意识.反应能力.场面控制之类的,有几个还记忆犹新,这个数飞机只是其中之一,今天没事用JavaScript做了一遍. 原理 逻辑比较简 ...

Nginx代理与负载均衡

序言 Nginx的代理功能与负载均衡功能是最常被用到的,关于nginx的基本语法常识与配置已在上篇文章中有说明,这篇就开门见山,先描述一些关于代理功能的配置,再说明负载均衡详细. Nginx代理服务的 ...

python 模拟用户点击浏览器_浏览器行为模拟之requests、selenium模块相关推荐

  1. android 滑动过程 触发,android 代码实现模拟用户点击、滑动等操作

    /** * 模拟用户点击 * * @param view 要触发操作的view * @param x 相对于要操作view的左上角x轴偏移量 * @param y 相对于要操作view的左上角y轴偏移 ...

  2. 安卓java 模拟点击类_Android模拟用户点击的实现方法

    前言 Android模拟用户点击.在自动化测试中可使用的工具. 可以利用adb命令,也可以使用Android SDK中的monkeyrunner工具. win7-64 gitbash 使用adb命令 ...

  3. python 全栈开发,Day136(爬虫系列之第3章-Selenium模块)

    python 全栈开发,Day136(爬虫系列之第3章-Selenium模块) 一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直 ...

  4. python实现用户登录注册界面_实现前后端登录注册界面

    本篇博客讲解如何实现前后端的简单登录注册界面,后端代码由node.js实现,主要阐述登录注册时网页工作原理.感兴趣的同学可以参考一下. 注册界面 功能: 判断用户是否输入邮箱,密码,验证密码(前端判断 ...

  5. java 模拟点击按钮_HttpUnit模拟按钮点击以及爬虫实现(模拟百度搜索)

    HttpUnit模拟按钮点击以及爬虫实现(模拟百度搜索) HttpUnit 本质上相当于一个后台的透明的浏览器引擎,使用java中的HttpUnit可以实现模拟点击按钮,抓取网页元素,实现动态爬虫,之 ...

  6. python 模拟用户点击浏览器_使用python进行模拟浏览器操作

    使用python完成模拟浏览器操作主要是使用selenium来模拟浏览器,当然还要带上浏览器的驱动比如chromedriver.exe的驱动. 一般使用selenium进行模拟操作需要注意引入一下几个 ...

  7. python 模拟用户点击浏览器_python爬虫之selenium模拟浏览器

    1.前言 之前在异步加载(AJAX)网页爬虫的时候提到过,爬取这种ajax技术的网页有两种办法:一种就是通过浏览器审查元素找到包含所需信息网页的真实地址,另一种就是通过selenium模拟浏览器的方法 ...

  8. python 模拟用户点击浏览器_python模拟一个浏览器

    知道如何快速在命令行或者python脚本中实例化一个浏览器通常是非常有用的. 每次我需要做任何关于web的自动任务时,我都使用这段python代码去模拟一个浏览器. 1 2 3 4 5 6 7 8 9 ...

  9. python 模拟用户点击浏览器_python 模拟点击浏览器

    原标题:python 模拟点击浏览器 from selenium import webdriver #导入selenium的webdriver包,导入webdriver包后才能使用 webdriver ...

  10. python 模拟用户点击浏览器_Python-模拟浏览器-下载文献

    1.安装Python(注意添加环境变量(Path)) 2.安装Pycharm(Python编译环境) 3.安装Chrom浏览器 4.网上下载Chrom浏览器对应的ChromDriver.exe放置到P ...

最新文章

  1. WebP图片格式,压缩提高28%
  2. Validform 学习笔记---基础知识整理
  3. docker svn
  4. Mysql数据库中的as和distinct的使用
  5. 对当今社会的某些现象的感想
  6. 政府数据泄漏频现 美国能源部也未幸免
  7. C/C++ 编译器优化
  8. 18.10 汇编语句
  9. 产品经理的核心竞争力
  10. 会唱歌的程序员为何如此受欢迎?
  11. Android TextView 文字设置不同字体大小和颜色样式
  12. 机器学习中的数学基础(一):高等数学
  13. maven环境配好了,执行mvn -v命令,提示mvn不是内部或外部命令
  14. 【阅读笔记】Taro转小程序编译源码解析
  15. neon浮点运算_ARM NEON指令集优化理论与实践
  16. DIV+CSS中标签dl dt dd常用的用法
  17. FFT(快速博立叶变换)
  18. Android系统---Settings
  19. AI全自动车辆外观视觉检测
  20. 肺实质分割matlab实现

热门文章

  1. linux centos7 下ruby 下载安装
  2. SharePoint下载大文件失败 异常信息: system.OutOfMemoryException
  3. 高通mtk手机常用指令
  4. 传承百年经典的瑞吉管家静待您的优雅旅程再次开启
  5. oracle 创建包 def,cognos创建oracle 数据源报错QE-DEF-0285
  6. NDP调查:P2P下载的视频中60%为情色内容
  7. Matlab实现分离变量法求解一维热传导方程的初边值问题
  8. 数学建模算法python源码_热传导方程之显示差分算法(python源码)
  9. 云更新网吧系统服务器,云更新网吧服务器环境要求
  10. 数据库课程设计:医院信息管理系统(pycharm+MySQL)