官方帮助:

  • https://pyppeteer.github.io/pyppeteer/reference.html

下载文本中的网页源码,由于需要向下拉动滚动条所以使用pyppeteer渲染网页,并执行js代码,可是发现开启无界面的时候似乎执行不了js代码,还有异步的时候好像也执行不了js代码

环境部署

pip install

pip install pyppeteer -i https://pypi.douban.com/simple

chromium下载

chromium下载地址:https://npm.taobao.org/mirrors/chromium-browser-snapshots/
下载之后解压之后,通过executablePath属性指定运行浏览器了

启动参数:

常见参数

属性 数据类型 描述
executablePath str chrome.exe运行的路径
ignorehttpserrrors bool 忽略https错误,默认false
headless bool True 开始无头浏览器 False关闭无头
dumpio bool 设置True 解决浏览器多开卡死

args的参数设置:

属性 数据类型 描述
–disable-infobars - 关闭自动化提示框
–window-size=1920,1080 str 设置浏览器大小吗,1920是宽,1080是宽
–log-level=30 str 日志保存等级
–start-maximized - 窗口最大化模式
–proxy-server=http://localhost:1080 str 设置代理
userDataDir=D:\userData\ str 用户文件保存地址
import asyncio
from pyppeteer import launch
import re, os,timeasync def create_page():browser = await launch(headless=True, dumpio=True)return browserasync def close_page(browser):await browser.close()async def start(sem, url):# print(url)async with sem: #控制协程的并发量page = await browser.newPage()await page.goto(url)# for i in range(10): # 执行js代码向下滚动滚动条#     dimensions = await page.evaluate(f'var q=document.documentElement.scrollTop={i * 1000}')#     await asyncio.sleep(1)# sn = re.search('sn=(.*?)&', url).group(1)# with open(os.path.join(r'E:\study\out', f'{sn}.html'), 'ab') as f:#     data = await page.content()#     f.write(data.encode('utf8'))print(await page.content())await page.close()if __name__ == '__main__':sem = asyncio.Semaphore(5)fundlist = []path = r'C:\Users\Admin\Desktop\新建 文本文档.txt'loop = asyncio.get_event_loop() browser = loop.run_until_complete(create_page()) #创建一个浏览器对象for line in open(path, 'r'):fundlist.append(line)task = [loop.create_task(start(sem, url)) for url in fundlist]loop.run_until_complete(asyncio.wait(task))loop.run_until_complete(close_page(browser))

使用pyppeteer时有个bug会报错,将源码改动下就ok
链接: 这里.

launch_kwargs = {# 控制是否为无头模式"headless": False,# chrome启动命令行参数"args": [# 浏览器代理 配合某些中间人代理使用"--proxy-server=http://127.0.0.1:8008",# 最大化窗口"--start-maximized",# 取消沙盒模式 沙盒模式下权限太小"--no-sandbox",# 不显示信息栏  比如 chrome正在受到自动测试软件的控制 ..."--disable-infobars",# log等级设置 在某些不是那么完整的系统里 如果使用默认的日志等级 可能会出现一大堆的warning信息"--log-level=3",# 设置UA"--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",],"dumpio":True,# 当界面开多了时会卡住,设置这个参数就不会了# 用户数据保存目录 这个最好也自己指定一个目录# 如果不指定的话,chrome会自动新建一个临时目录使用,在浏览器退出的时候会自动删除临时目录# 在删除的时候可能会删除失败(不知道为什么会出现权限问题,我用的windows) 导致浏览器退出失败# 然后chrome进程就会一直没有退出 CPU就会狂飙到99%"userDataDir": "",}

设置viewport 自动获取当前屏幕大小并设置viewport

# coding:utf8
import asyncio
from pyppeteer import launchdef screen_size():"""使用tkinter获取屏幕大小"""import tkintertk = tkinter.Tk()width = tk.winfo_screenwidth()height = tk.winfo_screenheight()tk.quit()return width, heightasync def main():launch_kwargs = {"headless": False}# 启动浏览器browser = await launch(launch_kwargs)# 打开标签页page = await browser.newPage()# 默认 800 * 600 一般是不够的print(page.viewport)#width, height = screen_size()# 设置网页可视区域大小await page.setViewport({"width": width,"height": height})await browser.close()returnasyncio.get_event_loop().run_until_complete(main())

导出或加载cookie

    # 取出cookiecookies = await page.cookies()# 这里可以做些什么 :)pass# 然后导入cookieawait page.setCookie(*cookies)

完整的一个实例

#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@time:2020/04/04
"""import asyncio
import logging
import tkinterfrom pyppeteer import launch, launcher
from lxml import etreeasync def main():# 浏览器 启动参数start_parm = {# 启动chrome的路径"executablePath": r"C:\Users\yq\AppData\Local\pyppeteer\pyppeteer\local-chromium\722234\chrome-win\chrome.exe",# 关闭无头浏览器"headless": False,"args": ['--disable-infobars',  # 关闭自动化提示框# '--window-size=1920,1080',  # 窗口大小'--log-level=30',  # 日志保存等级, 建议设置越好越好,要不然生成的日志占用的空间会很大 30为warning级别'--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',  # UA'--no-sandbox',  # 关闭沙盒模式'--start-maximized',  # 窗口最大化模式# '--proxy-server=http://localhost:1080'  # 代理r'userDataDir=D:\project_demo\python_demo\spider_demo\JavaScript 逆向系列课\userdata'  # 用户文件地址],}await page.goto('https://www.httpbin.org/headers')page_text = await page.content()input('----------------')await browser.close()asyncio.get_event_loop().run_until_complete(main())

窗口/可视区最大化

但窗口设置最大化(–start-maximized)或窗口大小(–window-size=1920,1080)时,发现自己页面可视区域没有变化。成下面图片显示效果

设置可视化参数,代码如下

# !/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@time:2020/04/04
"""
import asyncio
import tkinterfrom pyppeteer import launcher# 注意 在导入launch之前先把默认参数改了
# 去除自动化 启动参数
launcher.AUTOMATION_ARGS.remove("--enable-automation")
from pyppeteer import launchasync def main():# 浏览器 启动参数start_parm = {# 启动chrome的路径"executablePath": r"C:\Users\yq\AppData\Local\pyppeteer\pyppeteer\local-chromium\722234\chrome-win\chrome.exe",# 关闭无头浏览器"headless": False,"args": ['--disable-infobars',  # 关闭自动化提示框'--no-sandbox',  # 关闭沙盒模式'--start-maximized',  # 窗口最大化模式],}browser = await launch(**start_parm)page = await browser.newPage()# 查看当前 桌面视图大小tk = tkinter.Tk()width = tk.winfo_screenwidth()height = tk.winfo_screenheight()tk.quit()print(f'设置窗口为:width:{width} height:{height}')# 设置网页 视图大小await page.setViewport(viewport={'width': width, 'height': height})await page.goto('https://www.baidu.com')input('----------------')await browser.close()asyncio.get_event_loop().run_until_complete(main())

隐藏浏览器特征

pyppeteer跟selenium一样会有浏览器特征,所以需要修改,隐藏特征防止被识别。
主要有下面两点:

  1. 去除浏览器自动化参数 --enable-automation
  2. 去除window.navigator.webdriver等检测
#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@time:2020/04/04
"""import asyncio
import logging
import tkinterfrom pyppeteer import launcher
# 第一步 去除浏览器自动化参数
# 必须在 from pyppeteer import launch 前去除参数
# 去除自动化 启动参数
launcher.AUTOMATION_ARGS.remove("--enable-automation")from pyppeteer import launch
from lxml import etreeasync def main():# 浏览器 启动参数start_parm = {# 启动chrome的路径"executablePath": r"C:\Users\yq\AppData\Local\pyppeteer\pyppeteer\local-chromium\722234\chrome-win\chrome.exe",# 关闭无头浏览器"headless": False,"args": ['--disable-infobars',  # 关闭自动化提示框# '--window-size=1920,1080',  # 窗口大小'--log-level=30',  # 日志保存等级, 建议设置越好越好,要不然生成的日志占用的空间会很大 30为warning级别'--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',  # UA'--no-sandbox',  # 关闭沙盒模式'--start-maximized',  # 窗口最大化模式# '--proxy-server=http://localhost:1080'  # 代理r'userDataDir=D:\project_demo\python_demo\spider_demo\JavaScript 逆向系列课\userdata'  # 用户文件地址],}browser = await launch(**start_parm)page = await browser.newPage()tk = tkinter.Tk()width = tk.winfo_screenwidth()height = tk.winfo_screenheight()tk.quit()await page.setViewport(viewport={'width': width, 'height': height})# 第二步,修改 navigator.webdriver检测# 其实各种网站的检测js是不一样的,这是比较通用的。有的网站会检测运行的电脑运行系统,cpu核心数量,鼠标运行轨迹等等。# 反爬jsjs_text = """
() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } });window.navigator.chrome = { runtime: {},  };Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] });Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], });}"""await page.evaluateOnNewDocument(js_text)  # 本页刷新后值不变,自动执行jsawait page.goto('https://www.httpbin.org/headers')page_text = await page.content()print(page_text)input('==========')await browser.close()asyncio.get_event_loop().run_until_complete(main())

拦截请求

可以对出现的请求,进行拦截 类似mitmproxy。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@time:2020/04/04
"""import asyncio
import jsonfrom jsonpath import jsonpath
from pyppeteer import launcherlauncher.AUTOMATION_ARGS.remove("--enable-automation")from pyppeteer import launchfrom pyppeteer.network_manager import Request, Responseasync def intercept_request(req:Request):await req.continue_()  # 请求,看源码可以重新编写请求async def intercept_response(res:Response):if 'ext2020/apub/json/prevent.new' in res.url:print('拦截到请求')json_text = await res.text()title_li = jsonpath(json.loads(json_text), '$..title')for title in title_li:print(title)passasync def main():# 浏览器 启动参数start_parm = {# 启动chrome的路径"executablePath": r"C:\Users\yq\AppData\Local\pyppeteer\pyppeteer\local-chromium\722234\chrome-win\chrome.exe",# 关闭无头浏览器 默认是无头启动的"headless": False,"args": ['--disable-infobars',  # 关闭自动化提示框# '--no-sandbox',  # 关闭沙盒模式'--start-maximized',  # 窗口最大化模式'--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',# UA],}# 创建浏览器对象,可以传入 字典形式参数browser = await launch(**start_parm)# 创建一个页面对象, 页面操作在该对象上执行page = await browser.newPage()await page.setJavaScriptEnabled(enabled=True)# 启用拦截器await page.setRequestInterception(True)page.on('request', intercept_request) page.on('response', intercept_response)js_text = """() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } });window.navigator.chrome = { runtime: {},  };Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] });Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], });}"""await page.evaluateOnNewDocument(js_text)  # 本页刷新后值不变,自动执行jsawait page.goto('https://news.qq.com/')  # 页面跳转await browser.close()asyncio.get_event_loop().run_until_complete(main())   # 创建异步池并执行main函数。

按钮路径获取(page.click)

谷歌浏览器 -> copy -> copy js path

获取验证码

新建浏览器,进行登录,由于验证码的识别准确率不是百分之百,需要多次尝试。

    async def main(self, username, pwd, url):  # 定义main协程函数,login_count = 0# 打开浏览器browser = await launch({'headless': False, "userDataDir": r"./temp_data", 'args': ['--no-sandbox'], })# 登录检测while login_count < 10:# 登录await self.login(browser, username, pwd, url)# 检测是否登录成功if await self.check_login(browser):breakelse:login_count += 1# 尝试登录次数大于10就退出if login_count > 10:print("login failed!")await browser.close()returndo_something()await browser.close()

可以替换程序中验证操作函数,实现不同的验证方式。
其中提交过程采用了xpath定位提交按钮。

    async def login(self, browser, username, pwd, url):page = await browser.newPage()  # 启动个新的浏览器页面await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; WOW64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/68.0.3440.106 Safari/537.36')await page.goto(url)  # 访问登录页面# 就是在浏览器运行的时候,始终让window.navigator.webdriver=false# navigator是windiw对象的一个属性,同时修改plugins,languages,navigator 且让await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')# 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')await page.evaluate('''() =>{ Object.defineProperty(navigator,'languages', { get: () => ['en-US', 'en'] }); }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')time.sleep(2)# 使用type选定页面元素,并修改其数值,用于输入账号密码,修改的速度仿人类操作,因为有个输入速度的检测机制# 因为 pyppeteer 框架需要转换为js操作,而js和python的类型定义不同,所以写法与参数要用字典,类型导入await page.type('#username', username, {'delay': self.input_time_random() - 50})await page.type('#password', pwd, {'delay': self.input_time_random()})# await page.screenshot({'path': './picture/headless-test-result.png'})    # 截图测试time.sleep(1)# 验证码操作verification_code(page);# 点击提交submit = await page.xpath("//button[@class='auth_login_btn primary full_width']")await submit[0].click()time.sleep(1)

验证码识别和输入

我在这里利用了某网站的验证码识别api,通过http方式就能上传验证码图片,并获取验证码。这个网站每天有固定的1000张图片免费次数,足够我们使用。第一个请求链接的用户名和密码换成我们注册该网站的用户名和密码即可。具体可以看官方的API文档。
该网站地址:http://fast.95man.com/

    # 验证码登录async def verification_code(self, page):await page.waitFor(5 * 1000)                                     # 等待验证码图片加载yazhengma = await page.waitForSelector('#captchaImg')            # 定位验证码元素await yazhengma.screenshot({'path': './picture/yazhengma.png'})  # 保存验证码图片# 获取验证码code = self.get_code('./picture/yazhengma.png')# 输入验证码await page.type('#captchaResponse', code, {'delay': self.input_time_random()})def get_code(self, file_path):# 以下为GET请求url = 'http://api.95man.com:8888/api/Http/UserTaken?user=username&pwd=password&isref=0'token_request = requests.get(url)token_raw = str(token_request.content)# 切片获取tokentoken = token_raw[4: -1]print(token)# 发送图片解析请求url = "http://api.95man.com:8888/api/Http/Recog?Taken=" + token + "&imgtype=1&len=4"file_path = file_pathfiles = {'file': open(file_path, 'rb')}# 上传图片r = requests.post(url, files=files)print(r.url, r.text)# 切片获取验证码return r.text[6:10]

防检测的一些方法

1、常用小功能

    async def init_pyppeteer(self):self.browser = await pyppeteer.launch({'headless': False,# 'userDataDir': './userdata',# 用户临时目录,保存cookie可以开启'args': [# '--window-size={1300},{800}','--start-maximized',  # 最大化窗口'--proxy-server=http://118.24.51.247:1443',#浏览器代理 配合某些中间人代理使用# '--load-extension={}'.format(chrome_extension),  # 加载插件# '--disable-extensions-except={}'.format(chrome_extension),# '--disable-extensions','--hide-scrollbars','--disable-bundled-ppapi-flash','--mute-audio','--no-sandbox',  # 取消沙盒模式 沙盒模式下权限太小'--no-sandbox',  # 不显示信息栏  比如 chrome正在受到自动测试软件的控制'--disable-setuid-sandbox','--disable-gpu','--disable-infobars'# log等级设置 在某些不是那么完整的系统里 如果使用默认的日志等级 可能会出现一大堆的warning信息],'dumpio': True,  # 减少内存消耗# "slowMo": 25  # 让执行慢下来})self.page = await self.browser.newPage()width, height = self.screen_size()await self.page.setViewport({"width": width,"height": height})# 设置浏览器头部await self.page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299')await self.page.evaluateOnNewDocument('() =>{ Object.defineProperties(navigator,''{ webdriver:{ get: () => false } }) }')  # 本页刷新后值不变

1.1、绕过对方网站监测

import pyppeteer
async def page_evaluate(self, page):'''window.navigator.webdriver=false'''await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }) }''')  # 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')async def main(self):browser = await pyppeteer.launch()page = await browser.newPage()await self.page_evaluate(page)

1.2、网络通信异常处理

 await page.goto(h5_detail_url,waitUntil=["networkidle0", "load", "domcontentloaded"],options={'timeout': 30000})

1.3、禁止渲染

# # 是否启用JS,enabled设为False,则无渲染效果
await self.page.setJavaScriptEnabled(enabled=False)

1.4、等待元素加载

 #waitForSelector 默认为30000(30秒),为0禁用超时
await self.page.waitForSelector('.shop_list .clearfix span.tit_shop',{'timeout': 9000}) #等待元素加载
await asyncio.sleep(2)

1.5、滚动浏览器

使用js滚动到某个元素

 # 使用js滚动到某个元素
await self.page.evaluate('document.querySelector(".page_al").scrollIntoView();')

滚动到浏览器底部

#滚动到浏览器底部
await self.page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

滚动多少像素

#浏览器向上滚动400个像素
await self.page.evaluate('window.scrollBy(0,-400)')

Python爬虫之pyppeteer的使用(爬虫、获取cookie、截屏插件、防爬绕过)相关推荐

  1. ios xcode真机调试获取屏幕截屏

    ios xcode真机调试获取屏幕截屏 非常多时候我们须要在调试的过程中把手机屏幕截图发给其它人看,在android开发中我们能够非常方便的截图保存.而xcode开发ios的时候发现这个需求却如此困难 ...

  2. ddms java 截图_从Android设备获取实时截屏

    从Android设备获取实时截屏(adb) 前两篇文章已经把如何控制android设备的输入讲了,这一篇就是如何获取输出,通过adb的方式 原理 framebuffer获取流程 AdbClient和A ...

  3. vue如何优雅的获取Cookie(js-cookie插件)

    vue如何优雅的获取Cookie(js-cookie插件) 一, 安装 npm install js-cookie --save 二, 引用 import Cookies from 'js-cooki ...

  4. android获取状态栏截屏按钮状态,关于代码截屏带状态栏的问题

    昨天产品经理告诉我,希望能实现仿网易严选那样,可以捕捉到用户的截屏操作,然后进行截屏分享的小功能. 在实现的过程中遇到的最大问题就是截屏为什么没有状态栏???然后各种查找,资料聊聊无几,只有大神Ope ...

  5. 爬虫第三弹——利用EditThisCookie获取cookie跳过登陆验证(医脉通)

    爬虫第一弹:利用Scrapy爬取1905电影网 爬虫第二弹:深网爬虫指南,AcFun评论爬取教程 前言 最近有个活,需要将约300个英文医学名词翻译成中文. 经过一番查找发现医脉通的词典还不错,但是必 ...

  6. 安卓获取浏览器上网记录_Android 获取浏览器当前分享页面的截屏示例

    今天在项目中碰见这么一个需求:获取 Chrome 浏览器分享时,页面的截屏.静下来一想,既然是分享,那么肯定得通过 Intent 来传递数据,如果真的能获取到 Chrome 分享页面时的截屏,那么 I ...

  7. 获取cookie_抢券第一课:三种方法获取Cookie

    现在分享京东抢券是不是不合适?毕竟还没有到双十一或者其他京东大促的时间. 记得以往京东还有那种神券299减200,399减300.基本上都是到点进行抢购,而且还不一定能抢到.不过今天先来分享获取Coo ...

  8. 安卓 获取rtsp流 截屏_安卓星雨视频+星火电视盒子版+安卓文件闪传+安卓截屏大师...

    注意 阅读须知: 无名的秋田犬 1.为了防止以后号被注销而走丢,大家可以关注我的小号--无名的秋田犬 2.小编以后会一周清理一次文章,如果有需要的东西一定要及时保存,或者多多注意文章暗号. 3.且行且 ...

  9. python实现区域截屏(类似于QQ微信截图)功能

    该功能是本人用python写的小工具集Jamtools里面的截屏部分整合,代码完全原创,分享出来. CSDN源码下载地址:https://download.csdn.net/download/Fand ...

最新文章

  1. LeetCode实战:全排列
  2. Struts.xml配置解释
  3. 有人知道 I3C 吗?
  4. 用计算机制作动画,如何使用制作工具制作一个简单的Flash动画-电脑自学网
  5. app首次进入的时候,新手操作进行提醒操作
  6. 多色复古毕业论文答辩PPT模板——办公资源网
  7. 【每日早报】2019/08/19
  8. 最小割集stoer_wagner算法
  9. java 取系统当前时间_java获取当前系统时间方法
  10. java毕业生设计房屋租售网站计算机源码+系统+mysql+调试部署+lw
  11. HbuilderX表格练习2
  12. iphone7plus启动时icon被拉伸放大的原因
  13. 大学生创新创业万学答案
  14. 什么是CPS?数字孪生技术在工业4.0该如何应用?ThingJS
  15. 超好用,18 个 Jupyter Notebook 使用技巧助你快速腾飞
  16. 【有奖征集】地球一小时:让万物感受你的爱,用H5表达你的心!
  17. WPF Grid边框_se7en3_新浪博客
  18. background-size:cover | contain;
  19. 形函数的构造原理-有限元形函数的几个种类
  20. 【小白搞机入门】名词集-BootLoader锁(BL锁)

热门文章

  1. 生信宝典周报 | 我们有可能会被44种动物传染上新冠?
  2. PATH和path,傻傻分不清
  3. java.exe闪退_Tomcat7.0 exe闪退问题
  4. P5726 【深基4.习9】打分(python3实现)
  5. P5712 【深基3.例4】Apples(python3实现)
  6. python怎么筛选excel数据_【In Action】工具-2-用Excel三分钟才能完成的复杂筛选,python十秒完成...
  7. Vue第二部分(2):组件的嵌套与通信
  8. 下列哪个不是python元组的定义方式_Python基础知识笔试
  9. Spring Boot笔记-接收参数的3种情况
  10. Flask笔记-使用Cookie及简单加密判断是否为登录用户