Python+Selenium+Firefox headless 配置

2024-04-23 19:17:26

最近爬虫要用到Python爬一个比较复杂的网站，PhantomJs好像停止维护了，所以选择了Selenium+Firefox headless,查了一些Firefox相关的配置，记录一下

查看支持的配置：

Firefox版本：60.0.2（64）

地址栏输入about:config打开配置页

英语好的大神可以去About:config英文地址查看原注释（网页加载很慢，有时一次加载不出来，刷新一下就行了）

下载火狐浏览器驱动：

火狐浏览器驱动可直接从网上下载：geckodriver的下载链接：https://github.com/mozilla/geckodriver/releases

下载后扔到Python根目录

安装Selenium：

CMD -> pip3 install selenium

Python中的配置代码：


from selenium import webdriver#无头模式
options = webdriver.FirefoxOptions()
options.add_argument('-headless')profile = webdriver.FirefoxProfile()
#禁用图片
profile.set_preference('permissions.default.image', 2)
#禁用Flash
profile.set_preference('dom.ipc.plugins.enabled.npswf32.dll', 'false')#Windows
profile.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', 'false')#Linux
#禁用Js
profile.set_preference('javascript.enabled', 'false')browser = webdriver.Firefox(options=options,firefox_profile = profile)
#查看拥有的各种方法、属性
print(dir(browser))browser.get("https://blog.csdn.net/kunorz")
#截图
browser.get_screenshot_as_file('myblog.png')
#获取网页源码
page = browser.page_source
print(page)#关闭
browser.close()

浏览器记得要关闭，不然会打开很多个

更多方法请看Selenium package API

一些用得到的配置：

1.permissions.default.image = 2

0：加载所有图片

1：Load images from same (originating) server only（就这个意思）

2：不加载图片

2.javascript.enabled = true

js解析功能

2.network.prefetch-nextfalse = false

预加载功能，载入一个网页后，会预加载你可能会打开的网页链接内容。

3.network.dns.disableIPv6 = true

禁用IPv6，IPv4是主流，IPv6数量很少，很少会去解析，关闭它可以提高速度。

有需要再去源地址About:config英文地址查找

Python+Selenium+Firefox headless 配置相关推荐

Python selenium chrome 环境配置
Python selenium chrome 环境配置一.参考文章:1. 记录一下python easy_install和pip安装地址和方法http://heipark.iteye.com/blog ...
在Docker中使用Python Selenium和Headless Chrome进行网站自动化测试的方法
by Joyz 通过乔伊斯在Docker中使用Python Selenium和Headless Chrome进行网站自动化测试的方法 (A recipe for website automated ...
Python+selenium+firefox模拟登录微博并爬取数据（1
1:环境python3.5,最新 firefox,selenium-3.14.0. 本来准备用无界面的,但是感觉效果不好看出来所以先用有界面的浏览器来做.分几次来慢慢写.这节先配置好环境. 2:安装: ...
Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)
由于之前用urlib和request发现只能获取静态网页数据,目前爬取动态网页有两种方法, (1)分析页面请求 (2)Selenium模拟浏览器行为(霸王硬上弓),本文讲的就是此方法一.安装sele ...
Python+Selenium+Firefox配置，及可以启动浏览器，不能自动输入地址
今天用Python做之前的项目时,发现火狐可以启动,但是不能自动输入网址从头到尾检查完了发现不行,最后检查火狐版本的时候发现丫给我自动升级了,给我气的,浪费了一个小时时间,所以记录下来,大家尽快找到 ...
python selenium firefox使用
演示的版本信息如下: Python 3.6.0 Selenium 3.5.0 Firefox 55.0.3 geckodriver v1.0.18.0 win64 1.前提准备 1.1 安装pyth ...
python selenium+Firefox 模拟浏览器操作
glumer Python安装selenium,配置火狐浏览器环境火狐浏览器直接从网上下载即可, geckodriver的下载链接:https://github.com/mozilla/geckod ...
python selenium+firefox 使用已打开的火狐浏览器进行操作(不需要每次都重新打开火狐)
使用selenium操作时,每次使用webdriver.Firefox()都要重新弹出火狐窗口,效率非常低,所以我一直在查,selenium能不能在已打开的浏览器上操作,发现该模块没有这个功能,那说明 ...
python+selenium+firefox加载配置文件，无法自动启用插件的问题
path\firefox.exe -p 安装好插件,禁止插件自动更新,调整页面至想要的状态. 关闭firefox,配置文件已自动保存 python中 from selenium import webd ...

最新文章

热门文章