Python爬虫——Selenium 简介和下载
文章目录
- Python爬虫——Selenium 简介和下载
- 1、Selenium 简介
- 2、Selenium 下载安装
- 3、Selenium 简单使用
Python爬虫——Selenium 简介和下载
1、Selenium 简介
Selenium 是一个用于测试 Web 应用程序的自动化测试工具,最初是为网站自动化测试而开发的。它支持多种平台:Windows、Linux、Mac,支持多种语言:Python、Perl、PHP、C# 等。
Selenium 实现了很多自动化功能,比如检测软件与浏览器兼容性,软件自动化测试,生成不同语言的测试脚本,自动录制、以及自动化爬虫等。
Selenium 直接运行在浏览器中,就像真正的用户在操作一样。利用它可以完成对浏览器的自动化操作,如跳转、输入、点击、下拉,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,用Selenium可以拿到网页渲染之后的结果。
Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。它支持所有主流的浏览器(包括PhantomJS这种无界面的浏览器),包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 等。但是大多数时候需要让它内嵌在代码中运行,所以我们可以用一个叫PhantomJS的工具代替真实的浏览器。
Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。
Selenium 官方文档
Selenium 中文文档
图1:Python Selenium
2、Selenium 下载安装
可以从 PyPI 官方库中下载 Selenium库https://pypi.python.org/simple/selenium ,更好的方法是用 pip用命令安装:pip install selenium
Selenium 安装
安装命令:
pip install selenium
BautifulSoup 安装位置:Python安装目录的Scripts文件夹下
安装浏览器驱动程序
不同的浏览器需要使用不同驱动程序,主要浏览器 WebDriver 驱动下载地址如下:
- 谷歌浏览器 chromedrive:http://chromedriver.storage.googleapis.com/index.html
- 火狐浏览器 geckodriver:https://github.com/mozilla/geckodriver/releases
- IE 浏览器 IEDriver:http://selenium-release.storage.googleapis.com/index.html
安装 Chrome、Firefox 驱动时,下载的驱动程序版本要和浏览器版本相匹配,否则不能驱动浏览器。安装 IE 驱动时需要下载的驱动程序版本要和 Selenium 版本相匹配。
以 Windows10 平台安装 chromedrive 为例:
1、检查Chrome 浏览器版本号,下载相应驱动文件,然后解压文件,得到 Chromedriver.exe 文件
2、将 Chromedriver.exe 文件拷贝到 Python 安装目录的 Scripts 目录下,然后将路径添加到系统环境变量中
3、启动驱动程序:输入 chromedrive 命令
启动成功后,驱动程序会在后台运行。
3、Selenium 简单使用
自动访问网站
代码实例:
# 导入selenium模块
from selenium import webdriver# 创建Chrome浏览器对象
browser = webdriver.Chrome()# 使用浏览器访问网站
url = "https://www.bilibili.com"
browser.get(url)# 获取网页源码
content = browser.page_source
运行结果:证明安装的谷歌浏览器驱动在正常运行
Python爬虫——Selenium 简介和下载相关推荐
- python 爬虫+selenium 全自动化下载JS动态加载漫画
** python 爬虫+selenium 全自动化下载JS动态加载漫画 最近刚学的python,代码可能并不规范,希望大家见谅! 爬取之前,我们首先需要做一些准备工作,因为很多网站都有反爬检索,为了 ...
- [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
- Python 爬虫 Selenium 基本使用
Python 爬虫 Selenium 基本使用 1. 基础知识 1.1 下载浏览器驱动 1.2 帮助文档 2. 浏览器操作 2.1 浏览器导航 2.2 窗口和选项卡 2.3 Frames and If ...
- Python爬虫-Selenium(1)
Python爬虫-Selenium(1) @(博客)[python, 爬虫, selenium, Python] Python爬虫-Selenium(1) 前言 前期准备 基础使用 进阶使用 浏览器操 ...
- [Python爬虫] Selenium实现自己主动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现訪问Firefox浏览器并自己主动搜索"Eastmount"keyword及截图的功能.而这篇文章主要简介怎样实现 ...
- Python爬虫——Scrapy 简介和安装
文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...
- Python爬虫 - Selenium(4)配置启动项参数
前言:本章将详细介绍Selenium启动项参数的配置,其中包括无界面模式(在服务器上运行不设置此项会报错).浏览器窗口大小设置.浏览器User-Agent (请求头)等等. 目录 一.常用参数 二.代 ...
- [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
- [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
最新文章
- [Dynamic Language] Python 静态方法、类方法、属性
- 苹果A15能征服原神?我劝你还不如买个散热背夹
- 简介struct cmsghdr结构
- 中国医科大学计算机应用基础本科在线作业,中国医科大学《计算机应用基础(本科)》在线作业.doc...
- 目前最常用的计算机机箱类型为_绍兴承接离心风机箱高品质
- Git开发流程和工作流
- Just for fun--Linus
- 高校后勤管理系统java代码_java毕业设计_springboot框架的高校后勤信息管理系统...
- 顺序表基本操作的实现
- revit二次开发-创建组
- nas智能家居服务器,智能家居 | 群晖NAS,你的智能生活中心 Vol.1
- SQL调优指南笔记6:Explaining and Displaying Execution Plans
- 《暖暖环游世界》:突破女性休闲游戏的商业化局限
- 20200220MFC 之CListCtrl(二)
- 【WPF】CAD工程图纸转WPF可直接使用的xaml代码技巧
- mysql8.0.13解压版安装密码设置_mysql8.0.13解压版安装配置方法图文教程
- 斐讯PSG1208 K1 路由器刷机
- ZT自老罗的博客 Android系统的智能指针(轻量级指针、强指针和弱指针)的实现原理分析...
- 「推荐」自由职业摄影师 Plus 视频课程
- 如何在Java面试中克服恐惧?