文章目录

  • Python爬虫——Selenium 简介和下载
    • 1、Selenium 简介
    • 2、Selenium 下载安装
    • 3、Selenium 简单使用

Python爬虫——Selenium 简介和下载

1、Selenium 简介

Selenium 是一个用于测试 Web 应用程序的自动化测试工具,最初是为网站自动化测试而开发的。它支持多种平台:Windows、Linux、Mac,支持多种语言:Python、Perl、PHP、C# 等。

Selenium 实现了很多自动化功能,比如检测软件与浏览器兼容性,软件自动化测试,生成不同语言的测试脚本,自动录制、以及自动化爬虫等。

Selenium 直接运行在浏览器中,就像真正的用户在操作一样。利用它可以完成对浏览器的自动化操作,如跳转、输入、点击、下拉,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,用Selenium可以拿到网页渲染之后的结果。

Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。它支持所有主流的浏览器(包括PhantomJS这种无界面的浏览器),包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 等。但是大多数时候需要让它内嵌在代码中运行,所以我们可以用一个叫PhantomJS的工具代替真实的浏览器。

Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

Selenium 官方文档

Selenium 中文文档

​ 图1:Python Selenium

2、Selenium 下载安装

可以从 PyPI 官方库中下载 Selenium库https://pypi.python.org/simple/selenium ,更好的方法是用 pip用命令安装:pip install selenium

Selenium 安装

安装命令:

pip install selenium

BautifulSoup 安装位置:Python安装目录的Scripts文件夹下

安装浏览器驱动程序

不同的浏览器需要使用不同驱动程序,主要浏览器 WebDriver 驱动下载地址如下:

  • 谷歌浏览器 chromedrive:http://chromedriver.storage.googleapis.com/index.html
  • 火狐浏览器 geckodriver:https://github.com/mozilla/geckodriver/releases
  • IE 浏览器 IEDriver:http://selenium-release.storage.googleapis.com/index.html

安装 Chrome、Firefox 驱动时,下载的驱动程序版本要和浏览器版本相匹配,否则不能驱动浏览器。安装 IE 驱动时需要下载的驱动程序版本要和 Selenium 版本相匹配。

以 Windows10 平台安装 chromedrive 为例:

1、检查Chrome 浏览器版本号,下载相应驱动文件,然后解压文件,得到 Chromedriver.exe 文件

2、将 Chromedriver.exe 文件拷贝到 Python 安装目录的 Scripts 目录下,然后将路径添加到系统环境变量中

3、启动驱动程序:输入 chromedrive 命令

启动成功后,驱动程序会在后台运行。

3、Selenium 简单使用

自动访问网站

代码实例:

# 导入selenium模块
from selenium import webdriver# 创建Chrome浏览器对象
browser = webdriver.Chrome()# 使用浏览器访问网站
url = "https://www.bilibili.com"
browser.get(url)# 获取网页源码
content = browser.page_source

运行结果:证明安装的谷歌浏览器驱动在正常运行

Python爬虫——Selenium 简介和下载相关推荐

  1. python 爬虫+selenium 全自动化下载JS动态加载漫画

    ** python 爬虫+selenium 全自动化下载JS动态加载漫画 最近刚学的python,代码可能并不规范,希望大家见谅! 爬取之前,我们首先需要做一些准备工作,因为很多网站都有反爬检索,为了 ...

  2. [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

    前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...

  3. Python 爬虫 Selenium 基本使用

    Python 爬虫 Selenium 基本使用 1. 基础知识 1.1 下载浏览器驱动 1.2 帮助文档 2. 浏览器操作 2.1 浏览器导航 2.2 窗口和选项卡 2.3 Frames and If ...

  4. Python爬虫-Selenium(1)

    Python爬虫-Selenium(1) @(博客)[python, 爬虫, selenium, Python] Python爬虫-Selenium(1) 前言 前期准备 基础使用 进阶使用 浏览器操 ...

  5. [Python爬虫] Selenium实现自己主动登录163邮箱和Locating Elements介绍

            前三篇文章介绍了安装过程和通过Selenium实现訪问Firefox浏览器并自己主动搜索"Eastmount"keyword及截图的功能.而这篇文章主要简介怎样实现 ...

  6. Python爬虫——Scrapy 简介和安装

    文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...

  7. Python爬虫 - Selenium(4)配置启动项参数

    前言:本章将详细介绍Selenium启动项参数的配置,其中包括无界面模式(在服务器上运行不设置此项会报错).浏览器窗口大小设置.浏览器User-Agent (请求头)等等. 目录 一.常用参数 二.代 ...

  8. [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

    前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...

  9. [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...

最新文章

  1. [Dynamic Language] Python 静态方法、类方法、属性
  2. 苹果A15能征服原神?我劝你还不如买个散热背夹
  3. 简介struct cmsghdr结构
  4. 中国医科大学计算机应用基础本科在线作业,中国医科大学《计算机应用基础(本科)》在线作业.doc...
  5. 目前最常用的计算机机箱类型为_绍兴承接离心风机箱高品质
  6. Git开发流程和工作流
  7. Just for fun--Linus
  8. 高校后勤管理系统java代码_java毕业设计_springboot框架的高校后勤信息管理系统...
  9. 顺序表基本操作的实现
  10. revit二次开发-创建组
  11. nas智能家居服务器,智能家居 | 群晖NAS,你的智能生活中心 Vol.1
  12. SQL调优指南笔记6:Explaining and Displaying Execution Plans
  13. 《暖暖环游世界》:突破女性休闲游戏的商业化局限
  14. 20200220MFC 之CListCtrl(二)
  15. 【WPF】CAD工程图纸转WPF可直接使用的xaml代码技巧
  16. mysql8.0.13解压版安装密码设置_mysql8.0.13解压版安装配置方法图文教程
  17. 斐讯PSG1208 K1 路由器刷机
  18. ZT自老罗的博客 Android系统的智能指针(轻量级指针、强指针和弱指针)的实现原理分析...
  19. 「推荐」自由职业摄影师 Plus 视频课程
  20. 如何在Java面试中克服恐惧?

热门文章

  1. 3 交换机的端口聚合配置
  2. Linux命令把共享库export,实用linux命令
  3. 笔记七(C++中混合四则运算)
  4. Web自动化常用的框架
  5. html 账号只显示前3位,只知道手机号码前三位还有名字能查到全部号码 – 手机爱问...
  6. Seed lab:Remote DNS Attack
  7. 图片异步加载之 Android-Universal-Image-Loader
  8. 斐波那契数列问题的解决方法—函数递归部分
  9. Android logcat log丢失
  10. 豆瓣搜索—微信公共平台接入(wechatpy)