最近在学习爬虫的编写,使用selenium模块时候,遇到了很多坑,本blog的目的是总结一下遇到的坑和解决办法,以便后来人少走弯路!

以下介绍均以Python3.x为基准进行,基于windows平台的。

1. Selenium配置

我们在做爬虫的时候,避免不了要使用selenium模块,但是它不是python的标准库,所以需要自行安装。
那么如何安装selenium呢,这时候就用到了pip这个工具。

1. 首先我们需要下载pip:

所谓pip,即Python Install Packet(python安装包)。

  • pip下载地址

2. 然后我们解压下载的pip,打开cmd命令控制台,cd到刚才解压的目录:

可以看到,python不是内部命令,执行失败;这是由于python的可执行文件路径没有加入到windows的环境变量里。

3. 设置环境变量:

按照如下的顺序:

计算机 -> 属性 -> 高级系统设置 -> 高级 -> 环境变量 -> path


将python.exe所在路径添加到path中(注意,不同路径间的隔离使用;)

4. 验证pip是否安装成功

使用如下命令(使用此命令之前,同样需要将pip所在的目录加入到环境变量中,默认的pip路径为python.exe同目录文件夹Scripts下):

  • pip list

5. 安装selenium模块

采用如下命令:

  • pip install selenium

至此,selenium模块算是安装完成了

6. 配置selenium使其支持不同浏览器

开发中,我们一般采用chrome或firefox,因此我以这两款为准进行讲解。
当我们安装完成selenium模块,准备使用其进行编码时,突然发现,又有问题出现了:


发生以上原因是因为: 缺少Chrome/Firefox的webdriver驱动。

驱动的下载地址:

  • Chrome/Firefox webdriver github 地址
  • 该地址下有所有的IE/Chrome/Firefox webdriver

将下载好的驱动解压,然后放到与python.exe同一个目录中;

到此处,你可以试试如下代码:

# coding = utf-8
from time import sleep
from selenium import webdriverbrowser = webdriver.Firefox()browser.get(r"http://www.baidu.com")
browser.find_element_by_id("kw").send_keys("python")
browser.find_element_by_id("su").click()
sleep(5)
browser.quit()

将会打开一个新的firefox窗口,算是selenium配置成功。

2. Pycharm 2017.3破解与使用

Pycharm是玩python、web开发、爬虫等等必不可少的工具,其优秀性不必多言,谁用谁知道!

1. 下载并安装 Pycharm2017

  • Pycharm 2017下载地址


安装不用多说了吧!

2. 破解pycharm

进入Pycharm, 点击Help -> Register

然后,去下载一个破解软件:

  • idea_active_proxy.exe

按照下图进行设置:

输入完成后,点击Active,一切都ok了!

另外,破解的专业网站地址:

  • Pycharm 破解教程

3. 注册完成后,我们将开始我们第一个项目:

# coding = utf-8
from time import sleep
from selenium import webdriverbrowser = webdriver.Firefox()browser.get(r"http://www.baidu.com")
browser.find_element_by_id("kw").send_keys("python")
browser.find_element_by_id("su").click()
sleep(5)
browser.quit()

运行过程中,可能会出现如下的错误:

虽然我们安装了selenium,但是Pycharm找不到这个模块(包),这怎么回事呢?
原因就是我们使用的python 解释器的问题(未使用系统默认的解释器)

可做如下修改:

  • File -> Settings -> Project coding -> Project interpreter

选择所需要的Python解释器。

如下拉列表中没有对应的系统Python解释器,我们可以自己添加:


设置完以上之后,重新回到代码区运行上述代码,一切都ok了!

至此,大功告成!!!

转载于:https://www.cnblogs.com/Jimmy1988/p/8398507.html

网络爬虫(一):配置selenium、pycharm(windows平台)相关推荐

  1. [Rtsp]海康网络摄像头基于RTSP协议的windows平台监控

    [Rtsp]海康网络摄像头基于RTSP协议的windows平台监控 基于RTSP协议的windows平台监控. 1.  基于RTSP协议的windows平台监控. 1.1 选取海康网络摄像头(支持RT ...

  2. python在windows配置_Python在windows平台的多版本配置

    Python在windows平台的多版本配置 快速阅读: ​python在windows平台的环境变量以及多版本配置 ,以及pycharm如何安装包,以及安装包出错时如何排查. 1.python环境变 ...

  3. 【selenium】Windows平台下使用python自动登陆网关 (更新至 v1.1.0)

    0x00 前言 所里开启了两步验证与二级加密(就不说是哪里了): 以前的auto_login用不了了,所以尝试着有没有什么新法子: 看到一个用 Phantomjs + Selenium 的解决方案,着 ...

  4. 使用Nginx配置NodeJs程序(Windows平台)

    简介 Nginx("engine x") 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 服务器. Nginx 是由 Igor Sysoev ...

  5. 网络爬虫pyppeteer、selenium模拟浏览器抓取数据

    项目场景: 1.抓取数据时,响应状态码为412,即状态码412含义为:Precondition Failed,服务器在验证在请求的头字段中给出先决条件时,没能满足其中的一个或多个.这个状态码允许客户端 ...

  6. 网络爬虫--25.【selenium实战】实现拉勾网爬虫之--selenium获取数据

    代码实现 #encoding: utf-8from selenium import webdriver from lxml import etree import re import time fro ...

  7. 网络爬虫--24.【selenium实战】实现拉勾网爬虫之--分析接口获取数据

    文章目录 一. 思路概述 二. 分析数据接口 三. 详细代码 一. 思路概述 1.拉勾网采用Ajax技术,加载网页时会向后端发送Ajax异步请求,因此首先找到数据接口: 2.后端会返回json的数据, ...

  8. Python网络爬虫简介与环境配置

    第一章 Python网络爬虫简介与环境配置 1.1 网络爬虫简介 随着互联网的快速发展越来越多的信息被发布到互联网上,这些信息被嵌入到各种各样的网页结构及样式中.虽然搜索引擎可以辅助用户搜索这些网页信 ...

  9. python网络爬虫从入门到实践第2版pdf-Python网络爬虫从入门到实践 第2版

    前言 第1章 网络爬虫入门1 1.1 为什么要学网络爬虫2 1.1.1 网络爬虫能带来什么好处2 1.1.2 能从网络上爬取什么数据3 1.1.3 应不应该学爬虫3 1.2 网络爬虫是否合法3 1.2 ...

  10. Python网络爬虫之Python基本命令

    往期内容 1.教你如何编写第一个简单的爬虫 2.Python编程无师自通–函数 3.在Windows平台上如何安装Python 本节主要介绍Python的一些基础语法.如果你已经学会使用Python, ...

最新文章

  1. Django博客系统工程创建和配置
  2. [MSSQL]ROW_NUMBER函数
  3. atthesametime啥意思_eachother造句并翻译
  4. 字符流的抽象类 java
  5. JavaScript:函数
  6. 基于python的分类模型_python SVM 线性分类模型的实现
  7. Spark 解析 : DAGScheduler中的DAG划分与提交
  8. Hadoop数据传输工具sqoop - 样例
  9. 微信隐藏代码功能大汇总-你不知道的微信命令行.doc
  10. 吉林大学计算机学院三等奖学金,吉林大学奖学金评定方案.doc
  11. html实现安卓手机重启,这12行代码分分钟让你电脑崩溃手机重启
  12. 视觉技术再赋能,深眸科技一体化解决方案引领工业视觉机器人落地应用
  13. IoT嵌入式硬件--DC/DC
  14. html5拖拽表单设计器,require+jquery+backbone实现拖拽式报表设计器-拖拽式表单设计器...
  15. arduino点阵声音频谱_Arduino实现32分频音频频谱显示器
  16. 阿里云oss 收费标准细则,太鸡贼了,不要傻傻的以为只收你存储的钱
  17. 电脑高手常用的五个按钮
  18. 黑群晖6.17 安装ax88179_178a.ko驱动(USB千兆网卡)
  19. 微信小程序自定义弹窗组件 action-sheet
  20. MATLAB 绘图合集: 双对数刻度图 loglog

热门文章

  1. python正则表达式中的转义字符_详解python中正则表达式的反斜线的转义功能
  2. mysql根据父级编码得到父级内容_在mysql查询中通过父级获取所有子级
  3. 百度统计 java 实现思路_2019社招阿里、腾讯、蚂蚁金服「四面」Java面试真题分享...
  4. pywt.upcoef中take使用详解
  5. atlas安装需要kafka吗_客厅吸顶灯安装方法你知道吗?安装需要注意什么
  6. 32位选择进位加法器_32位加减法器设计
  7. java 工程ssl配置_JAVA_SSL配置
  8. 成员缩写_青春有你2snh48成员都有谁 10名SNH48女团成员介绍
  9. 2020年网易校招提前批JAVA岗笔试第一题
  10. 河南关于领取软考2021年上半年合格证书的通知