在我们爬虫爬网过程中,我们需要用到Python3+selenium,Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。

文章参考了博主崔庆才的文章:https://cuiqingcai.com/5052.html,在此表示感谢!

Selenium的安装

1.相关链接
官方网站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ/selenium/tree/master/py
PyPI:https://pypi.python.org/pypi/selenium
官方文档:http://selenium-python.readthedocs.io
中文文档:http://selenium-python-zh.readthedocs.io
2.windows环境通过cmd命令行方式安装

pip3 install selenium

ChromeDriver驱动的安装

安装好了Selenium后,我们还需要浏览器来配合使用,因为它只是一个自动化测试工具,这里主要介绍ChromeDriver驱动的安装,安装好后可以打开Chrome浏览器。
1.相关链接
官方网站:https://sites.google.com/a/chromium.org/chromedriver
下载地址:https://chromedriver.storage.googleapis.com/index.html
2.安装Chrome浏览器

安装了Chrome浏览器后,点击Chrome菜单“帮助”→“关于Google Chrome”,查看Chrome的版本号,如图所示:

本人的版本号为64.0,需要去找到能够匹配这个版本浏览器的驱动。

3.下载ChromeDriver
打开ChromeDriver的官方网站,发现v2.35能够支持版本号为64.0,随后到ChromeDriver镜像站下载对应的安装包即可:https://chromedriver.storage.googleapis.com/index.html

为了方便查找驱动ChromeDriver能够支持的版本,可以查看以下selenium之chromedriver与chrome版本映射表

(参考博主huilan_same文章:http://blog.csdn.net/huilan_same/article/details/51896672)

chromedriver版本 支持的Chrome版本
v2.35 v62-64
v2.34 v61-63
v2.33 v60-62
v2.32 v59-61
v2.31 v58-60
v2.30 v58-60
v2.29 v56-58
v2.28 v55-57
v2.27 v54-56
v2.26 v53-55
v2.25 v53-55
v2.24 v52-54
v2.23 v51-53
v2.22 v49-52
v2.21 v46-50
v2.20 v43-48

驱动的配置

在Windows下,将下载的ChromeDriver可执行文件chromedriver.exe拖到Python的Scripts目录下

然后通过以下代码在python环境测试是否安装成功

from selenium import webdriver
driver = webdriver.Chrome()
driver.maximize_window()  # 最大化浏览器
driver.implicitly_wait(8)  # 设置隐式时间等待
driver.get("https://www.baidu.com")

配置好相关环境后,以后爬虫相关操作需要用到Python3+selenium。

【Python爬虫】Python3+selenium环境配置相关推荐

  1. Python网络爬虫简介与环境配置

    第一章 Python网络爬虫简介与环境配置 1.1 网络爬虫简介 随着互联网的快速发展越来越多的信息被发布到互联网上,这些信息被嵌入到各种各样的网页结构及样式中.虽然搜索引擎可以辅助用户搜索这些网页信 ...

  2. python爬虫——使用selenium爬取微博数据(一)

    python爬虫--使用selenium爬取微博数据(二) 写在前面 之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...

  3. python phpstudy_Java、python及phpstudy的环境配置

    由于重装了系统,电脑上啥都没了,正好借此机会写一些从空白开始配置新电脑,希望多踩一点坑,才能帮更多的人解决问题. 本文是小白向的,学习过程中看到一些教程缺胳膊少腿,可能会漏掉一些博主觉得easy但是是 ...

  4. python 模拟浏览器selenium_浅谈python爬虫使用Selenium模拟浏览器行为

    前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少.原因他也大概分析了下,就是后面的图片是动态加载的.他的问题就是这部分动 ...

  5. Win10系统下Python安装和Geany环境配置的几点总结

    Win10系统下Python安装和Geany文本编辑器配置的几点总结 (START OF MY BLOG LIFE) 一.Python的安装 Python直接可以在官网下载(https://www.p ...

  6. mac安装python3并配置,Mac安装python3和环境配置

    Mac安装python3和环境配置 1. mac自带安装了python2,但某些库用不了,需要自行安装python3,从python官网下载mac版的安装包,直接安装. sublime编辑器也是官网下 ...

  7. [Python爬虫]使用Selenium操作浏览器订购火车票

    这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...

  8. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  9. Python爬虫之selenium库使用详解

    Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...

最新文章

  1. 《HTML、CSS、JavaScript 网页制作从入门到精通》——6.6 单元格属性
  2. 让Updatepanel中的控件触发整个页面Postback
  3. 贝叶斯学习--极大后验假设学习
  4. 5G时代到来,是机遇还是灾难?
  5. c语言编程汉诺塔问题,C语言解决汉诺塔问题
  6. 北京市平谷区谷歌卫星地图下载
  7. MAC 如何连接惠普打印机
  8. php ligerui 导出excel,LigerUI表格树的使用
  9. 【阅读论文】第八章--多图像的质量增强--博-自动化眼底图像分析技术可筛查糖尿病患者的视网膜疾病
  10. 3D动作手游的辅助瞄准算法(一)
  11. 鞍山c语言培训,10_鞍山科技大学:C语言与数据结构_ppt_大学课件预览_高等教育资讯网...
  12. Linux安装MySQL(源码安装)
  13. Docker-Windows安装、升级、卸载
  14. Linux服务器硬件及RAID
  15. PPT中插入高亮代码——PPT对象
  16. mod_rewrite htaccess 简单使用
  17. 文件操作——打开关闭、顺序读写、随机读写
  18. 好看的渐变色网址收藏
  19. zabbix 5.0监控网络设备
  20. Python中字典及应用(详细)

热门文章

  1. 中蒙俄经济走廊背景_上海外国语大学师生代表团参观访问G60科创走廊俄罗斯院士创新基地...
  2. Java 异常种类及处理方法
  3. mysql免安装出现1067_mysql,免安装,1067错误
  4. controller接收json数据_SpringMVC实现多种数据类型绑定
  5. 哈希表的大小为何最好是素数
  6. java打开输入框,java – 在Android中打开输入对话框
  7. java 对象视图框架_Stripes视图框架Java对象属性验证和prototype.js Ajax的测试
  8. matlab GUI 设计 自学笔记
  9. 计算机控制系统视频关守平,国家级精品课《计算机控制系统》课程建设研讨会顺利召开...
  10. mysql模糊查询 or_mysql的模糊查询