强大的爬虫组合

  • selenium
    • 安装
  • PhantomJS
  • 组合方式
  • linux下安装驱动
  • window 下安装
  • 代码示例

selenium官网
官方文档

selenium

开源的、web自动化 测试工具

  1. 测试web 系统的功能
  2. 测试web系统的兼容性(不同的os+brower)

通过指令指令指令操控浏览器,必须与第三方浏览器结合使用

安装

#linux
sudo pip3 install selenium
#win
python -m pip install selenium

PhantomJS

  1. 无界面浏览器—无头浏览器
  2. 在内存中加载页面,更加的高效
  3. 用于自动化测试,网络爬虫等

组合方式

  1. selenium + PhantomJS 实现更加简单强大的爬虫
    PhantomJS
    新版本不再支持PhantomJS,用的越来越少
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get("https://www.baidu.com")
browser.save_screenshot("a.png")#屏幕快照
  1. selenium + chromedriver + Chrome
    chromedriver
    下载与Chrome浏览器版本接近的,解压出chromedriver.exe,windows复制到python环境的Scripts文件夹下
    测试:
    如这里是使用的Aanaconda
from selenium  import webdriver
webdriver.Chrome()  #是否成功打开浏览器
  1. selenium + geckodriver + Firefox
    geckodriver

linux下安装驱动

  1. tar -zxvf xxx.tar.gz
  2. sudo cp phantomjs/chromedriver/geckodriver /usr/bin/
  3. chmode 777 /usr/bin/geckodriver

window 下安装

复制xxx.exe 到python安装目录的Scripts/

代码示例

from selenium import webdriver#open Chrome
brower = webdriver.Chrome()#request
brower.get("https://www.baidu.com")#find element and input keys
browser.find_element_by_xpath("//*[@id='kw']").send_keys("成龙")#search
browser.find_element_by_xpath("//*[@id='su']").click()

下一篇:selenium+browser爬虫实战

selenium+brower爬虫准备相关推荐

  1. python selenium爬虫_详解基于python +Selenium的爬虫

    详解基于python +Selenium的爬虫 一.背景 1. Selenium Selenium 是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,支持chrome.firefox等主 ...

  2. Python精确指南——第三章 Selenium和爬虫

    3       Selenium 3.1     介绍 网络爬虫在互联网领域有着广泛的应用. Selenium是一个页面自动化控制框架.能够模拟实际操作,自动化获取网站提供的页面资源信息. Selen ...

  3. python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩

    python + selenium +pyquery 爬虫  爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver  包含wi ...

  4. 网络爬虫之Selenium(可视化)爬虫

    前言:今天跟大家分享网络(selenium)爬虫,网络爬虫技术的用处范围非常广泛以及非常强大的一门技术.介绍爬虫之后,跟大家延伸Python这一门技术,因为讲到爬虫,就会联想到Python,自己也会讲 ...

  5. 用python的selenium写爬虫通过绝对坐标点击元素

    用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法 注: 适用于谷歌浏览器浏览器: 其中css选择器为目标区域的css表达式: 网页F12打开源代码,在console窗口输入 # ...

  6. 【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...

  7. chrome.exe版本不对selenium进行爬虫时无法启动谷歌浏览器

    问题描述:由于谷歌浏览器升级,导致谷歌驱动chrome.exe版本不对,使用selenium进行爬虫时无法启动谷歌浏览器. 解决方法:1. 在谷歌浏览器的设置下,查看浏览器的Chrome版本号. 2. ...

  8. selenium+python爬虫全流程教程

    python+selenium爬虫全流程详解 selenium+python爬虫简介 selenium测试脚本 python+selenium 模拟浏览器----以chrome为例 浏览器驱动安装 浏 ...

  9. Python之Selenium自动化爬虫

    文章目录 Python之Selenium自动化爬虫 0.介绍 1.安装 2.下载浏览器驱动 3.实例 4.开启无头模式 5.保存页面截图 6.模拟输入和点击 a.根据文本值查找节点 b.获取当前节点的 ...

最新文章

  1. python入门之控制结构-循环结构_(一)Python入门-4控制语句:05while循环结构-死循环处理...
  2. 特征工程-统计数据特征
  3. VLC通信仿真中数字脉冲间隔调制(DPIM)实例
  4. 动物模型:急性肝脏损伤模型的构建及选择
  5. Linux下的hostname命令详解
  6. echo回声不能用了_已懂得用电子分频器,为何不继续加个效果器让音响效果更好?...
  7. java封装需要多久_Java对时间操作的一些封装函数
  8. 程序员的进阶课-架构师之路(10)-霍夫曼树
  9. 227 Puzzle
  10. go语言---特殊类型的函数
  11. MVC的Controller-Action布局:单独的创建/编辑页面还是创建/编辑/查看一体的页面?...
  12. css background 一半_CSS---阴阳图
  13. tp5 前台 点击显示一个弹窗
  14. 深度学习基础(五)—— rectifier function and softplus
  15. rpm和yum的使用
  16. Andorid中的dex文件使用dex2jar工具反编译
  17. [硬件技术] 教你如何挑选主板:电脑主板质量好坏的鉴别方法
  18. itunes登录时显示服务器失败怎么办,苹果手机itunes验证失败怎么办
  19. HDU 1546 Idiomatic Phrases Game 最短路
  20. CAD软件中沿墙镜像功能的使用技巧

热门文章

  1. 2021年世界地图shp数据arcgis中英文字段美化mxd(含效果图)
  2. 常见的进制和进位规则
  3. Windows 10远程桌面指定端口连接;端口号修改;远程桌面默认端口号
  4. 来~打包实现小程序动态分享图一条龙服务( ¨̮ )
  5. iOS Newsstand Tutorial(IOS报刊亭教程)
  6. DHCP自动获取ip地址
  7. 设置修改Tomcat的UTF-8编码
  8. 小程序容器解决OA系统数字化升级难题?
  9. 网销客是用来辅助网络营销
  10. matlab 系统辨识工具箱三分钟入手