selenium+brower爬虫准备
强大的爬虫组合
- selenium
- 安装
- PhantomJS
- 组合方式
- linux下安装驱动
- window 下安装
- 代码示例
selenium官网
官方文档
selenium
开源的、web自动化 测试工具
- 测试web 系统的功能
- 测试web系统的兼容性(不同的os+brower)
通过指令指令指令操控浏览器,必须与第三方浏览器结合使用
安装
#linux
sudo pip3 install selenium
#win
python -m pip install selenium
PhantomJS
- 无界面浏览器—无头浏览器
- 在内存中加载页面,更加的高效
- 用于自动化测试,网络爬虫等
组合方式
- selenium + PhantomJS 实现更加简单强大的爬虫
PhantomJS
新版本不再支持PhantomJS,用的越来越少
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get("https://www.baidu.com")
browser.save_screenshot("a.png")#屏幕快照
- selenium + chromedriver + Chrome
chromedriver
下载与Chrome浏览器版本接近的,解压出chromedriver.exe,windows复制到python环境的Scripts文件夹下
测试:
如这里是使用的Aanaconda
from selenium import webdriver
webdriver.Chrome() #是否成功打开浏览器
- selenium + geckodriver + Firefox
geckodriver
linux下安装驱动
- tar -zxvf xxx.tar.gz
- sudo cp phantomjs/chromedriver/geckodriver /usr/bin/
- chmode 777 /usr/bin/geckodriver
window 下安装
复制xxx.exe 到python安装目录的Scripts/
代码示例
from selenium import webdriver#open Chrome
brower = webdriver.Chrome()#request
brower.get("https://www.baidu.com")#find element and input keys
browser.find_element_by_xpath("//*[@id='kw']").send_keys("成龙")#search
browser.find_element_by_xpath("//*[@id='su']").click()
下一篇:selenium+browser爬虫实战
selenium+brower爬虫准备相关推荐
- python selenium爬虫_详解基于python +Selenium的爬虫
详解基于python +Selenium的爬虫 一.背景 1. Selenium Selenium 是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,支持chrome.firefox等主 ...
- Python精确指南——第三章 Selenium和爬虫
3 Selenium 3.1 介绍 网络爬虫在互联网领域有着广泛的应用. Selenium是一个页面自动化控制框架.能够模拟实际操作,自动化获取网站提供的页面资源信息. Selen ...
- python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩
python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver 包含wi ...
- 网络爬虫之Selenium(可视化)爬虫
前言:今天跟大家分享网络(selenium)爬虫,网络爬虫技术的用处范围非常广泛以及非常强大的一门技术.介绍爬虫之后,跟大家延伸Python这一门技术,因为讲到爬虫,就会联想到Python,自己也会讲 ...
- 用python的selenium写爬虫通过绝对坐标点击元素
用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法 注: 适用于谷歌浏览器浏览器: 其中css选择器为目标区域的css表达式: 网页F12打开源代码,在console窗口输入 # ...
- 【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...
- chrome.exe版本不对selenium进行爬虫时无法启动谷歌浏览器
问题描述:由于谷歌浏览器升级,导致谷歌驱动chrome.exe版本不对,使用selenium进行爬虫时无法启动谷歌浏览器. 解决方法:1. 在谷歌浏览器的设置下,查看浏览器的Chrome版本号. 2. ...
- selenium+python爬虫全流程教程
python+selenium爬虫全流程详解 selenium+python爬虫简介 selenium测试脚本 python+selenium 模拟浏览器----以chrome为例 浏览器驱动安装 浏 ...
- Python之Selenium自动化爬虫
文章目录 Python之Selenium自动化爬虫 0.介绍 1.安装 2.下载浏览器驱动 3.实例 4.开启无头模式 5.保存页面截图 6.模拟输入和点击 a.根据文本值查找节点 b.获取当前节点的 ...
最新文章
- python入门之控制结构-循环结构_(一)Python入门-4控制语句:05while循环结构-死循环处理...
- 特征工程-统计数据特征
- VLC通信仿真中数字脉冲间隔调制(DPIM)实例
- 动物模型:急性肝脏损伤模型的构建及选择
- Linux下的hostname命令详解
- echo回声不能用了_已懂得用电子分频器,为何不继续加个效果器让音响效果更好?...
- java封装需要多久_Java对时间操作的一些封装函数
- 程序员的进阶课-架构师之路(10)-霍夫曼树
- 227 Puzzle
- go语言---特殊类型的函数
- MVC的Controller-Action布局:单独的创建/编辑页面还是创建/编辑/查看一体的页面?...
- css background 一半_CSS---阴阳图
- tp5 前台 点击显示一个弹窗
- 深度学习基础(五)—— rectifier function and softplus
- rpm和yum的使用
- Andorid中的dex文件使用dex2jar工具反编译
- [硬件技术] 教你如何挑选主板:电脑主板质量好坏的鉴别方法
- itunes登录时显示服务器失败怎么办,苹果手机itunes验证失败怎么办
- HDU 1546 Idiomatic Phrases Game 最短路
- CAD软件中沿墙镜像功能的使用技巧