简介

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

作用：可以让浏览器完成相关自动化的操作

和爬虫的关联：

模拟登陆
可以获取动态加载的页面数据

编码流程：

导包
实例化浏览器对象（驱动）
制定相关自动化的行为动作

环境安装

下载安装selenium：pip install selenium
下载浏览器驱动程序：
- http://chromedriver.storage.googleapis.com/index.html
查看驱动和浏览器版本的映射关系：
- http://blog.csdn.net/huilan_same/article/details/51896672

简单使用/效果展示

01：

from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://www.baidu.com')    #获取的连接页面
sleep(2)
#标签定位
tag_input = bro.find_element_by_id('kw')
tag_input.send_keys('人民币')   #标签中输入值
sleep(2)btn = bro.find_element_by_id('su')
btn.click()  #标签点击事件
sleep(2)bro.quit()  #退出

02.

from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')bro.get('https://xueqiu.com/')
sleep(5)#执行js实现滚轮向下滑动
js = 'window.scrollTo(0,document.body.scrollHeight)'    #两个参数一个是X轴，一个是y轴，此时用的是Y轴
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)a_tag = bro.find_element_by_xpath('//*[@id="app"]/div[3]/div/div[1]/div[2]/div[2]/a')
a_tag.click()
sleep(5)
#获取当前浏览器页面数据(动态)
print(bro.page_source)    bro.quit()

PhantomJs及谷歌无头浏览器无可视化：

#PhantomJs是一款无可视化界面的浏览器（免安装）from selenium import webdriverfrom time import sleepbro = webdriver.PhantomJS(executable_path=r'C:\Users\Administrator\Desktop\爬虫+数据\爬虫day03\phantomjs-2.1.1-windows\bin\phantomjs.exe')bro.get('https://xueqiu.com/')sleep(2)bro.save_screenshot('./1.png')#执行js实现滚轮向下滑动

js = 'window.scrollTo(0,document.body.scrollHeight)'bro.execute_script(js)sleep(2)bro.execute_script(js)sleep(2)bro.execute_script(js)sleep(2)bro.execute_script(js)sleep(2)bro.save_screenshot('./2.png')# a_tag = bro.find_element_by_xpath('//*[@id="app"]/div[3]/div/div[1]/div[2]/div[2]/a')# bro.save_screenshot('./2.png')# a_tag.click()

sleep(2)#获取当前浏览器页面数据(动态)print(bro.page_source)bro.quit()现在用的很少，知道即可 

from selenium import webdriverfrom time import sleepfrom selenium.webdriver.chrome.options import Options# 创建一个参数对象，用来控制chrome以无界面模式打开

chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')bro = webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options)bro.get('https://www.baidu.com')sleep(2)bro.save_screenshot('1.png')#标签定位

tag_input = bro.find_element_by_id('kw')tag_input.send_keys('人民币')sleep(2)btn = bro.find_element_by_id('su')btn.click()sleep(2)print(bro.page_source)bro.quit()谷歌无头浏览器

转载于:https://www.cnblogs.com/pythonz/p/10933858.html

爬虫之Selenium相关推荐

爬虫之selenium爬取斗鱼网站
爬虫之selenium爬取斗鱼网站示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...
爬虫之selenium控制浏览器执行js代码
爬虫之selenium控制浏览器执行js代码 selenium可以让浏览器执行我们规定的js代码,运行下列代码查看运行效果 import time from selenium import webdr ...
爬虫之selenium标签页的切换
爬虫之selenium标签页的切换当selenium控制浏览器打开多个标签页时,如何控制浏览器在不同的标签页中进行切换呢?需要我们做以下两步: 获取所有标签页的窗口句柄 [获取窗口句柄,通过窗 ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
爬虫篇——selenium（webdriver）进行用户登录并爬取数据)
爬虫篇--selenium(webdriver)进行用户登录并爬取数据摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取摘要本文主要介绍了如何通过selenium使用Chorme ...
python爬虫之selenium,谷歌无头浏览器
python爬虫之selenium和PhantomJS 主要的内容 lenium hantomjs 无头浏览器的懒加载一什么是selenium? 介绍它是python中的一个第三方库,对外提供 ...
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
python selenium 进入新标签页_python 爬虫之selenium可视化爬虫
文章目录前文回顾快速入门元素定位页面操作等待方式扩展程序加载点击此处,获取海量Python学习资料! 之所以把selenium爬虫称之为可视化爬虫主要是相较于前面所提到的几种网页解析的 ...
Python爬虫之selenium高级功能
Python爬虫之selenium高级功能原文地址表单操作元素拖拽页面切换弹窗处理表单操作表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...

爬虫之Selenium

简介

环境安装

简单使用/效果展示

PhantomJs及谷歌无头浏览器无可视化：

爬虫之Selenium相关推荐

最新文章

热门文章