python+selenium爬虫全流程详解

  • selenium+python爬虫简介
    • selenium测试脚本
    • python+selenium
  • 模拟浏览器----以chrome为例
    • 浏览器驱动安装
    • 浏览器模拟基本操作
  • 爬取数据--web定位
    • 案例--b站排行榜
      • 定位方法以及实操
  • 部分可能会用到的方法(辅助爬虫/降低反爬)
    • 加快网页加载速度(不加载js,images等)
    • 异常捕捉
    • 网页等待加载
    • 在输入框中输入数据
    • 网页点击(如点击下一页,或者点击搜索)
    • 打印网页信息
    • 切换iframe
    • 网页滚动(更像真人)
    • 随机等待几秒再操作(更像真人)
  • 讲在最后

selenium+python爬虫简介

该教程许多内容基于个人经验,部分内容有些口语化
如有错误的地方麻烦及时指正(可评论或者私信)

selenium测试脚本

selenium实际上是web自动化测试工具,能够通过代码完全模拟人使用浏览器自动访问目标站点并操作来进行web测试。

python+selenium

通过python+selenium结合来实现爬虫十分巧妙。

由于是模拟人的点击来操作,所以实际上被反爬的概率将大大降低。
selenium能够执行页面上的js,对于js渲染的数据和模拟登陆处理起来非常容易。
该技术也可以和其它技术结合如正则表达式,bs4,request,ip池等。

当然由于在获取页面的过程中会发送很多请求,所以效率较低,爬取速度会相对慢,建议用于小规模数据爬取。

selenium安装,直接通过pip安装即可

pip3 install selenium

导入包

from selenium import webdriver

模拟浏览器----以chrome为例

浏览器驱动安装

链接: https://registry.npmmirror.com/binary.html?path=chromedriver/
我们只需要在上面链接内下载对应版本的驱动器,并放到python安装路径的scripts目录中即可。

浏览器版本可在设置–关于Chrome中看到
当然由于浏览器时常会自动更新,我们也记得使用前要更新相对应的驱动

浏览器模拟基本操作

browser = webdriver.Chrome() # 打开浏览器
driver.maximize_window()  # 最大化窗口
browser.minimize_window()  # 最小化窗口
url='https://www.bilibili.com/v/popular/rank/all'#以该链接为例
browser.get(url)#访问相对应链接
browser.close#关闭浏览器

爬取数据–web定位

以下知识需要一些web相关知识为前提

案例–b站排行榜


假设我们需要爬取上图红圈中的文本数据,那么我们需要定位到该地方的点位

定位方法以及实操

定位方法的选择主要根据目标网页的情况来定

#find_elements_by_xxx的形式是查找到多个元素(当前定位方法定位元素不唯一)
#结果为列表browser.find_element_by_id('')# 通过标签id属性进行定位browser.find_element_by_name("")# 通过标签name属性进行定位browser.find_elements_by_class_name("")# 通过class名称进行定位browser.find_element_by_tag_name("")# 通过标签名称进行定位browser.find_element_by_css_selector('')# 通过CSS查找方式进行定位browser.find_element_by_xpath('')# 通过xpath方式定位
#在chrome中可以通过源代码目标元素右键--Copy--Copy XPath/Copy full XPathbrowser.find_element_by_link_text("")# 通过搜索 页面中 链接进行定位browser.find_element_by_partial_link_text("")# 通过搜索 页面中 链接进行定位 ,可以支持模糊匹配

在案例网站中我们根据class名称来爬取,标签内class=“info”

from selenium import webdriver
browser = webdriver.Chrome()
# browser.minimize_window()  # 最小化窗口
url='https://www.bilibili.com/v/popular/rank/all'
browser.get(url)
info=browser.find_elements_by_class_name('info')
#在目标网站中网站中标题class名称都为"info",所以用elements
for i in info:print(i.text)#.text为定位元素底下的所有文本,当然我们也可以获取标签里的东西(用其它函数),如视频链接:# print(i.find_elements_by_tag_name('a')[0].get_attribute('href'))

结果

部分可能会用到的方法(辅助爬虫/降低反爬)

加快网页加载速度(不加载js,images等)

options = webdriver.ChromeOptions()
prefs = {'profile.default_content_setting_values': {'images': 2,'permissions.default.stylesheet':2,'javascript': 2}}
options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=options)

异常捕捉

from selenium.common.exceptions import NoSuchElementException

网页等待加载

由于网速的问题等,进入该网址后页面还没加载出来需要等待

selenium自带的加载方式

from selenium.webdriver.support.wait import WebDriverWait #等待页面加载
wait=WebDriverWait(browser,10) #显式等待:指定等待某个标签加载完毕
wait1=browser.implicitly_wait(10)    #隐式等待:等待所有标签加载完毕
wait.until(EC.presence_of_element_located((By.CLASS_NAME,'tH0')))

用time等待时间

import time
time.sleep(2)

在输入框中输入数据

ele = driver.find_element_by_id("kw")  # 找到id为kw的节点
ele.send_keys("名称")  # 向input输入框输入名称
#也可以driver.find_element_by_id("kw").send_keys("名称")

网页点击(如点击下一页,或者点击搜索)

ele = driver.find_element_by_id("kw")  # 找到id为kw的节点
ele.send_keys("数学")  # 向input输入框输入数据
ele = driver.find_element_by_id('su')  # 找到id为su的节点(百度一下)
ele.click()  # 模拟点击

打印网页信息

print(driver.page_source)  # 打印网页的源码
print(driver.get_cookies())  # 打印出网页的cookie
print(driver.current_url)  # 打印出当前网页的url

切换iframe

有时候会碰到网页用iframe来作为文档框架

driver.switch_to.frame("iframe的id")

网页滚动(更像真人)

#  1.滚动到网页底部
js = "document.documentElement.scrollTop=800"
# 执行js
driver.execute_script(js)
# 滚动到顶部
js = "document.documentElement.scrollTop=0"
driver.execute_script(js)  # 执行js

随机等待几秒再操作(更像真人)

import time
import random
time.sleep(random.randint(0,2))

讲在最后

python+selenium爬虫技术仍还有很多可以写,该教程仅仅涉及一大部分,大家应该根据实际需求进行调整,进行搜索。

多进行实践,多百度,总结面对不同网页情况或者不同反爬情况的经验,这样我们才能不断成长。

实践是检验真理的唯一标准。

多谢各位阅读,也希望各位能有所收获。

selenium+python爬虫全流程教程相关推荐

  1. python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

    python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...

  2. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

  3. Python爬虫学习系列教程-----------爬虫系列 你值的收藏

    静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...

  4. Python 爬虫学习 系列教程

    Python爬虫 --- 中高级爬虫学习路线 :https://www.cnblogs.com/Eeyhan/p/14148832.html 看不清图时,可以把图片保存到本地在打开查看... Pyth ...

  5. python训练过程是什么_学了这么久,你知道Python机器学习全流程是怎样的么?

    今天呢,小编就带大家了解一下Python机器学习全流程 首先介绍一下机器学习的概念和地位,和其他的区别是? 机器学习的核心任务是? 机器学习的全流程是? 我们将上述流程拆解出来看: 1.需求来源是?需 ...

  6. python爬虫教程下载-Python爬虫文件下载图文教程

    而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等.怎样通过Python爬虫把这些资源下载下来. 1.怎样在网上找资源: 就是百度图片为例,当你如下图在百度图片里搜索一个主题时, ...

  7. Python机器学习全流程项目实战精讲(2018版)

    Python机器学习全流程项目实战精讲(2018版) 网盘地址:https://pan.baidu.com/s/16SSVq74YC07M0dW1iDekPg 提取码: vu7r 备用地址(腾讯微云) ...

  8. python怎么下载教程-Python爬虫文件下载图文教程

    而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等.怎样通过Python爬虫把这些资源下载下来. 1.怎样在网上找资源: 就是百度图片为例,当你如下图在百度图片里搜索一个主题时, ...

  9. Python 爬虫入门的教程(2小时快速入门、简单易懂、快速上手)

    http://c.biancheng.net/view/2011.html 这是一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者.读者只需在阅读过程紧跟文章思路,理清相应的实现代码, ...

最新文章

  1. cmake语法【一】
  2. Nginx从安装到高可用,一篇搞定!
  3. Android TouchEvent 分发流程
  4. AMD猛攻数据中心市场,拿下15年来最高份额,英特尔DCG收入下滑20%
  5. linux递归创建文件夹_Python中并发请求创建文件夹带来的线程安全问题
  6. MyFlash——美团点评的开源MySQL闪回工具
  7. 日出时的画面_如何拍摄日出日落,老摄影家近30年创作经验分享
  8. java取当前日期_java如何获取系统的当前时间
  9. 微信公众号使用LocalStorage解决返回缓存问题
  10. iOS开发-retain/assign/strong/weak/copy/mutablecopy/autorelease区别
  11. 服务器64位还是32位系统好,云服务器64位还是32位
  12. 保证可见性_十年程序员浅谈并发的原子性、可见性、有序性
  13. Java基于SSH技术的毕业设计管理系统
  14. Java中输入一个整形数组,输出其最大值。
  15. 图解 Android 事件分发机制
  16. 【阿里内部教程】python初阶:基础语法 python全栈自动化测试系类
  17. - **体感试衣镜等功能代码工程分享**
  18. safari html5插件安装,Safari巧用小插件 体验不输第三方浏览器
  19. 【计算机网络】湖科大微课堂笔记 p7-10 计算机网络体系结构:常见的计算机网络体系结构、必要性、分层思想、专业术语
  20. DBA在项目中的角色

热门文章

  1. 【插头DP】 FZU 1977 Pandora adventure
  2. 老鸟绕过把电影下载到手机里面的方法
  3. idea运行时出现PermGen Space
  4. C#仿QQ皮肤-实现原理系列文章导航
  5. Egret实战开发笔记,飞行射击游戏(二)
  6. 复制小程序页面路径给公众号文章使用
  7. 斐波那契数列递归思路
  8. c语言程序设计何钦铭视频教程,C语言程序设计 (何钦铭 颜晖 著) 高等教育出版社第1章 教案.ppt...
  9. java nim游戏_LeetCode 292. Nim游戏
  10. 如何用redis做活跃用户统计-HyperLoglog