常见Python爬虫工具总结
前言
以前写爬虫都是用requests包,虽然很好用,不过还是要封装一些header啊什么的,也没有用过无头浏览器,今天偶然接触了一下。
原因是在处理一个错误的时候,用到了几个以前没有用过的工具;这几个工具也挺常见的,在这里一起总结一下。包括以下几个:
- selenium
- requests-html
selenium
简介
selenium是一个网页自动化测试的工具,既然是网页测试的,那么肯定支持各种浏览器了,常见的Firefox/Chrome/Safari都支持;当然,也需要你下载对应浏览器的驱动了。下面简单说一下他的使用方式。
安装
- 使用pip install selenium安装selenium
- 安装对应浏览器驱动,chrome的可以去这里下载
- 把驱动copy到/usr/local/bin下(非必须,不拷贝的话在使用的时候需要制定驱动的路径)
简单使用
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
from selenium import webdriverdriver = webdriver.chrome.webdriver.WebDriver()
driver.get("https://www.lagou.com/jobs/3490584.html")# 获取源码
a = driver.page_source.encode('utf-8')# 查找资源/tag
driver.find_element_by_xpath(u"//img[@alt='强化学习 (Reinforcement Learning)']").click()
driver.find_element_by_link_text("About").click()# 截图
driver.get_screenshot_as_file("./img/sreenshot1.png")
requests-html
简介
是不是看见requests很熟悉,没错,这个就是会拍照又会写代码的requests的作者写的又一个库;
这个库代码并不是很多,都是基于其他库封装的,lxml/requests啊这些;使用也很简单,遵循了他的宗旨:for humans
安装
pip install requests-html
使用
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
from requests_html import HTMLSessionsession = HTMLSession()
r = session.get('https://python.org/')# 获取页面上的链接
r.html.links
r.html.absolute_links# 用css选择器选择一个元素
about = r.html.find('#about', first=True)
print(about.text)# xpath
r.html.xpath('a')
常见Python爬虫工具总结相关推荐
- 常见python爬虫框架
一.python爬虫框架 一些爬虫项目的半成品 二.常见python爬虫框架 (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况).用这个框架可 ...
- java 爬虫框架_常见python爬虫框架(欢迎各位大佬来补充)
一.python爬虫框架 一些爬虫项目的半成品 二.常见python爬虫框架 (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况).用这个框架可 ...
- python爬虫作用小工具_【python小课堂|史上最全的Python爬虫工具列表大全】- 环球网校...
[摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有python学习者关注Python爬 ...
- 简单快捷的 Python 爬虫工具:SmartScraper
大家好. 今天给大家介绍一款简单.自动且快捷的Python爬虫工具SmartScraper.SmartScraper使页面数据抓取变得容易,不再需要学习诸如pyquery.beautifulsoup等 ...
- python金融分析小知识(12)——python爬虫工具xpath使用
Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助! 本篇文章紧接上一篇文章,python金融分析小 ...
- 与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具!
[摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...
- 常见python爬虫模板_常见的Python爬虫框架有几个?
常见的Python爬虫框架有几个?实现爬虫技术的编程环境有很多种,Java.Python.C++等都可以用来写爬虫.但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的 ...
- python爬虫软件-Python爬虫工具篇 - 必会用的6款Chrome插件
在日常 PC 端的 Python爬虫过程工作中,Chrome 浏览器是我们常用的一款工具. 鉴于 Chrome 浏览器的强大,Chrome 网上应用商店很多强大的插件可以帮助我们快速高效地进行数据爬虫 ...
- 全网最全Python爬虫工具使用指南
网络爬虫就是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.今天小编特意整理了一些实用的Python爬虫小工具,希望对大家的工作学习有帮助. 通用: urllib -网络库(stdlib). ...
最新文章
- python使用笔记:xlrd和xlwt库的使用
- python实现肯德基店铺查询
- 2020 年最全 Python 面试题汇总 (四)
- TensorFlow学习笔记(二十一) tensorflow机器学习模型
- C++笔记-基于邻接表的BFS(宽度优先遍历)
- 视觉SLAM笔记(26) 状态估计问题
- 使用Python定制词云
- Android调用长截屏,Android实现长截屏功能
- Html表格代码实现打印
- linux如何破解密码
- 前端交互之hover用法
- java处理脏数据,Java程序的脏数据问题
- 编译祁大神的iguana,大神就是大神.
- Discuz X2.0数据字典(数据库表作用解释)
- 干支纪年法简便算法_初中阶段常用的四种历史纪年法
- post提交数据返回404错误
- POJ 2942 Knights of the Round Table (奇圈+点双联通)
- C++ AMP实战:绘制曼德勃罗特集图像
- 微软模拟飞行10厦门航空涂装_《微软飞行模拟》第二弹更新 享受在美飞行的旅途...
- 写国际化的嵌入式代码,时间问题如何处理?
热门文章
- virsh KVM管理工具
- python 之 collections
- js解析json字符串数组
- JavaScript模块化-require.js
- 修改归档模式的存档终点 archive log list
- 运行Qt release版本时出现“丢失QtCore4.dll”错误
- 【转】在CSS中 ID与Class的区别?谢谢
- 本地化中文示例代码需求调查
- SQL结构化查询语言中的LIKE语句
- Attachments failing with invalid id (Bugtraker.net)