Python爬虫:scrapy辅助功能实用函数
scrapy辅助功能实用函数:
get_response: 获得scrapy.HtmlResponse对象, 在不新建scrapy项目工程的情况下,使用scrapy的一些函数做测试
extract_links: 解析出所有符合条件的链接
代码示例
以拉勾首页为例,获取拉勾首页所有职位链接,进一步可以单独解析这些链接,获取职位的详情信息
import requests
from scrapy.http import HtmlResponse
from scrapy.linkextractors import LinkExtractordef get_response(url):"""获得scrapy.HtmlResponse对象, 在不新建scrapy项目工程的情况下,使用scrapy的一些函数做测试:param url: {str} 链接:return: {HtmlResponse} scrapy响应对象"""headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0"}response = requests.get(url, headers=headers)return HtmlResponse(url=url, body=response.content)def extract_links(response, allow, allow_domains):"""解析所有符合要求的链接, 每次都解析不出来text属性,所以直接封装,可以做一些特定扩展:param response: {scrapy.http.HtmlResponse} scrapy响应:param allow: {tuple} 链接限定元组:param allow_domains: {tuple} 域名限定元组:return: {iterator({str})}"""link_extractor = LinkExtractor(allow=allow, allow_domains=allow_domains)links = link_extractor.extract_links(response)return (link.url for link in links)if __name__ == '__main__':url = "https://www.lagou.com/"response = get_response(url)links = extract_links(response, ("jobs/\d+.html"), ("lagou.com",))for link in links:print(link)"""https://www.lagou.com/jobs/5185130.htmlhttps://www.lagou.com/jobs/4200613.htmlhttps://www.lagou.com/jobs/5039140.htmlhttps://www.lagou.com/jobs/5174337.htmlhttps://www.lagou.com/jobs/5185128.htmlhttps://www.lagou.com/jobs/5185127.html..."""
Python爬虫:scrapy辅助功能实用函数相关推荐
- Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
- python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
- Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider
Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...
- Python爬虫——Scrapy 的基本使用
文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- Python爬虫—Scrapy框架—Win10下载安装
Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...
- Python爬虫——Scrapy 简介和安装
文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...
- python爬虫 - scrapy的安装和使用
http://blog.csdn.net/pipisorry/article/details/45190851 Crawler Framework爬虫框架scrapy简介 Scrapy是Python开 ...
- python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...
最新文章
- python 变量聚类 proc varclus_使用SAS进行简单的聚类分析讲解
- 【java 性能优化实战】2 深入剖析:哪些资源,容易成为瓶颈
- Django模拟新浪微博的@功能
- php和html和javascript,php和javascript区别有哪些
- android XMl 解析神奇xstream 四: 将复杂的xml文件解析为对象
- 传输参数【JAX-WS入门系列】第06章_使用MTOM处理二进制文件
- Apple Mac OS X每日一技巧026:Spotlight打开文件所在的文件夹
- 修复./mysql/proc
- 60-008-022-使用-命令-yarn-session命令
- 【设计模式笔记】抽象工厂模式
- 面试官:谈谈 Tomcat 架构及启动过程,我一脸懵逼。。
- .net中前台javascript与c#后台代码调用
- GIS案例练习-----------第六天
- 中国能源消费结构(2003-2019年)
- AI算法 - 粒子滤波
- Android Shape 详细使用
- 吴晓波:预见2021(跨年演讲 —— 02 “云上中国”初露峥嵘)
- LibPcap经常丢包怎么办?
- 数据湖统一存储在 OPPO 的实践
- cad渐开线齿轮轮廓绘制_CAD渐开线齿轮怎么画?