目录

CrawlSpider

简介

基本运行

特性和概念

基本使用

创建CrawlSpider

运行

使用CrawlSpider中核心的2个类对象

Rule对象

LinkExtractors

作用

使用

查看效果-shell中验证

示例

注意


CrawlSpider

简介

CrawlSpider 是 Scrapy 框架提供的一个特殊的 Spider 类型,在Scrapy中Spider是所有爬虫的基类,而CrawSpiders就是Spider的派生类,用于处理那些需要遵循特定规则和链接提取的网站。它是基于广度优先算法构建的,可以自动发现并跟踪网页上的链接,并根据预定义的规则提取数据。

CrawlSpider 提供了一种更高级的方法来定义爬取规则,而无需编写大量的重复代码。它基于规则系统工作,其中每个规则由一个或多个链接提取器(LinkExtractor)和一个回调函数(callback)组成。规则定义了要提取的链接和如何处理这些链接的方法。

基本运行

适用于先爬取start_url列表中的网页,再从爬取的网页中获取link并继续爬取的工作。

特性和概念

  1. 链接提取器(LinkExtractor):链接提取器用于从网页中提取链接。CrawlSpider 提供了几种内置的链接提取器,如基于正则表达式、基于 CSS 选择器、基于 XPath 等,你可以根据需求选择合适的链接提取器。

  2. 规则(Rule):规则定义了要提取的链接和如何处理这些链接的方法。每个规则由一个链接提取器和一个回调函数组成。链接提取器用于提取链接,回调函数定义了如何处理这些链接。可以定义多个规则来处理不同类型的链接。

  3. 回调函数(callback):回调函数是指定规则要调用的方法。当链接提取器提取到链接时,将会调用相应的回调函数来处理提取到的

    链接。在回调函数中,你可以编写解析页面和提取数据的逻辑。

  4. follow 参数:在规则中,可以设置 follow 参数来决定是否继续跟踪从链接提取器提取的链接。如果设置为 True,则会继续跟踪这些链接并提取数据;如果设置为 False,则不会跟踪这些链接。

  5. allowed_domains 参数:allowed_domains 参数用于限制爬取的域名。只有在 allowed_domains 列表中的域名下的链接才会被跟踪和提取数据,其他域名下的链接将被忽略。

基本使用

在 Scrapy 框架中,创建 CrawlSpider 时通常是通过继承 scrapy.spiders.CrawlSpider 类来实现的,因为 CrawlSpider 类提供了许多内置的功能和方法来处理链接提取和规则定义。

创建CrawlSpider

要使用 CrawlSpider,首先需要创建一个 Scrapy 项目。可以使用以下命令来创建一个新的 Scrapy 项目

scrapy startproject project_name

进入项目目录

cd project_name

在项目中创建一个新的 Spider

scrapy genspider spider_name spider_domain

注:spider_name 是你给 Spider 命名的标识符,spider_domain 是要爬取的网站的域名。

在生成的 Spider 文件中,将基类指定为 CrawlSpider,定义一个名为 MySpider 的 Spider 类,它继承自 CrawlSpider。我们指定了要爬取的网站域名和起始链接。rules 属性定义了我们要遵循的链接提取规则和回调函数。在这个示例中,我们使用了一个空的 LinkExtractor,表示提取所有链接,然后将其传递给 parse_item 方法进行解析。

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractorclass MySpider(CrawlSpider):name = 'myspider'allowed_domains = ['example.com']start_urls = ['http://www.example.com']rules = (Rule(LinkExtractor(allow=()), callback='parse_item', follow=True),)def parse_item(self, response):# 在这里定义解析页面的逻辑# 可以从 response 中提取数据# 返回解析后的数据yield {'url': response.url,'title': response.css('title::text').get()}

运行

scrapy crawl myspider

使用CrawlSpider中核心的2个类对象

Rule对象

Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中

class scrapy.contrib.spiders.Rule( link_extractor,         callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None)

参数含义:

  • link_extractor为LinkExtractor,用于定义需要提取的链接

  • callback参数:当link_extractor获取到链接时参数所指定的值作为回调函数

    注意 回调函数尽量不要用parse方法,crawlspider已使用了parse方法

  • follow:指定了根据该规则从response提取的链接是否需要跟进。当callback为None,默认值为True

  • process_links:主要用来过滤由link_extractor获取到的链接

  • process_request:主要用来过滤在rule中提取到的request

LinkExtractors

链接提取器

作用

response对象中获取链接,并且该链接会被接下来爬取 每个LinkExtractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象

使用

class scrapy.linkextractors.LinkExtractor(allow = (),deny = (),allow_domains = (),deny_domains = (),deny_extensions = None,restrict_xpaths = (),tags = ('a','area'),attrs = ('href'),canonicalize = True,unique = True,process_value = None
)

主要参数:

  • allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
  • deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
  • allow_domains:会被提取的链接的domains。
  • deny_domains:一定不会被提取链接的domains。
  • restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接(只选到节点,不选到属性)
  • restrict_css:使用css表达式,和allow共同作用过滤链接(只选到节点,不选到属性)

查看效果-shell中验证

首先运行

scrapy shell 'https://www.zhhbqg.com/1_1852/835564.html'

继续import相关模块

from scrapy.linkextractors import LinkExtractor

提取当前网页中获得的链接

link = LinkExtractor(restrict_xpaths=(r'//a'))

调用LinkExtractor实例的extract_links()方法查询匹配结果

 link.extract_links(response)

示例

(爬取小说网数据)

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from xiaoshuo.items import XiaoshuoItemclass XiaoshuoSpiderSpider(CrawlSpider):name = 'xiaoshuo_spider'allowed_domains = ['fhxiaoshuo.com']start_urls = ['http://www.fhxiaoshuo.com/read/33/33539/17829387.shtml']rules = [Rule(LinkExtractor(restrict_xpaths=(r'//div[@class="bottem"]/a[4]')), callback='parse_item'),]def parse_item(self, response):info = response.xpath("//div[@id='TXT']/text()").extract()it = XiaoshuoItem()it['info'] = infoyield it

注意

  • callback后面函数名用引号引起
  • 函数名不要用parse
  • 参数的括号嵌套,不要出问题

Scrapy框架--CrawlSpider (详解+例子)相关推荐

  1. 爬虫 - Scrapy框架超详解(一)

    文章目录 一.Scrapy框架原理 1.Scrapy特点 2.Scrapy安装 3.Scrapy架构图 4.Scrapy五大组件 5.Scrapy工作流程 二.Scrapy创建项目 三.Scrapy配 ...

  2. Scrapy框架流程图详解

    (一).Scrapy框架介绍: 我们写一个爬虫,需要做很多事情,比如:发送网络请求.数据解析.数据存储.反爬虫.反反爬虫(更换ip代理.设置请求头等).异步请求等.这些事情在我们每一次写爬虫代码的时候 ...

  3. python代码案例详解-新手必学Python爬虫之Scrapy框架案例详解

    Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内 ...

  4. java定时任务框架elasticjob详解

    这篇文章主要介绍了java定时任务框架elasticjob详解,Elastic-Job是ddframe中dd-job的作业模块中分离出来的分布式弹性作业框架.该项目基于成熟的开源产品Quartz和Zo ...

  5. 集合框架 Queue---BlockingQueue详解

    转载自  集合框架 Queue---BlockingQueue详解 摘要:本例介绍一个特殊的队列:BlockingQueue,如果BlockingQueue是空的,从BlockingQueue取东西的 ...

  6. 试设计递归算法dfs traverse_BFS 算法框架套路详解

    作者:labuladong 公众号:labuladong 后台有很多人问起 BFS 和 DFS 的框架,今天就来说说吧. 首先,你要说 labuladong 没写过 BFS 框架,这话没错,今天写个框 ...

  7. 依赖注入框架Dagger2详解(一),依赖注入和控制反转的深入理解

    IoC不是一种技术,只是一种思想,一个重要的面向对象编程的法则,它能指导我们如何设计出松耦合.更优良的程序,而Dagger2框架是依赖注入思想践行者的优秀代表. 依赖注入框架Dagger2详解(一), ...

  8. Spring基于注解TestContext 测试框架使用详解

    原创整理不易,转载请注明出处:Spring基于注解TestContext 测试框架使用详解 代码下载地址:http://www.zuidaima.com/share/1775574182939648. ...

  9. Android UI 测试框架Espresso详解

    Android UI 测试框架Espresso详解 1. Espresso测试框架 2.提供Intents Espresso 2.1.安装 2.2.为Espresso配置Gradle构建文件 2.3. ...

  10. 网易考拉海购Dubbok框架优化详解

    网易考拉海购Dubbok框架优化详解 摘要:微服务化是当前电商产品演化的必然趋势,网易考拉海购通过微服务化打破了业务爆发增长的架构瓶颈.本文结合网易考拉海购引用的开源Dubbo框架,分享支持考拉微服务 ...

最新文章

  1. 2020考研公共课_基础精讲课_管理类联考综合能力 联考逻辑(读书笔记)
  2. (C++)strlen(),strcmp(),strcpy(),strcat()用法
  3. 影子系统、沙箱、虚拟机之间的区别
  4. C语言实验——打印数字图形(JAVA)
  5. 两个不同分支之间的代码合并
  6. 最近处理的几个小问题_20160311
  7. js for in遍历对象_JS中轻松遍历对象属性的几种方式
  8. 【福利】BAT架构师分享最全Java架构师学习技能图谱:包含Java编程+网络+设计模式+数据库+分布式等
  9. 我的世界java怎么自制皮肤_我的世界皮肤制作教程
  10. Mcafee之我见 * 一个木马引发的“麦咖啡”
  11. 《TensorFlow技术解析与实战》——3.3 可视化的例子
  12. 变化检测综述:Change Detection Based on Artificial Intelligence: State-of-the-Art and Challenges
  13. Time to live exceeded
  14. CTGU·OJ 快乐
  15. 计算机学校班干部竞选演讲稿,精选:2019学校班干部个人竞选演讲稿范文五篇...
  16. 如何才能通过一线互联网公司面试?下载量瞬秒百万
  17. mtk使用android开关机动画,android MTK修改开关机动画
  18. 开源2周年,openGauss Developer Day 2022全程亮点回顾!
  19. Kubernetes Scheduler源码分析--启动过程与多队列缓存(续)
  20. Win7 将 resync 命令发送到本地计算机 此计算机没有重新同步,因为要求的时间更改太大

热门文章

  1. SDRAM Internals
  2. 怎么提高WIFI信号?提高无线WIFI信号的方法教程
  3. 终身学习--启程篇:清华大学 《ARM控制器与嵌入式系统》
  4. Vxworks学习(四)_内核
  5. 一个不断调用函数的趣事
  6. 移植和使用ucOSII
  7. 华科_图形学笔记_0201_认识图形系统
  8. CSDN头版头条 《近匠》 Wijmo 5 CTO:从Web到移动,我的25年编程生涯
  9. 自制linux开发板安装系统,6410开发板linux系统安装流程
  10. 同一类型的计算机指令系统,不同类型的CPU指令集不同,指令系统一样吗?