scrapy-crawl

之前的深入爬取都是手工找链接的

很不符合框架的定义：准备怎么做，而不是怎么去做

我们想要什么样的东西？

说了摘菜(sspider)和炒菜(pipeline)其他的我们都不想参和的

所以是我们忽略了一个东西crawl

这东西就是自动跟进链接的

创建方法

之前说过有这几种类型的

现在来指定模板创建一个

内容

创建完成是这个样的

上面多了个rules，下面方法名称变了

但是，我保证，下面方法不会再涉及链接的提取

因为这个爬虫会自动捕捉全部的链接，然后通过rules筛选需要跟进的链接

比如豆瓣电影250

链接正则

感觉链接不全是吧，http呢？

不用怕，页面能点的它就能访问

运行看一看

绝对可以啊，至少比原来更加方便快捷了啊

分析一下rules的结构

rules = (Rule(LinkExtractor(allow=r'\?start=*.?'), callback='parse_item', follow=True),
)

1. rules是元组，内部是Rule对象

2. Rule制定规则，制定解析方法，链接跟进，链接样式

3. LinkExtractor链接过滤，通过正则进行链接的筛选

其实都不难，至少rules和Rule都不会变化了

关键是LinkExtractor

1. allow：保留链接，正则

2. deny：丢弃链接，正则

3. restrict_xpath：保留链接，xpath

4. allow_domains：允许域名

5. deny_domains：禁止域名

其实划分起来，就是正选反选，加双重过滤。

要的多，就反选，要的少，就正选，不过关键看啥方法适合提取我们刚好需要的链接

域名也是一样，只是严格一点的话，双重过滤更保险

这样省去解析链接的功夫，怕的更快了。

当然了，偷懒是一方面，我的确抛弃了勤劳这个美德

但是，它底层筛选肯定比我快啊，而且都加载了，我何必多次一举呢，所以我获得了聪明

所以说，我懒了，也变聪明了

聪明人都是懒人

想懒，证明你有变聪明人的潜质

能懒，那就是聪明人

想懒不能懒，那才叫不勤劳

scrapy-crawl相关推荐

python爬虫执行scrapy crawl demo出现： import win32api ModuleNotFoundError: No module named 'win32api'错误
执行: >scrapy crawl demo 可能会出现这个错误: import win32api ModuleNotFoundError: No module named 'win32api' ...
python3.7运行报错_Python 3.7 环境下运行 scrapy crawl 报错 def write(self, data, async=False)？...
Python 3.7 环境下运行 scrapy crawl 报错 def write(self, data, async=False),详细报错信息如下: 2018-08-10 15:10:29 [s ...
Python3.7 Scrapy crawl 运行出错解决方法
Python3.7 Scrapy crawl 运行出错解决方法参考文章: (1)Python3.7 Scrapy crawl 运行出错解决方法 (2)https://www.cnblogs.com/ ...
Scrapy框架快速执行cmd命令：‘scrapy crawl qsbk_spider’
1.scrapy startproject qsbk 创建爬虫项目 2.scrapy genspider qsbk_spider 'qiushibaike.com' 执行文件比较繁琐,可以直接在根目录 ...
scrapy crawl爬取我爱我家二手房的数据
startur:lhttps://cd.5i5j.com/ershoufang/ 文章末尾有该项目的链接 1.创建项目 scrapy startproject woaiwojia cd woaiwoj ...
KeyError: ‘Spider not found: itcast‘ 运行scrapy crawl时报错原因总结
1. 由于运行scrapy genspider所在目录不在生成的爬虫项目文件夹下错误重现 # 1. 创建爬虫项目 C:\scrapy>scrapy startproject myFirstSp ...
运行Scrapy crawl出错
使用的是Python3.7,安装完scrapy和一些依赖的库后运行scrapy crawl spidertieba.出现报错,报错信息是: File "c:\users\administra ...
python3.7 scrapy crawl 报错
python3.7 scrapy crawl name 报错由于目前python最新版是3.7,之前电脑装了3.6,后面由于pip3 install module时报错,就更新到了3.7,使用scr ...
关于在cmd命令行中执行 scrapy crawl demo 出现错误
在cmd中执行 scrapy crawl demo 时报了异常. 错误信息:原因: 1.没有安装winapi32接口 winapi32解释:winapi32 2.生成的demo文件不在spiders文 ...
Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决...
按照官方的文档写的demo,只是多了个init函数,最终执行时提示没有_rules这个属性的错误日志如下: ......File "C:\ProgramData\Anaconda3\lib\ ...

scrapy-crawl

scrapy-crawl相关推荐

最新文章

热门文章