Scrapy可以设置优先抓取哪些网页,设置DEPTH_LIMIT可以控制抓取的最大深度,如果设为0则意味着没有限制。把DEPTH_PRIORITY(默认值为0)设置为一个正值后,Scrapy的调度器的队列就会从LIFO变成FIFO,因此抓取规则就由DFO(深度优先)变成了BFO(广度优先):

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

这在爬网站的时候是很有用的,例如,一个新闻的门户网站,主页上有很多最近的新闻,其中每个新闻页面都有到其他页面的外链。默认情况下,Scrapy会在主页的第一个新闻中尽可能地深入,然后才会继续其他的新闻。而BFO顺序会先抓取顶层(即主页上的)的链接,然后才会进一步深入。此时若与DEPTH_LIMIT联合使用,比如将其设置为3,就可以快速地在门户网站上获取最近的新闻了。

有些网站会在根目录下放置一个名字为robots.txt的文件,里面声明了此网站希望爬虫遵守的规范。如果把ROBOTSTXT_OBEY设置成了 True,Scrapy就会遵守这个文件制定的规范。不过此时要在调试的时候注意还要忘了这一点,以防爬虫会出现一些出乎意料的行为。

CookiesMiddleware中间件会对程序员透明地处理所有与cookie相关的操作,比如session追踪,以便可以让爬虫登录等等。如果你想让爬网站的过程更加隐秘,可以把COOKIES_ENABLED选项设置成False。禁用cookie也会稍稍减少传输的带宽并加速抓取的过程。同样地,REFERER_ENABLED默认也是True,也就是启用了RefererMiddleware中间件,它负责填充Referer请求头。你可以使用DEFAULT_REQUEST_HEADERS选项来自定义请求头。有些网站会要求有特定的请求头才行,此时这个设置项就显得很有用。最后,工程中自动生成的settings.py文件建议设置USER_AGENT,默认是Scrapy的版本,不过最好改成网站管理员能联系到我们的一些信息。

Scrapy设置之Crawling style相关推荐

  1. scrapy 设置随机UA

    爬虫过程中的反爬措施非常重要,其中设置随机 User-Agent 是一项重要的反爬措施,Scrapy 中设置随机 UA 的方式有很多种,有的复杂有的简单. 1.常规设置 UA 首先,说一下常规情况不使 ...

  2. scrapy设置代理的方法

    根据最新的scrapy官方文档,scrapy爬虫框架的代理配置有以下两种方法: 1.使用中间件DownloaderMiddleware进行配置 在settings.py文件中,找到DOWNLOADER ...

  3. checkbox设置颜色,style样式等

    大家都知道设置CheckBox的选中以及未选中效果可以使用selector,这种方式比较简单也比较传统这里不做讨论.我最近在做项目的时候使用的是Appcompatcheckbox,这个控件是一个兼容控 ...

  4. html width设置没用,html style的width不起作用

    [msdn wpf forum翻译]TextBlock等类型的默认样式(implicit style)为何有时不起作用? 原文:[msdn wpf forum翻译]TextBlock等类型的默认样式( ...

  5. ios swift 纯代码设置UITableViewCell的style

    1.dequeueReusableCell(withIdentifier:)方法不需要注册 func tableView(_ tableView: UITableView, cellForRowAt ...

  6. Scrapy设置headers、cookies三种方法

    方法一:start_requests方法中添加cookies与headers: 1.重写spider中的start_requests方法 浏览器中cookies是这样的 Cookie:_T_WM=98 ...

  7. scrapy设置headers,cookies

    scrapy中有三种方式设置headers,cookies setting中设置cookie middlewares中设置cookie sipder文件中重写start_requests方法 这里记录 ...

  8. Python scrapy设置代理ip

    应用scrapy爬虫的时候,经常遇到ip被封的问题,直接导致无法获取数据,所以要使用代理ip. 在网上有很多大神写的案例,我选择了一个进行使用,不知道是ip的原因还是我写的有问题,还是会报错,但是思路 ...

  9. ESP32 LVGL8.1 ——Style bg 设置样式背景 (Style 2)

    提示:本博客作为学习笔记,有错误的地方希望指正 文章目录 一.样式背景设置简介 二.Style Pad API 2.1背景颜色 bg_color 2.2背景颜色透明度 bg_opa 2.3背景的渐变颜 ...

最新文章

  1. linux shell $0怎么输出,linux shell中$0,$?,$!等的特殊用法
  2. [心跳] 使用心跳机制实现CS架构下多客户端的在线状态实时更新以及掉线自动重连...
  3. [Leetcode] Insertion Sort List
  4. python中关于字符串的操作
  5. python的类程序的结构_Python程序员学习路径之数据结构篇
  6. IOS基础之NSString,NSMutableString,NSArray的基本使用
  7. 【TensorFlow-windows】扩展层之STN
  8. 每日一笑 | 实名举报校长拿两份工资!
  9. self.modules() 和 self.children()的区别
  10. L298Nnbsp;驱动模块的应用
  11. python浙江大学出版社_大学计算机公共基础课如何改革?浙江高校积极探索以Python课程为主导的教学实践...
  12. 荣耀6plus+android5.1,荣耀6Plus Emui3.1-Android5.1.1 Root教程
  13. Python:实现Gale-Shapley盖尔-沙普利算法(附完整源码)
  14. zkteco iface702 中控考勤机java开发步骤一---连接考勤机
  15. 快速掌握阿里云 OSS
  16. 关于抢购秒杀的实现思路与事例代码
  17. PLL Simulink行为模型
  18. 前端、数据库面试要点
  19. python控制qq群_Python3 selenium 实现QQ群接龙自动化功能
  20. 联想台式修复计算机,联想台式电脑开机后显示你的电脑需要修复

热门文章

  1. 6-2 求某学生8门课的平均分
  2. windows下linux子系统忘记密码,win10中的ubuntu子系统忘记root密码如果修改?
  3. 追赶法求解三对角方程组
  4. osm地图数据 mysql_超实用! 如何下载OSM全球矢量地图数据?
  5. java时间比较3种方式
  6. 设计模式与软考试题之模板方法模式
  7. 身体知道LGG益生菌酸奶营养高不高?
  8. 不忘过去,不畏将来——我的2017
  9. Java实现读者写者问题--读者优先
  10. 基于vue3开发一个北京当地特色浏览网站