scrapy setting

https://doc.scrapy.org/en/latest/topics/settings.html

参数	备注	描述
AWS_ACCESS_KEY_ID	None	连接 Amazon Web services 的AWS access key
AWS_SECRET_ACCESS_KEY	None	连接 Amazon Web services 的AWS secret key
BOT_NAME	scrapybot’	Scrapy项目实现的bot的名字
CONCURRENT_ITEMS	100	Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。
CONCURRENT_REQUESTS	16	Scrapy downloader 并发请求(concurrent requests)的最大值。
CONCURRENT_REQUESTS_PER_DOMAIN	8	对单个网站进行并发请求的最大值。
CONCURRENT_REQUESTS_PER_IP	0	对单个IP进行并发请求的最大值。
DEFAULT_ITEM_CLASS	scrapy.item.Item’	the Scrapy shell 中实例化item使用的默认类
DEFAULT_REQUEST_HEADERS		Scrapy HTTP Request使用的默认header
DEPTH_LIMIT	0	爬取网站最大允许的深度(depth)值。如果为0，则没有限制。
DEPTH_PRIORITY	0	整数值。用于根据深度调整request优先级。如果为0，则不根据深度进行优先级调整。
DEPTH_STATS	TRUE	是否收集最大深度数据。
DEPTH_STATS_VERBOSE	FALSE	是否收集详细的深度数据。如果启用，每个深度的请求数将会被收集在数据中。
DNSCACHE_ENABLED	TRUE	是否启用DNS内存缓存(DNS in-memory cache)。
DNSCACHE_SIZE	10000	DNS in-memory cache size.
DNS_TIMEOUT	60	Timeout for processing of DNS queries in seconds. Float is supported.
DOWNLOADER	scrapy.core.downloader.Downloader’	用于crawl的downloader.
DOWNLOADER_MIDDLEWARES	{}	保存项目中启用的下载中间件及其顺序的字典。
DOWNLOADER_MIDDLEWARES_BASE		包含Scrapy默认启用的下载中间件的字典。
DOWNLOADER_STATS	TRUE	是否收集下载器数据。
DOWNLOAD_DELAY	0	下载器在下载同一个网站下一个页面前需要等待的时间。
DOWNLOAD_HANDLERS		保存项目中启用的下载处理器(request downloader handler)的字典。
DOWNLOAD_HANDLERS_BASE		保存项目中默认启用的下载处理器(request downloader handler)的字典。
DOWNLOAD_TIMEOUT	180	下载器超时时间(单位: 秒)。
DOWNLOAD_MAXSIZE		最大的响应大小
DOWNLOAD_WARNSIZE		最大响应提醒大小
DUPEFILTER_CLASS	scrapy.dupefilters.RFPDupeFilter’	用于检测过滤重复请求的类。
DUPEFILTER_DEBUG	FALSE	默认情况下， RFPDupeFilter 只记录第一次重复的请求。设置 DUPEFILTER_DEBUG 为 True 将会使其记录所有重复的requests。
EDITOR	depends on the environment	执行 edit 命令编辑spider时使用的编辑器。
EXTENSIONS		保存项目中启用的插件及其顺序的字典。
EXTENSIONS_BASE		可用的插件列表。
ITEM_PIPELINES		保存项目中启用的pipeline及其顺序的字典。
ITEM_PIPELINES_BASE		保存项目中默认启用的pipeline的字典。
LOG_ENABLED	TRUE	是否启用logging。
LOG_ENCODING	utf-8’	logging使用的编码。
LOG_FILE	None	如果为None，则使用标准错误输出(standard error)。
LOG_FORMAT		log的格式
LOG_DATEFORMAT		log时间格式
LOG_LEVEL		log的最低级别
LOG_STDOUT	FALSE	如果为 True ，进程所有的标准输出(及错误)将会被重定向到log中。
MEMDEBUG_ENABLED	FALSE	是否启用内存调试(memory debugging)。
MEMDEBUG_NOTIFY		如果该设置不为空，当启用内存调试时将会发送一份内存报告到指定的地址；否则该报告将写到log中。
MEMUSAGE_ENABLED	FALSE	是否启用内存使用插件。
MEMUSAGE_LIMIT_MB	0	在关闭Scrapy之前所允许的最大内存数
MEMUSAGE_NOTIFY_MAIL	FALSE	达到内存限制时通知的email列表
MEMUSAGE_REPORT	FALSE	每个spider被关闭时是否发送内存使用报告。
MEMUSAGE_WARNING_MB	0	在发送警告email前所允许的最大内存数
NEWSPIDER_MODULE		使用 genspider 命令创建新spider的模块。
RANDOMIZE_DOWNLOAD_DELAY	TRUE	如果启用，当从相同的网站获取数据时，Scrapy将会等待一个随机的值 (0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY)。
REACTOR_THREADPOOL_MAXSIZE	10	The maximum limit for Twisted Reactor thread pool size.
REDIRECT_MAX_TIMES	20	定义request允许重定向的最大次数。
REDIRECT_MAX_METAREFRESH_DELAY	100	有些网站使用 meta-refresh 重定向到session超时页面，因此我们限制自动重定向到最大延迟(秒)。
REDIRECT_PRIORITY_ADJUST	2	修改重定向请求相对于原始请求的优先级。负数意味着更多优先级。
ROBOTSTXT_OBEY	FALSE	如果启用，Scrapy将会尊重 robots.txt策略。
SCHEDULER	scrapy.core.scheduler.Scheduler’	用于爬取的调度器。
SPIDER_CONTRACTS		保存项目中启用用于测试spider的scrapy contract及其顺序的字典。
SPIDER_CONTRACTS_BASE		保存项目中默认启用的scrapy contract的字典。
SPIDER_LOADER_CLASS	scrapy.spiderloader.SpiderLoader’	The class that will be used for loading spiders
SPIDER_MIDDLEWARES		保存项目中启用的下载中间件及其顺序的字典。
SPIDER_MIDDLEWARES_BASE		保存项目中默认启用的spider中间件的字典。
SPIDER_MODULES		Scrapy搜索spider的模块列表。
STATS_CLASS	scrapy.statscollectors.MemoryStatsCollector’	收集数据的类。
STATS_DUMP	TRUE	当spider结束时dump Scrapy状态数据 (到Scrapy log中)。
STATSMAILER_RCPTS		spider完成爬取后发送Scrapy数据。
TELNETCONSOLE_ENABLED	TRUE	表明 telnet 终端 (及其插件)是否启用的布尔值。
TELNETCONSOLE_PORT	[6023, 6073]	telnet终端使用的端口范围。如果设置为 None 或 0 ，则使用动态分配的端口。
TEMPLATES_DIR	默认: scrapy模块内部的 templates	使用 startproject 命令创建项目时查找模板的目录。
URLLENGTH_LIMIT	2083	爬取URL的最大长度。
USER_AGENT		爬取的默认User-Agent，除非被覆盖。

scrapy setting相关推荐

scrapy setting配置
个人配置,没有动态ip时还是稳妥一点 # Obey robots.txt rulesROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY = 5CONCURRENT_REQUEST ...
python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍
Scrapy框架的介绍安装: pip3 install Scrapy 安装测试: cmd命令行界面,输入:scrapy -h 框架安装完成: scrapy框架: 分为五个模块+两个中间件(5+2结构 ...
Scrapy（4）spider 帮助你寻找最美小姐姐
我们都知道我们平常想下载一些漂亮的图片来装饰自己的桌面,可是找到了都是需要收费的网站,真的很恼火,所以今天小编,可能要带大家实现这么一个工具,可以用来爬取某个网站的好看的图片兴不兴奋啊,是的超级兴奋 ...
scrapy爬虫框架及运行流程
文章目录 1 scrapy 简介 1.1 什么是爬虫? 1.2 浏览网页的过程中发生了什么? 1.3 scrapy爬虫框架 1.4 scrapy爬虫框架优势 2 scrapy 构架图 3 Scrapy ...
路漫漫其修远矣 - 关于内容解析与存储
用scrapy框架后,很多访问问题解决了,css解析也非常方便,于是要将之前关注的一个网站爬下来放到mysql里面,然后用tableau接上,这样就可以长期自动监测了.但过程非常坎坷,一直到现在也没有 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
Python爬虫小结（转）
一.爬虫介绍爬虫调度端:启动.停止爬虫,监视爬虫运行情况 URL管理器:管理将要爬取的URL和已经爬取的URL 网页下载器:下载URL指定的网页,存储成字符串网页解析器:提取有价值的数据,提取关联 ...
爬虫（详细介绍，由浅入深）
网络爬虫与信息提取笔记学习python的视频https://www.bilibili.com/video/av69060979?p=1 以爬虫视角,看待网络内容(来源:学习强国平台,北京理工大学学习 ...
python日志格式
python输出日志时的格式化输出日志时的格式化名称说明 %(levelno)s 打印日志级别的数值 %(levelname)s 打印日志级别名称 %(pathname)s 打印当前执行程序的路 ...

scrapy setting

scrapy setting相关推荐

最新文章

热门文章