scrapy setting
https://doc.scrapy.org/en/latest/topics/settings.html
参数 | 备注 | 描述 |
---|---|---|
AWS_ACCESS_KEY_ID | None | 连接 Amazon Web services 的AWS access key |
AWS_SECRET_ACCESS_KEY | None | 连接 Amazon Web services 的AWS secret key |
BOT_NAME | scrapybot’ | Scrapy项目实现的bot的名字 |
CONCURRENT_ITEMS | 100 | Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。 |
CONCURRENT_REQUESTS | 16 | Scrapy downloader 并发请求(concurrent requests)的最大值。 |
CONCURRENT_REQUESTS_PER_DOMAIN | 8 | 对单个网站进行并发请求的最大值。 |
CONCURRENT_REQUESTS_PER_IP | 0 | 对单个IP进行并发请求的最大值。 |
DEFAULT_ITEM_CLASS | scrapy.item.Item’ | the Scrapy shell 中实例化item使用的默认类 |
DEFAULT_REQUEST_HEADERS | Scrapy HTTP Request使用的默认header | |
DEPTH_LIMIT | 0 | 爬取网站最大允许的深度(depth)值。如果为0,则没有限制。 |
DEPTH_PRIORITY | 0 | 整数值。用于根据深度调整request优先级。如果为0,则不根据深度进行优先级调整。 |
DEPTH_STATS | TRUE | 是否收集最大深度数据。 |
DEPTH_STATS_VERBOSE | FALSE | 是否收集详细的深度数据。如果启用,每个深度的请求数将会被收集在数据中。 |
DNSCACHE_ENABLED | TRUE | 是否启用DNS内存缓存(DNS in-memory cache)。 |
DNSCACHE_SIZE | 10000 | DNS in-memory cache size. |
DNS_TIMEOUT | 60 | Timeout for processing of DNS queries in seconds. Float is supported. |
DOWNLOADER | scrapy.core.downloader.Downloader’ | 用于crawl的downloader. |
DOWNLOADER_MIDDLEWARES | {} | 保存项目中启用的下载中间件及其顺序的字典。 |
DOWNLOADER_MIDDLEWARES_BASE | 包含Scrapy默认启用的下载中间件的字典。 | |
DOWNLOADER_STATS | TRUE | 是否收集下载器数据。 |
DOWNLOAD_DELAY | 0 | 下载器在下载同一个网站下一个页面前需要等待的时间。 |
DOWNLOAD_HANDLERS | 保存项目中启用的下载处理器(request downloader handler)的字典。 | |
DOWNLOAD_HANDLERS_BASE | 保存项目中默认启用的下载处理器(request downloader handler)的字典。 | |
DOWNLOAD_TIMEOUT | 180 | 下载器超时时间(单位: 秒)。 |
DOWNLOAD_MAXSIZE | 最大的响应大小 | |
DOWNLOAD_WARNSIZE | 最大响应提醒大小 | |
DUPEFILTER_CLASS | scrapy.dupefilters.RFPDupeFilter’ | 用于检测过滤重复请求的类。 |
DUPEFILTER_DEBUG | FALSE | 默认情况下, RFPDupeFilter 只记录第一次重复的请求。 设置 DUPEFILTER_DEBUG 为 True 将会使其记录所有重复的requests。 |
EDITOR | depends on the environment | 执行 edit 命令编辑spider时使用的编辑器。 |
EXTENSIONS | 保存项目中启用的插件及其顺序的字典。 | |
EXTENSIONS_BASE | 可用的插件列表。 | |
ITEM_PIPELINES | 保存项目中启用的pipeline及其顺序的字典。 | |
ITEM_PIPELINES_BASE | 保存项目中默认启用的pipeline的字典。 | |
LOG_ENABLED | TRUE | 是否启用logging。 |
LOG_ENCODING | utf-8’ | logging使用的编码。 |
LOG_FILE | None | 如果为None,则使用标准错误输出(standard error)。 |
LOG_FORMAT | log的格式 | |
LOG_DATEFORMAT | log时间格式 | |
LOG_LEVEL | log的最低级别 | |
LOG_STDOUT | FALSE | 如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中。 |
MEMDEBUG_ENABLED | FALSE | 是否启用内存调试(memory debugging)。 |
MEMDEBUG_NOTIFY | 如果该设置不为空,当启用内存调试时将会发送一份内存报告到指定的地址;否则该报告将写到log中。 | |
MEMUSAGE_ENABLED | FALSE | 是否启用内存使用插件。 |
MEMUSAGE_LIMIT_MB | 0 | 在关闭Scrapy之前所允许的最大内存数 |
MEMUSAGE_NOTIFY_MAIL | FALSE | 达到内存限制时通知的email列表 |
MEMUSAGE_REPORT | FALSE | 每个spider被关闭时是否发送内存使用报告。 |
MEMUSAGE_WARNING_MB | 0 | 在发送警告email前所允许的最大内存数 |
NEWSPIDER_MODULE | 使用 genspider 命令创建新spider的模块。 | |
RANDOMIZE_DOWNLOAD_DELAY | TRUE | 如果启用,当从相同的网站获取数据时,Scrapy将会等待一个随机的值 (0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY)。 |
REACTOR_THREADPOOL_MAXSIZE | 10 | The maximum limit for Twisted Reactor thread pool size. |
REDIRECT_MAX_TIMES | 20 | 定义request允许重定向的最大次数。 |
REDIRECT_MAX_METAREFRESH_DELAY | 100 | 有些网站使用 meta-refresh 重定向到session超时页面, 因此我们限制自动重定向到最大延迟(秒)。 |
REDIRECT_PRIORITY_ADJUST | 2 | 修改重定向请求相对于原始请求的优先级。 负数意味着更多优先级。 |
ROBOTSTXT_OBEY | FALSE | 如果启用,Scrapy将会尊重 robots.txt策略。 |
SCHEDULER | scrapy.core.scheduler.Scheduler’ | 用于爬取的调度器。 |
SPIDER_CONTRACTS | 保存项目中启用用于测试spider的scrapy contract及其顺序的字典。 | |
SPIDER_CONTRACTS_BASE | 保存项目中默认启用的scrapy contract的字典。 | |
SPIDER_LOADER_CLASS | scrapy.spiderloader.SpiderLoader’ | The class that will be used for loading spiders |
SPIDER_MIDDLEWARES | 保存项目中启用的下载中间件及其顺序的字典。 | |
SPIDER_MIDDLEWARES_BASE | 保存项目中默认启用的spider中间件的字典。 | |
SPIDER_MODULES | Scrapy搜索spider的模块列表。 | |
STATS_CLASS | scrapy.statscollectors.MemoryStatsCollector’ | 收集数据的类。 |
STATS_DUMP | TRUE | 当spider结束时dump Scrapy状态数据 (到Scrapy log中)。 |
STATSMAILER_RCPTS | spider完成爬取后发送Scrapy数据。 | |
TELNETCONSOLE_ENABLED | TRUE | 表明 telnet 终端 (及其插件)是否启用的布尔值。 |
TELNETCONSOLE_PORT | [6023, 6073] | telnet终端使用的端口范围。如果设置为 None 或 0 , 则使用动态分配的端口。 |
TEMPLATES_DIR | 默认: scrapy模块内部的 templates | 使用 startproject 命令创建项目时查找模板的目录。 |
URLLENGTH_LIMIT | 2083 | 爬取URL的最大长度。 |
USER_AGENT | 爬取的默认User-Agent,除非被覆盖。 |
scrapy setting相关推荐
- scrapy setting配置
个人配置,没有动态ip时还是稳妥一点 # Obey robots.txt rulesROBOTSTXT_OBEY = FalseDOWNLOAD_DELAY = 5CONCURRENT_REQUEST ...
- python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍
Scrapy框架的介绍 安装: pip3 install Scrapy 安装测试: cmd命令行界面,输入:scrapy -h 框架安装完成: scrapy框架: 分为五个模块+两个中间件(5+2结构 ...
- Scrapy(4)spider 帮助你寻找最美小姐姐
我们都知道我们平常想下载一些漂亮的图片来装饰自己的桌面,可是找到了都是需要收费的网站,真的很恼火,所以今天小编,可能要带大家实现这么一个工具,可以用来爬取某个网站的好看的图片 兴不兴奋啊,是的超级兴奋 ...
- scrapy爬虫框架及运行流程
文章目录 1 scrapy 简介 1.1 什么是爬虫? 1.2 浏览网页的过程中发生了什么? 1.3 scrapy爬虫框架 1.4 scrapy爬虫框架优势 2 scrapy 构架图 3 Scrapy ...
- 路漫漫其修远矣 - 关于内容解析 与 存储
用scrapy框架后,很多访问问题解决了,css解析也非常方便,于是要将之前关注的一个网站爬下来放到mysql里面,然后用tableau接上,这样就可以长期自动监测了.但过程非常坎坷,一直到现在也没有 ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
- Python爬虫小结(转)
一.爬虫介绍 爬虫调度端:启动.停止爬虫,监视爬虫运行情况 URL管理器:管理将要爬取的URL和已经爬取的URL 网页下载器:下载URL指定的网页,存储成字符串 网页解析器:提取有价值的数据,提取关联 ...
- 爬虫(详细介绍,由浅入深)
网络爬虫与信息提取笔记 学习python的视频https://www.bilibili.com/video/av69060979?p=1 以爬虫视角,看待网络内容(来源:学习强国平台,北京理工大学学习 ...
- python日志格式
python输出日志时的格式化 输出日志时的格式化 名称 说明 %(levelno)s 打印日志级别的数值 %(levelname)s 打印日志级别名称 %(pathname)s 打印当前执行程序的路 ...
最新文章
- 创建型模式--多例模式
- windows2003的一些设置之一
- python数据库连接代码_python 连接各类主流数据库的实例代码
- Android 之 下拉框(Spinner)的使用
- Chrome 谷歌浏览器账户无法登录、注册
- 选择html5抛弃flash,谷歌Chrome年底正式抛弃Flash 全面转向HTML5
- 深度学习中的迁移学习介绍
- 基于android下的amr转mp3
- 支付宝相关服务申请入口
- Delphi Sender对象的使用
- PTA1018 锤子剪刀布
- 数字格式化、大数据BigDecimal、随机数生成方法random()
- 用震盘实现中性笔这一大类笔的笔帽的定向上料设计(SolidWorks模型讲解)
- 正在连接到192.168.1.118 不能打开到主机的连接, 在端口 1521: 连接失败
- 祛除装修异味的方法 总有一种适合你!
- 首汽约车安全出行的点“智”之笔
- vue中使用echarts-gl(3d环形图)
- vs2019 自定义工具错误: 未能生成文件: 系统找不到指定的文件。 (异常来自 HRESULT:0x80070002)
- 一键整理电脑桌面、文件夹—只需要20行python代码
- (附源码)ssm+mysql+基于微信平台的牙科就诊信息管理系统的设计与实现 毕业设计211157
热门文章
- Python编程及应用师资研修班--昆明
- 使用Jupyter Notebook+bokeh绘图入门完整步骤
- Python正则表达式子模式扩展语法与应用
- wsdl 架构验证警告:来自命名空间_金九银十,正在面试吗?面试官必问:JVM架构解读,查漏补缺...
- jquery ajax 上传文件报错,jQuery :ajaxfileupload+Struts2 文件上传,报错data undefined
- sql select 抛异常_mysql数据库及sql注入
- linux命令里的xz是干嘛的,linux xz命令详解
- 结构体定义小的放前面_编程C语言进阶篇——自定义数据类型:结构体
- 统计字符串中每个字符的个数_C++程序设计——统计数字字符个数
- 网络驱动器映射成功但无法更新文件_我的电脑访问NAS像打开本地硬盘那样打开网络NAS...