scrapy---Logging
Scrapy 提供了 log 功能,可以通过 logging 模块使⽤。
可以修改配置⽂件 settings.py,任意位置添加下⾯两⾏,效果会清爽很
多。
LOG_FILE = "TencentSpider.log"
LOG_LEVEL = "INFO"
Log levels
Scrapy 提供 5 层 logging 级别:
CRITICAL - 严重错误(critical)
ERROR - ⼀般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - ⼀般信息(informational messages)
DEBUG - 调试信息(debugging messages)
logging 设置
通过在 setting.py 中进⾏以下设置可以被⽤来配置 logging:
CrawlSpiders
225
1. LOG_ENABLED 默认: True,启⽤logging
2. LOG_ENCODING 默认: 'utf-8',logging 使⽤的编码
3. LOG_FILE 默认: None,在当前⽬录⾥创建 logging 输出⽂件的⽂件名
4. LOG_LEVEL 默认: 'DEBUG',log 的最低级别
5. LOG_STDOUT 默认: False 如果为 True ,进程所有的标准输出 ( 及错误 )
将 会被重定向到 log 中。例如,执⾏ print "hello" ,其将会在 Scrapy
log 中显 示。
Spider 参数
Spider 可以通过接受参数来修改其功能。 spider 参数⼀般⽤来定义初始 URL
或者指定限制爬取⽹站的部分。 您也可以
使⽤其来配置 spider 的任何功能。
在运⾏ crawl 时添加 -a 可以传递 Spider 参数:
scrapy crawl myspider -a category=electronics
Spider 在构造器(constructor)中获取参数:
import scrapy class MySpider(Spider): name = 'myspider' def init (self, category=None, *args, **kwargs): super(MySpider, self). init (*args, **kwargs) self.start_urls = ['http://www.example.com/categories/%s' %category]
转载于:https://www.cnblogs.com/hhy-love-python/p/8521518.html
scrapy---Logging相关推荐
- Python Scrapy 爬虫 - 爬取多级别的页面
Python Scrapy 爬虫 - 爬取多级别的页面 互联网中众多的 scrapy 教程模板,都是爬取 下一页 → \rightarrow →下一页形式的,很少有 父级 → \rightarrow ...
- Python中Scrapy框架
文章目录 Scrapy 框架 一. 简介 1. 介绍 2. 环境配置 3. 常用命令 4. 运行原理 4.1 流程图 4.2 部件简介 4.3 运行流程 二. 创建项目 1. 修改配置 2. 创建一个 ...
- Scrapy框架的学习(4.scrapy中的logging模块记录日志文件以及普通的项目中使用)
logging模块使用 为了让我们自己希望输出到终端的内容能容易看一些: 我们可以在setting中设置log级别 在setting中添加一行(全部大写):LOG_LEVEL = "WARN ...
- 五、scrapy爬虫框架——logging 模块的使用
logging 模块的使用 1.scrapy settings中设置LOG_LEVEL="WARNING" settings中设置LOG_FILE="./a.log&qu ...
- Python:Scrapy的settings
Settings Scrapy设置(settings)提供了定制Scrapy组件的方法.可以控制包括核心(core),插件(extension),pipeline及spider组件.比如 设置Json ...
- Scrapy框架-去重原理讲解、数据收集以及信号量知识
scrapy的去重原理 信号无处不在 [知其然且知其所以然,才能够更好的理解这个框架,而且在使用和改动的时候也能够想出更合理的方法.] (开始测试前,到settings.py中注释掉下载中间件的设置, ...
- Scrapy爬虫及案例剖析
来自:ytao 由于互联网的极速发展,所有现在的信息处于大量堆积的状态,我们既要向外界获取大量数据,又要在大量数据中过滤无用的数据.针对我们有益的数据需要我们进行指定抓取,从而出现了现在的爬虫技术,通 ...
- Scrapy框架的使用之Scrapy对接Selenium
Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态渲染的页面.在前文中抓取JavaScript渲染的页面有两种方式.一种是分 ...
- scrapy分布式去重组件源码及其实现过程
scrapy_redis在继承scrapy去重组件的基础上覆盖了某些方法,原scrapy去重是基于单机情况下的内部去重,但是分布式是多机条件下的多爬虫协同去重,因此需要让不同及其上的同一个爬虫能够在同 ...
- python爬虫人门(10)Scrapy框架之Downloader Middlewares
设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有 ...
最新文章
- AntDB上使用uuid
- LiveVideoStackCon 倒数计时:0
- STM32超声波模块测距串口输出/通用定时器中断并输出PWM控制舵机/系统定时器延时
- Centos7 安装oracle数据库
- anacoda2如何连接使用mysql_Anaconda 安装 Python 库(MySQLdb)的方法-(转)
- DPDK lcore学习笔记
- DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……
- 贝叶斯统计(Bayesian statistics) vs 频率统计(Frequentist statistics):marginal likelihood(边缘似然)
- 开源大数据:Apache Pulsar
- VALSE学习(三):深度学习梯度讲解
- nginx实现网站url带参跳转 POST请求GET请求跳转
- 机器学习(3)--LR算法
- 封装继承多态还是封装抽象继承多态
- Go初体验-实现平方根函数
- 2021-05-10
- error LNK2019: 无法解析的外部符号 _WinMain@16,该符号在函数 ___tmainCR...
- Backstepping反步法控制四旋翼无人机(2)
- 图片分类的入门:二分类
- 深度学习笔记-----YOLOV4框架结构大讲解
- 设计模式总结 By李建忠老师
热门文章
- java 服务器 文件写入文件_java 从服务器下载文件并保存到本地
- 改变openssl的环境变量linux,ECS Linux 安装配置openssl的具体过程
- [Visual Studio+TFS--强大的项目管理工具]
- windows环境下python 虚拟环境的创建和使用(virtualenvwrapper)
- 线性回归原理与spark/sklearn实现
- 【搜索引擎基础知识3】搜索引擎相关开源项目及网站
- python 数据离散化和面元划分
- kettle连接hadoophdfs图文详解
- Hive JOIN使用详解
- jvm系列(一):java类的加载机制