Scrapy 提供了 log 功能,可以通过 logging 模块使⽤。
可以修改配置⽂件 settings.py,任意位置添加下⾯两⾏,效果会清爽很
多。
LOG_FILE = "TencentSpider.log"
LOG_LEVEL = "INFO"
Log levels
Scrapy 提供 5 层 logging 级别:
CRITICAL - 严重错误(critical)
ERROR - ⼀般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - ⼀般信息(informational messages)
DEBUG - 调试信息(debugging messages)
logging 设置
通过在 setting.py 中进⾏以下设置可以被⽤来配置 logging:
CrawlSpiders
225
1. LOG_ENABLED 默认: True,启⽤logging
2. LOG_ENCODING 默认: 'utf-8',logging 使⽤的编码
3. LOG_FILE 默认: None,在当前⽬录⾥创建 logging 输出⽂件的⽂件名
4. LOG_LEVEL 默认: 'DEBUG',log 的最低级别
5. LOG_STDOUT 默认: False 如果为 True ,进程所有的标准输出 ( 及错误 )
将 会被重定向到 log 中。例如,执⾏ print "hello" ,其将会在 Scrapy
log 中显 示。
Spider 参数
Spider 可以通过接受参数来修改其功能。 spider 参数⼀般⽤来定义初始 URL
或者指定限制爬取⽹站的部分。 您也可以
使⽤其来配置 spider 的任何功能。
在运⾏ crawl 时添加 -a 可以传递 Spider 参数:

scrapy crawl myspider -a category=electronics

Spider 在构造器(constructor)中获取参数:

import scrapy
class MySpider(Spider):
name = 'myspider'
def  init (self, category=None, *args, **kwargs):
super(MySpider, self). init (*args, **kwargs)
self.start_urls = ['http://www.example.com/categories/%s' %category]

转载于:https://www.cnblogs.com/hhy-love-python/p/8521518.html

scrapy---Logging相关推荐

  1. Python Scrapy 爬虫 - 爬取多级别的页面

    Python Scrapy 爬虫 - 爬取多级别的页面 互联网中众多的 scrapy 教程模板,都是爬取 下一页 → \rightarrow →下一页形式的,很少有 父级 → \rightarrow ...

  2. Python中Scrapy框架

    文章目录 Scrapy 框架 一. 简介 1. 介绍 2. 环境配置 3. 常用命令 4. 运行原理 4.1 流程图 4.2 部件简介 4.3 运行流程 二. 创建项目 1. 修改配置 2. 创建一个 ...

  3. Scrapy框架的学习(4.scrapy中的logging模块记录日志文件以及普通的项目中使用)

    logging模块使用 为了让我们自己希望输出到终端的内容能容易看一些: 我们可以在setting中设置log级别 在setting中添加一行(全部大写):LOG_LEVEL = "WARN ...

  4. 五、scrapy爬虫框架——logging 模块的使用

    logging 模块的使用 1.scrapy settings中设置LOG_LEVEL="WARNING" settings中设置LOG_FILE="./a.log&qu ...

  5. Python:Scrapy的settings

    Settings Scrapy设置(settings)提供了定制Scrapy组件的方法.可以控制包括核心(core),插件(extension),pipeline及spider组件.比如 设置Json ...

  6. Scrapy框架-去重原理讲解、数据收集以及信号量知识

    scrapy的去重原理 信号无处不在 [知其然且知其所以然,才能够更好的理解这个框架,而且在使用和改动的时候也能够想出更合理的方法.] (开始测试前,到settings.py中注释掉下载中间件的设置, ...

  7. Scrapy爬虫及案例剖析

    来自:ytao 由于互联网的极速发展,所有现在的信息处于大量堆积的状态,我们既要向外界获取大量数据,又要在大量数据中过滤无用的数据.针对我们有益的数据需要我们进行指定抓取,从而出现了现在的爬虫技术,通 ...

  8. Scrapy框架的使用之Scrapy对接Selenium

    Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态渲染的页面.在前文中抓取JavaScript渲染的页面有两种方式.一种是分 ...

  9. scrapy分布式去重组件源码及其实现过程

    scrapy_redis在继承scrapy去重组件的基础上覆盖了某些方法,原scrapy去重是基于单机情况下的内部去重,但是分布式是多机条件下的多爬虫协同去重,因此需要让不同及其上的同一个爬虫能够在同 ...

  10. python爬虫人门(10)Scrapy框架之Downloader Middlewares

    设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有 ...

最新文章

  1. AntDB上使用uuid
  2. LiveVideoStackCon 倒数计时:0
  3. STM32超声波模块测距串口输出/通用定时器中断并输出PWM控制舵机/系统定时器延时
  4. Centos7 安装oracle数据库
  5. anacoda2如何连接使用mysql_Anaconda 安装 Python 库(MySQLdb)的方法-(转)
  6. DPDK lcore学习笔记
  7. DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……
  8. 贝叶斯统计(Bayesian statistics) vs 频率统计(Frequentist statistics):marginal likelihood(边缘似然)
  9. 开源大数据:Apache Pulsar
  10. VALSE学习(三):深度学习梯度讲解
  11. nginx实现网站url带参跳转 POST请求GET请求跳转
  12. 机器学习(3)--LR算法
  13. 封装继承多态还是封装抽象继承多态
  14. Go初体验-实现平方根函数
  15. 2021-05-10
  16. error LNK2019: 无法解析的外部符号 _WinMain@16,该符号在函数 ___tmainCR...
  17. Backstepping反步法控制四旋翼无人机(2)
  18. 图片分类的入门:二分类
  19. 深度学习笔记-----YOLOV4框架结构大讲解
  20. 设计模式总结 By李建忠老师

热门文章

  1. java 服务器 文件写入文件_java 从服务器下载文件并保存到本地
  2. 改变openssl的环境变量linux,ECS Linux 安装配置openssl的具体过程
  3. [Visual Studio+TFS--强大的项目管理工具]
  4. windows环境下python 虚拟环境的创建和使用(virtualenvwrapper)
  5. 线性回归原理与spark/sklearn实现
  6. 【搜索引擎基础知识3】搜索引擎相关开源项目及网站
  7. python 数据离散化和面元划分
  8. kettle连接hadoophdfs图文详解
  9. Hive JOIN使用详解
  10. jvm系列(一):java类的加载机制