在scrapy中爬取不到任何返回值。

G:\scrapy_tesy>scrapy crawl douban
2019-07-11 10:26:15 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: scrapy_tesy)
2019-07-11 10:26:15 [scrapy.utils.log] INFO: Versions: lxml 4.2.4.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 19.2.1, Python 3.6.0 (v3.6.0:41df79263a11, Dec 23 2016, 08:06:12) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1c  28 May 2019), cryptography 2.7, Platform Windows-10-10.0.17134-SP0
2019-07-11 10:26:15 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'scrapy_tesy', 'NEWSPIDER_MODULE': 'scrapy_tesy.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['scrapy_tesy.spiders']}
2019-07-11 10:26:15 [scrapy.extensions.telnet] INFO: Telnet Password: ff2bfbc35ae333e7
2019-07-11 10:26:15 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats','scrapy.extensions.telnet.TelnetConsole','scrapy.extensions.logstats.LogStats']
2019-07-11 10:26:15 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware','scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware','scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware','scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware','scrapy.downloadermiddlewares.useragent.UserAgentMiddleware','scrapy.downloadermiddlewares.retry.RetryMiddleware','scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware','scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware','scrapy.downloadermiddlewares.redirect.RedirectMiddleware','scrapy.downloadermiddlewares.cookies.CookiesMiddleware','scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware','scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-07-11 10:26:15 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware','scrapy.spidermiddlewares.offsite.OffsiteMiddleware','scrapy.spidermiddlewares.referer.RefererMiddleware','scrapy.spidermiddlewares.urllength.UrlLengthMiddleware','scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-07-11 10:26:15 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-07-11 10:26:15 [scrapy.core.engine] INFO: Spider opened
2019-07-11 10:26:15 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-07-11 10:26:15 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2019-07-11 10:26:15 [scrapy.core.engine] DEBUG: Crawled (403) <GET http://douban.com/robots.txt> (referer: None)
2019-07-11 10:26:15 [scrapy.core.engine] DEBUG: Crawled (403) <GET http://douban.com/> (referer: None)
2019-07-11 10:26:15 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 http://douban.com/>: HTTP status code is not handled or not allowed
2019-07-11 10:26:15 [scrapy.core.engine] INFO: Closing spider (finished)
2019-07-11 10:26:15 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 428,'downloader/request_count': 2,'downloader/request_method_count/GET': 2,'downloader/response_bytes': 462,'downloader/response_count': 2,'downloader/response_status_count/403': 2,'finish_reason': 'finished','finish_time': datetime.datetime(2019, 7, 11, 2, 26, 15, 927988),'httperror/response_ignored_count': 1,'httperror/response_ignored_status_count/403': 1,'log_count/DEBUG': 2,'log_count/INFO': 10,'response_received_count': 2,'robotstxt/request_count': 1,'robotstxt/response_count': 1,'robotstxt/response_status_count/403': 1,'scheduler/dequeued': 1,'scheduler/dequeued/memory': 1,'scheduler/enqueued': 1,'scheduler/enqueued/memory': 1,'start_time': datetime.datetime(2019, 7, 11, 2, 26, 15, 613169)}
2019-07-11 10:26:15 [scrapy.core.engine] INFO: Spider closed (finished)

出现这个问题的解决方法是修改scrapy的settings.py文件:

# Obey robots.txt rules
# ROBOTSTXT_OBEY = True
ROBOTSTXT_OBEY = False # 将上面的True注释掉,改为False即可解决问题

这个配置是检测网站的robot.txt文件,看看网站是否允许爬取,如果不允许自然是不能。所以需要改为False。这样就不用询问robot.txt了。

scrapy爬虫没有任何的返回数据( Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min))相关推荐

  1. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  2. python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  3. python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  4. python实现scrapy爬虫每天定时抓取数据

    python实现scrapy爬虫每天定时抓取数据 1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程 ...

  5. scrapy爬虫之item pipeline保存数据

    ##简介 前面的博文我们都是使用"-o ***.josn"参数将提取的item数据输出到json文件,若不加此参数提取到的数据则不会输出.其实当Item在Spider中被收集之后, ...

  6. Scrapy爬虫轻松抓取网站数据

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也 ...

  7. DEA通讯模块读取从机到PLC的数据如果返回数据有两位或多位怎么办

    读取从机到PLC的数据如果返回数据有两位或多位怎么办? 从说明书了解到 030048为读取互感器的数据,并且返回为2个数据WORD. 这样我们得知读取就相当于是:从机到PLC ------那么我们增加 ...

  8. scrapy爬虫储存到mysql_详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库

    获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫文件 字段文件items # Define here the models for your scraped items # # S ...

  9. python的scrapy爬虫可以将爬去的数据放入数据库吗_Python基于Scrapy的爬虫 数据采集(写入数据库)...

    上一节已经学了如何在spider里面对网页源码进行数据过滤. 这一节将继续学习scrapy的另一个组件-pipeline,用来2次处理数据 (本节中将以储存到mysql数据库为例子) 虽然scrapy ...

最新文章

  1. 聊聊spring cloud的LoadBalancerAutoConfiguration
  2. java jsp 文件上传_用JSP编写文件上传
  3. 将pdf转换html_pdf文件怎么转换成html网页格式?用什么方法来转换?
  4. .NET Core中的一个接口多种实现的依赖注入与动态选择
  5. Java2017面试宝典--XML部分、 流行的框架与新技术、软件工程与设计模式、 j2ee部分、EBJ部分、 webservice部分...
  6. linux下tail命令的用法,在Linux命令中tail的用法
  7. 从区块链中的通证模型设计看项目的未来
  8. 按键精灵 android,按键精灵手机版
  9. mac idea向上/向下插入空行快捷键
  10. (附源码)springboot水利机械厂仓储管理系统 毕业设计 091408
  11. python| requests 访问 https网站
  12. HDU - 5514 Frogs
  13. gitlab 502 Whoops, GitLab is taking too much time to respond.
  14. JavaScript随机生成字母、数字
  15. 第一次群面——华为败北的经历小结
  16. DIY双路服务器之个人主机
  17. python个人bug修炼手册
  18. 变革的腾讯:一个游戏之外的帝国
  19. Linux下安装jdk
  20. 第一时间看透对方:FBI 教你破解身体语言(美)乔·纳瓦罗,马文·卡尔林斯

热门文章

  1. python接口自动化搭配Gitlab 和jenkins持续集成
  2. android烤机按键变慢,Android8.0平台Camera monkey拷机卡死异常
  3. C语言使用getch()读取方向键
  4. linux配置https不安全链接,配置HTTPS证书后,浏览器出现不安全提示的解决方法
  5. 电动车AMT换挡规律研究——换挡点计算
  6. 运营技巧|要如何提升用户留存率?
  7. 智能家居带动路由器换代潮 中高端市场大门已敞开
  8. Modeling Relational Data with Graph Convolutional Networks(2017)
  9. java spark 遍历rdd_Spark入门(四):RDD基本操作
  10. 5G NR RLC层