使用scrapy框架抓取某妹子图网时,只能抓取第一页,第二页报错

[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xxxx.com': <GET http://www.xxxx.com/ent/meinvtupian/list_11_2.html>

度娘找到答案:

因为 Request中请求的 URL 和 allowed_domains 中定义的域名冲突,所以将Request中请求的URL过滤掉了,无法请求

yield scrapy.Request(url,callback=self.parse)

解决办法一:    在 Request 请求参数中,设置 dont_filter = True ,Request 中请求的 URL 将不通过 allowed_domains 过滤。

yield scrapy.Request(url,callback=self.parse,dont_filter=True)

解决办法二: 将allowed_domains = ['www.xxxx.com']更改为allowed_domains = ['xxxx.com'] 即更换为对应的一级域名

原文链接:https://blog.csdn.net/weixin_41607151/article/details/80515030

python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request相关推荐

  1. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. python爬虫学习(一)爬取boss直聘一页数据

    第一次爬数据遇到了很多坎儿,游走在各大大佬们的经验贴中,最终顺利完成任务,记录下来,以便我这猪脑忘记! (一)任务 爬取"上海市"+"web前端"+" ...

  7. 【Python爬虫学习实践】多线程爬取Bing每日壁纸

    在本节实践中,我们将借助Python多线程编程并采用生产者消费者模式来编写爬取Bing每日壁纸的爬虫.在正式编程前,我们还是一样地先来分析一下我们的需求及大体实现的过程. 总体设计预览 首先,我们先来 ...

  8. Python爬虫学习教程,批量爬取下载抖音视频

    这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 项目源码展示: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qu ...

  9. python爬虫学习(二) 简易网页爬取

    先在网页进行搜索 得到url https://www.sogou.com/web?query=波晓张&_asf=www.sogou.com&_ast=&w=01019900&a ...

最新文章

  1. mysql sql文件太大_MySQL导入的sql脚本文件过大解决方案
  2. css网页设计实例代码_大型电商平台设计实例:电商平台项目工程、数据库选型、代码库...
  3. 根据坐标获取地图经纬度
  4. 第八周项目实践6 KMP算法(串的模式匹配)
  5. python在办公上的应用_Python 应用 办公自动化之 Excel(上)
  6. 从浏览器市场份额,探究百度在移动互联网时代失败的原因
  7. #39;boost/iterator/iterator_adaptor.hpp#39; file not found之xcode生成时报错的解决方案
  8. 后“量子霸权”时代你不可错过的几本好书
  9. 详解印染产品纬斜疵病产生原因及如何预防
  10. python模型预测_《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程...
  11. HTML5form表单的相关知识总结
  12. 基于有道API的命令行词典(golang版)
  13. 聚石塔RDS数据备份与迁移
  14. 论文阅读Construction of Refined Protein Interaction Network for Predicting Essential Proteins
  15. 2021最新python学习视频教程
  16. 程序员不得不学的养生秘诀
  17. linux下编译isl,CentOS 6 编译GCC 4.8.1简明流程
  18. 1.44寸TFT-LCD显示屏取模教程
  19. 多项式计算大模拟:csp202112-3登机牌条码
  20. GTX/GTH QPLL CPLL学习之Aurora

热门文章

  1. 第五章 限时订单实战笔记
  2. icloud连接错误 解决
  3. 使用Composer管理项目第三方库文件
  4. 高斯消元法(Fortran)
  5. 无线的安全威胁与认证加密技术
  6. 2021年中国装载机行业发展现状分析,行业集中度不断提升「图」
  7. FPGA实现离散小波变换
  8. 在安卓中压缩GIF的几种方法(附实例代码)
  9. 一句话木马原理介绍和中国菜刀原理的介绍
  10. 整理 H5 meta 标签的详解