python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request
使用scrapy框架抓取某妹子图网时,只能抓取第一页,第二页报错
[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xxxx.com': <GET http://www.xxxx.com/ent/meinvtupian/list_11_2.html>
度娘找到答案:
因为 Request中请求的 URL 和 allowed_domains 中定义的域名冲突,所以将Request中请求的URL过滤掉了,无法请求
yield scrapy.Request(url,callback=self.parse)
解决办法一: 在 Request 请求参数中,设置 dont_filter = True ,Request 中请求的 URL 将不通过 allowed_domains 过滤。
yield scrapy.Request(url,callback=self.parse,dont_filter=True)
解决办法二: 将allowed_domains = ['www.xxxx.com']更改为allowed_domains = ['xxxx.com'] 即更换为对应的一级域名
原文链接:https://blog.csdn.net/weixin_41607151/article/details/80515030
python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request相关推荐
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫学习(一)爬取boss直聘一页数据
第一次爬数据遇到了很多坎儿,游走在各大大佬们的经验贴中,最终顺利完成任务,记录下来,以便我这猪脑忘记! (一)任务 爬取"上海市"+"web前端"+" ...
- 【Python爬虫学习实践】多线程爬取Bing每日壁纸
在本节实践中,我们将借助Python多线程编程并采用生产者消费者模式来编写爬取Bing每日壁纸的爬虫.在正式编程前,我们还是一样地先来分析一下我们的需求及大体实现的过程. 总体设计预览 首先,我们先来 ...
- Python爬虫学习教程,批量爬取下载抖音视频
这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 项目源码展示: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qu ...
- python爬虫学习(二) 简易网页爬取
先在网页进行搜索 得到url https://www.sogou.com/web?query=波晓张&_asf=www.sogou.com&_ast=&w=01019900&a ...
最新文章
- mysql sql文件太大_MySQL导入的sql脚本文件过大解决方案
- css网页设计实例代码_大型电商平台设计实例:电商平台项目工程、数据库选型、代码库...
- 根据坐标获取地图经纬度
- 第八周项目实践6 KMP算法(串的模式匹配)
- python在办公上的应用_Python 应用 办公自动化之 Excel(上)
- 从浏览器市场份额,探究百度在移动互联网时代失败的原因
- #39;boost/iterator/iterator_adaptor.hpp#39; file not found之xcode生成时报错的解决方案
- 后“量子霸权”时代你不可错过的几本好书
- 详解印染产品纬斜疵病产生原因及如何预防
- python模型预测_《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程...
- HTML5form表单的相关知识总结
- 基于有道API的命令行词典(golang版)
- 聚石塔RDS数据备份与迁移
- 论文阅读Construction of Refined Protein Interaction Network for Predicting Essential Proteins
- 2021最新python学习视频教程
- 程序员不得不学的养生秘诀
- linux下编译isl,CentOS 6 编译GCC 4.8.1简明流程
- 1.44寸TFT-LCD显示屏取模教程
- 多项式计算大模拟:csp202112-3登机牌条码
- GTX/GTH QPLL CPLL学习之Aurora