我想用递归的方式查询一个网页下面的所有后续页面 /index.php /index_2.php 这样。

pages = set()

def searchAllPages(url, name):

'''获得所有页面链接'''

global pages

ObjUrl = BaseUrl + url

regular_str = r"\/%s\/index_*[0-9]*\.php" % name

time.sleep(1)

try:

r = requests.get(ObjUrl)

except (requests.ConnectionError, requests.HTTPError) as e:

return

else:

bsObj = BeautifulSoup(r.text,'lxml')

links = bsObj.find_all('a', href=re.compile(regular_str))

links = [i.attrs['href'] for i in links]

for link in links:

if link not in pages:

# 新页面

pages.add(link)

searchAllPages(link, name)

运行后报错 提示

equests.exceptions.ChunkedEncodingError: ("Connection broken: ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)", ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

请问这个问题是如何引起的?

我该如何解决?

已经在多处搜索这个问题的原因。始终没找到符合我的答案。

但不是每次都失败的样子。。

找到一个比较符合我想法的答案,就是可能我的访问量和速度太频繁,被对面认为是攻击而关闭。

请问还有没 其他更合理的解释?

python encoding报错_python用requests递归查询页面 报错 ChunkedEncodingError相关推荐

  1. python导入requests库一直报错原因总结_python导入requests库一直报错原因总结 (文件名与库名冲突)...

    花了好长时间一直在搞这个 源代码: 一直报如下错误: 分析原因: 总以为没有导入requests库,一直在网上搜索各种的导入库方法(下载第三方的requests库,用各种命令工具安装),还是报错 后来 ...

  2. python requests 10041报错_Python:requests高级_模拟登陆

    # 超级鹰的示范代码 #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaoji ...

  3. python response.json()报错_python:解析requests返回的response(json格式)说明

    我就废话不多说了,大家还是直接看代码吧! import requests, json r = requests.get('http://192.168.207.160:9000/api/quality ...

  4. python导入模块报错_Python 导入上层目录模块报错

    背景: 当前demo.py 文件,所处目录 D:\py\test\TestCase,需要调用test 目录下的模块,尝试了 新建__init__.py 文件+ import test.模块名的方法,无 ...

  5. len函数python返回值类型_python的len函数为什么报错

    len函数返回序列类型对象(字符或字符串.元组.列表和字典等)的项目个数(长度). 语法len(object) 函数返回一个大于0的int型整数,表示对象的项目个数. 参数说明 举例 1. 当参数是序 ...

  6. python nonetype报错_python 查询数据库数据 NoneType报错

    python调试mysql数据库时,在测试单条查询语句的时候是没有问题的. 执行过程如下: 1.由连接对象conn获取到一个cursor. cur = conn.cursor() 2.执行sql语句. ...

  7. python中matplotlib出错_Python中使用matplotlib的报错问题

    引用了别人的python代码,其中有一行是 import matplotlib.pyplot as plt 结果运行时提示: File "get.py", line 14, in ...

  8. python elif报错_python中的elif语句报错是什么原因

    else和elif语句也可以叫做子句,因为它们不能独立使用,两者都是出现在if.for.while语句内部的.else子句可以增加一种选择:而elif子句则是需要检查更多条件时会被使用,与if和els ...

  9. python使用代理爬虫_python爬虫requests使用代理ip

    python爬虫requests使用代理ip 一.总结 一句话总结: a.请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫. b. ...

最新文章

  1. mysql cronjob 备份_mysql 数据备份 crontab
  2. win10 环境变量配置 如何在命令行运行php文件
  3. 4、计算机图形学——光栅化、抗锯齿、画家算法和深度缓冲算法(Z-buffer)
  4. Python数据结构与算法—队列
  5. 支付宝支付回调异常_支付宝崩了是怎么回事 支付宝崩了部分用户使用异常现已恢复...
  6. What's going on in background?
  7. .NET MasterPage技术
  8. 博客园屏蔽广告CSS
  9. oracle一体机高水位,oracle 移动高水位:
  10. 结对编程项目的过程记录与收获
  11. Spring Security:自定义登录页面
  12. Abbott's Revenge UVA - 816 (输出bfs路径)
  13. 如何转置_数据转置用选择性粘贴,图片呢?
  14. 一维前缀和,二维前缀和,一维差分,二维差分(翻译)
  15. 机器学习-样本集(包括训练集及测试集)的选取
  16. html中调用javascript函数,如何在HTML中调用JavaScript函数
  17. julia语言 python解释器_深入Python解释器源码,我终于搞明白了字符串驻留的原理...
  18. 大数据测试理论与方法
  19. cad画钟表_coreldraw怎么画钟表?coreldraw画钟表教程
  20. 粤港澳大湾区新地标,128米高“湾区之光”摩天轮重构深圳天际线

热门文章

  1. 静态时序分析的约束命令
  2. 电脑解锁后黑屏有鼠标_笔记本电脑开机黑屏只显示鼠标怎么办?
  3. 周立功:专注的力量成就梦想
  4. 语音识别数据集处理python进行音频处理
  5. Linux的10个游戏
  6. 4.4 I/O性能侦测
  7. 身份证号码的正则表达式及验证详解(JavaScript,Regex)
  8. OpenJudge百炼习题解答(C++)--题4010:2011
  9. 自动化测试和测试自动化的区别
  10. 看过的编程类好书(资料)