爬虫报404问题:

在进行爬虫爬取数据的过程中,使用语句:

r = requests.get(url, timeout=60, headers=headers, stream=True)
# print(r.status_code)
open(r'D:\us\{}\{}\{}\img\{}.jpg'.format(year, mouth_day, id, l), 'wb').write(r.content)  # 将内容写入图片
获取网页数据,爬取数据,打印网页响应码,返回404问题

解决方案:

经过不断的尝试,发现报错问题,是因为header头部携带的信息问题:

在使用之前运行的代码的过程中,如今重新使用,对于Cookie要及时根据自己的浏览器进行更新。

headers = {"connection": "close","Cookie": "JSESSIONID=E4674C29E2A76CB08BB651053D8C951E.bswa3n; wipo-visitor-uunid=ff51e08378c28600; ""_gcl_au=1.1.661799052.1650246701; _ga=GA1.3.1709262595.1650246701; ""_pk_ref.14.ec75=%5B%22%22%2C%22%22%2C1650442707%2C%22https%3A%2F%2Fwww3.wipo.int%2F%22%5D; ""_hjSessionUser_787562=eyJpZCI6IjhhNGViODJkLTFiNTEtNWNmNC1iMDc0LTliNDRiZGJkYTlhZCIsImNyZWF0ZWQ""iOjE2NTA0NDI3MDc5NTAsImV4aXN0aW5nIjpmYWxzZX0=; ""_pk_id.14.ec75=845d6b854d46c8ec.1650440759.2.16504 ""42818.1650440759.; _gid=GA1.3.807169207.1650806717; _gid=GA1.2.807169207.1650806717; ""_ga=GA1.1.17092 ""62595.1650246701; _pk_id.9.ec75=3222e84a40150571.1650246702.; ""_pk_id.9.d630=a4ae4c09b954546d.1650246701 "".; _pk_uid=0%3DczoxNjoiMzIyMmU4NGE0MDE1MDU3MSI7%3A_%3D4d811534abc282543fa0eeaad6da945e10b9c701""; _ga_15TSHJ0H ""WP=GS1.1.1651022240.33.0.1651022878.0","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/95.0.4638.54 Safari/537.36",}

爬虫爬取数据时,网页响应码返回404问题的解决方法相关推荐

  1. 爬虫爬取数据时各种中文乱码问题

    学爬虫有一段时间了,期间总是觉得内容编码会傻傻分不清楚,尤其是直接网页拿数据的时候,遇见中文有时候特别麻烦,看大神介绍的东西太多,只记下了处理方式,仅供参考,不对地方欢迎大家指正~~ 一般请求返回内容 ...

  2. 爬虫:使用爬虫爬取数据时遇到需要展开的文字怎么处理

    大概思路是当解析出来的短评内容不全的时候,就把这条短评的 id 找到,然后组装成 url 发送请求,获取完整的内容,就可以了.或者也可以用 webdriver 来解决. 使用Chrome浏览器F12打 ...

  3. python爬取内容剔除nbsp_python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法...

    转自:https://www.cnblogs.com/BlackStorm/p/6359005.html 处理方法 str.replace(u'\xa0', u' ') 最近用 scrapy 爬某网站 ...

  4. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  5. 【用Java爬取网页图片——爬虫爬取数据】

    用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...

  6. 网络爬虫入门:网络爬虫的目的,企业获取数据的方式,可以用于做爬虫的程序语言,爬虫爬取数据的步骤

    目录 爬取数据的目的: 1.获取大量数据,用于做数据分析 2.公司项目的测试数据,公司业务所需数据 企业获取数据的方式 1.公司自有数据 2.第三方数据平台购买(数据堂,贵阳大数据交易所) 3.爬虫爬 ...

  7. 爬虫python的爬取步骤-Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  8. 如何用六步教会你使用python爬虫爬取数据

    前言: 用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂.以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了. python爬出六部曲 第一步:安装req ...

  9. Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

最新文章

  1. openstack中RemoteError: AgentNotFoundByTypeHost解决
  2. python错误-第16天:Python 错误和异常
  3. Processing绘制四边形
  4. 杭州飞畅告诉你工业环网交换机到底是什么?
  5. spring—SpringMVC的请求和响应
  6. android 调用系统下载apk,如何在自己的App中调用Android系统自带的安装/卸载程序...
  7. iOS 自己封装的SDK 打包与合并,新手教程!!!
  8. linux 自带多路径工具,RHEL6使用系统自带多路径软件配置多路径
  9. web应用的跨域访问解决方案
  10. android代码设置digits,andorid editext android:digits=abcdefghijklmnopqrstuvwxyz用代码写来控制规则该怎么写呢?...
  11. android屏幕截图代码,android中实现整个屏幕截图的代码
  12. CAS 服务端的搭建
  13. 今天终于知道了!阿里巴巴 P8、P9 及以上到底是什么水平?
  14. 2016全球大数据战略版图剖析(7):跨基础设施/分析篇
  15. 用伪分布式处理爬取下来的数据并用flume监听hive分析,sqoop传入MySQL并可视化
  16. Transfer Learning 迁移学习的相关知识
  17. CSS笔记(美化超链接)
  18. 北京APP开发视频制作APP有哪些功能
  19. 魏副业而战:闲鱼无货源爆款热销产品推荐
  20. 方太:以“一”解“套”

热门文章

  1. 拼音,是否是数字,是否为时间
  2. 目标数量检测MATLAB代码
  3. 云场景实践研究第12期:有货
  4. 音像图书租借管理系统c语言,c语言--图书管理系统
  5. 安卓手机突然很卡_为什么我的手机突然变卡了
  6. python之lambda函数使用
  7. kubernetes安装Kuboard
  8. DeepMind研究:测试神经网络的抽象推理
  9. 【备忘】《Unity Shader入门精要》随书彩色插图
  10. IE 浏览器上的 文件菜单不见了。