爬虫报404问题：

在进行爬虫爬取数据的过程中，使用语句：

r = requests.get(url, timeout=60, headers=headers, stream=True)
# print(r.status_code)
open(r'D:\us\{}\{}\{}\img\{}.jpg'.format(year, mouth_day, id, l), 'wb').write(r.content)  # 将内容写入图片

获取网页数据，爬取数据，打印网页响应码，返回404问题

解决方案：

经过不断的尝试，发现报错问题，是因为header头部携带的信息问题：

在使用之前运行的代码的过程中，如今重新使用，对于Cookie要及时根据自己的浏览器进行更新。

headers = {"connection": "close","Cookie": "JSESSIONID=E4674C29E2A76CB08BB651053D8C951E.bswa3n; wipo-visitor-uunid=ff51e08378c28600; ""_gcl_au=1.1.661799052.1650246701; _ga=GA1.3.1709262595.1650246701; ""_pk_ref.14.ec75=%5B%22%22%2C%22%22%2C1650442707%2C%22https%3A%2F%2Fwww3.wipo.int%2F%22%5D; ""_hjSessionUser_787562=eyJpZCI6IjhhNGViODJkLTFiNTEtNWNmNC1iMDc0LTliNDRiZGJkYTlhZCIsImNyZWF0ZWQ""iOjE2NTA0NDI3MDc5NTAsImV4aXN0aW5nIjpmYWxzZX0=; ""_pk_id.14.ec75=845d6b854d46c8ec.1650440759.2.16504 ""42818.1650440759.; _gid=GA1.3.807169207.1650806717; _gid=GA1.2.807169207.1650806717; ""_ga=GA1.1.17092 ""62595.1650246701; _pk_id.9.ec75=3222e84a40150571.1650246702.; ""_pk_id.9.d630=a4ae4c09b954546d.1650246701 "".; _pk_uid=0%3DczoxNjoiMzIyMmU4NGE0MDE1MDU3MSI7%3A_%3D4d811534abc282543fa0eeaad6da945e10b9c701""; _ga_15TSHJ0H ""WP=GS1.1.1651022240.33.0.1651022878.0","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/95.0.4638.54 Safari/537.36",}

爬虫爬取数据时，网页响应码返回404问题的解决方法相关推荐

爬虫爬取数据时各种中文乱码问题
学爬虫有一段时间了,期间总是觉得内容编码会傻傻分不清楚,尤其是直接网页拿数据的时候,遇见中文有时候特别麻烦,看大神介绍的东西太多,只记下了处理方式,仅供参考,不对地方欢迎大家指正~~ 一般请求返回内容 ...
爬虫：使用爬虫爬取数据时遇到需要展开的文字怎么处理
大概思路是当解析出来的短评内容不全的时候,就把这条短评的 id 找到,然后组装成 url 发送请求,获取完整的内容,就可以了.或者也可以用 webdriver 来解决. 使用Chrome浏览器F12打 ...
python爬取内容剔除nbsp_python 爬虫爬取内容时， \xa0 、 \u3000 的含义与处理方法...
转自:https://www.cnblogs.com/BlackStorm/p/6359005.html 处理方法 str.replace(u'\xa0', u' ') 最近用 scrapy 爬某网站 ...
python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
【用Java爬取网页图片——爬虫爬取数据】
用Java爬取网页图片--爬虫爬取数据 1.在创建项目中导入jsoup 2.创建一个保存下载图片的路径 3.使用URL读取网页路径,jsoup读取网页内容 4.利用属性标签获取图片连接块 5.因为该路 ...
网络爬虫入门：网络爬虫的目的，企业获取数据的方式，可以用于做爬虫的程序语言，爬虫爬取数据的步骤
目录爬取数据的目的: 1.获取大量数据,用于做数据分析 2.公司项目的测试数据,公司业务所需数据企业获取数据的方式 1.公司自有数据 2.第三方数据平台购买(数据堂,贵阳大数据交易所) 3.爬虫爬 ...
爬虫python的爬取步骤-Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
如何用六步教会你使用python爬虫爬取数据
前言: 用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂.以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了. python爬出六部曲第一步:安装req ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

爬虫爬取数据时，网页响应码返回404问题的解决方法

爬虫报404问题：

解决方案：

爬虫爬取数据时，网页响应码返回404问题的解决方法相关推荐

最新文章

热门文章