python爬虫下载cityscapes数据集

cityscapes数据集下载地址

https://www.cityscapes-dataset.com/downloads/

解决的问题

cityscapes不支持迅雷下载，因为在下载的时候做了请求头验证，该脚本方便linux环境下用户使用。

爬虫脚本

该脚本基于该博客的代码进行改进，添加进度条方便观察进度。

import requests # pip install requests
import contextlib
import progressbar # pip install progressbar2def download(url, session_id, save_path):cookies = {'PHPSESSID': session_id}headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'en-US,en;q=0.5','Connection': 'keep-alive','Cookie': f'PHPSESSID={session_id}','DNT': '1','Host': 'www.cityscapes-dataset.com','Referer': 'https://www.cityscapes-dataset.com/downloads/','Upgrade-Insecure-Request': '1','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36'}res = requests.get(url, headers=headers, cookies=cookies, stream=True)with contextlib.closing(res) as r:accepts = 0bar = progressbar.ProgressBar(maxval=int(r.headers['Content-Length']))bar.start()with open(save_path, "wb") as f:for chunk in res.iter_content(chunk_size=4096):if chunk:f.write(chunk)accepts += len(chunk)bar.update(accepts)# 以下参数如何获取后面有说
download(url='https://www.cityscapes-dataset.com/file-handling/?packageID=14',session_id='your_PHPSESSID',save_path='leftImg8bit_sequence_trainvaltest.zip'
)

进度条效果：

数据集下载

目标是下载leftImg8bit_sequence_trainvaltest.zip这个300多G的数据集，save_path填写对应保存路径+文件名，以下是用Chrome浏览器的操作流程。

获取url

右键下载链接，点击检查打开控制台
查看url
复制粘贴到代码上

获取Cookies里的PHPSESSID

在控制台点击Network，如果下面没有信息就刷新一下页面，右键Name勾选显示Domain（域名），找到来自www.cityscapes-dataset.com的请求，点击Name那一列的请求。
我这里打开的是download的页面，点击它，查看Cookies，找到PHPSESSID，把对应的Value填写到代码里。
运行代码

问题合集

提示获取长度大于文件总长度，那就是代表PHPSESSID过期了，需要重新获取

python爬虫下载cityscapes数据集相关推荐

python 爬虫下载网易歌单歌曲
python 爬虫下载网易歌单歌曲可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章爬取网易云音乐所有歌单信息先取到所有的 ...
Python爬虫——下载音乐
Python爬虫--下载音乐 1.调用需要库安装库: Windows + R 输入cmd 后执行下面这两行 pip install requests -i https://pypi.tuna.ts ...
python爬虫下载视频网站视频
python爬虫下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
python爬虫下载王者荣耀图片
python爬虫下载王者荣耀图片腾讯课堂白嫖的一堂课,大佬勿喷. import requests import jsondata = requests.get('http://pvp.qq.com/ ...
Python爬虫下载王者荣耀全皮肤
python爬虫下载王者荣耀全皮肤 import requests import os from time import timestart = time() headers = {'User-Age ...
Python爬虫——下载PPT模板
Python爬虫--下载PPT模板 1.调用需要库安装库: Windows + R 输入cmd 后执行下面这两行 pip install requests pip install lxml imp ...
python爬虫下载影视网站的电影
python爬虫下载影视网站的电影我这边选取了vip网站 F12打开调试抓包模式搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了这个请求需要携带发送数据而这个数据就是我们要的影 ...
利用Python爬虫下载王者荣耀教学视频
前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...
Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享
由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦. 故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理) 下载为5分 ...

python爬虫下载cityscapes数据集

目录

cityscapes数据集下载地址

解决的问题

爬虫脚本

数据集下载

获取url

获取Cookies里的PHPSESSID

问题合集

python爬虫下载cityscapes数据集相关推荐

最新文章

热门文章