python爬虫下载cityscapes数据集
目录
- cityscapes数据集下载地址
- 解决的问题
- 爬虫脚本
- 数据集下载
- 获取url
- 获取Cookies里的PHPSESSID
- 问题合集
cityscapes数据集下载地址
https://www.cityscapes-dataset.com/downloads/
解决的问题
cityscapes不支持迅雷下载,因为在下载的时候做了请求头验证,该脚本方便linux环境下用户使用。
爬虫脚本
该脚本基于该博客的代码进行改进,添加进度条方便观察进度。
import requests # pip install requests
import contextlib
import progressbar # pip install progressbar2def download(url, session_id, save_path):cookies = {'PHPSESSID': session_id}headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'en-US,en;q=0.5','Connection': 'keep-alive','Cookie': f'PHPSESSID={session_id}','DNT': '1','Host': 'www.cityscapes-dataset.com','Referer': 'https://www.cityscapes-dataset.com/downloads/','Upgrade-Insecure-Request': '1','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36'}res = requests.get(url, headers=headers, cookies=cookies, stream=True)with contextlib.closing(res) as r:accepts = 0bar = progressbar.ProgressBar(maxval=int(r.headers['Content-Length']))bar.start()with open(save_path, "wb") as f:for chunk in res.iter_content(chunk_size=4096):if chunk:f.write(chunk)accepts += len(chunk)bar.update(accepts)# 以下参数如何获取后面有说
download(url='https://www.cityscapes-dataset.com/file-handling/?packageID=14',session_id='your_PHPSESSID',save_path='leftImg8bit_sequence_trainvaltest.zip'
)
进度条效果:
数据集下载
目标是下载leftImg8bit_sequence_trainvaltest.zip这个300多G的数据集,save_path填写对应保存路径+文件名,以下是用Chrome浏览器的操作流程。
获取url
- 右键下载链接,点击检查打开控制台
- 查看url
- 复制粘贴到代码上
获取Cookies里的PHPSESSID
- 在控制台点击Network,如果下面没有信息就刷新一下页面,右键Name勾选显示Domain(域名),找到来自www.cityscapes-dataset.com的请求,点击Name那一列的请求。
- 我这里打开的是download的页面,点击它,查看Cookies,找到PHPSESSID,把对应的Value填写到代码里。
- 运行代码
问题合集
- 提示获取长度大于文件总长度,那就是代表PHPSESSID过期了,需要重新获取
python爬虫下载cityscapes数据集相关推荐
- python 爬虫下载网易歌单歌曲
python 爬虫下载网易歌单歌曲 可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外 可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章 爬取网易云音乐所有歌单信息 先取到所有的 ...
- Python爬虫——下载音乐
Python爬虫--下载音乐 1.调用需要库 安装库: Windows + R 输入cmd 后 执行下面这两行 pip install requests -i https://pypi.tuna.ts ...
- python爬虫 下载视频网站视频
python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
- python爬虫下载王者荣耀图片
python爬虫下载王者荣耀图片 腾讯课堂白嫖的一堂课,大佬勿喷. import requests import jsondata = requests.get('http://pvp.qq.com/ ...
- Python爬虫下载王者荣耀全皮肤
python爬虫下载王者荣耀全皮肤 import requests import os from time import timestart = time() headers = {'User-Age ...
- Python爬虫——下载PPT模板
Python爬虫--下载PPT模板 1.调用需要库 安装库: Windows + R 输入cmd 后 执行下面这两行 pip install requests pip install lxml imp ...
- python爬虫下载影视网站的电影
python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...
- 利用Python爬虫下载王者荣耀教学视频
前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...
- Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享
由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦. 故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理) 下载为5分 ...
最新文章
- linux socket 清空缓存区
- 为Jersey 2.19创建共享库以与Weblogic 12.1.3一起使用
- unity webgl读写txt文件_python Files文件读写操作
- python中space_漫谈Python的Namespace
- 作为面向事务的客户服务器协议,湖南大学《计算机网络》实验报告.doc
- Java讲课笔记32:利用JDBC实现系统登录功能
- PHP 长连接,奏是这么简单
- Leetcode529. 扫雷游戏
- AlertDialog Unable to add window token null is
- 《设计模式详解》设计模式概述、UML
- GitHub 2019年漏洞奖励计划最值得回顾的2个精彩 bug
- 阿里云爬虫风险管理产品商业化,为云端流量保驾护航 1
- 初识Python导图笔记
- python uwsgi_Python uWSGI 安装配置
- Centos7 下安装tomcat7
- php生成手写字,快速word手写字体在线生成器笔迹仿手写
- 手机直播app制作大揭秘之视频直播系统方案
- IMX6ULL 的 IEEE 1588 功能
- word文字上下间距怎么调_word文档上下行间距怎么调整
- Cloudera Manager安装教程
热门文章
- 医学图像分类_体素科技:深钻小数据下的医学图像分割
- iOS调用文件app(file.app)选择文件和下载
- 计算机实用教程pdf,计算机基础实用教程电子版.pdf
- 连续四年ROE在20%附近的绩优股
- HTTP的请求头标签 If-Modified-Since与Last-Modified
- 信息管理导论 | 信息资源人文管理
- 【C++】C++11
- 冈萨雷斯toolbox
- matlab qp函数,SVM工具箱中qp函数的问题
- 10.0高等数学五-上半部分-习题练习