目录

  • cityscapes数据集下载地址
  • 解决的问题
  • 爬虫脚本
  • 数据集下载
    • 获取url
    • 获取Cookies里的PHPSESSID
  • 问题合集

cityscapes数据集下载地址

https://www.cityscapes-dataset.com/downloads/

解决的问题

cityscapes不支持迅雷下载,因为在下载的时候做了请求头验证,该脚本方便linux环境下用户使用。

爬虫脚本

该脚本基于该博客的代码进行改进,添加进度条方便观察进度。

import requests # pip install requests
import contextlib
import progressbar # pip install progressbar2def download(url, session_id, save_path):cookies = {'PHPSESSID': session_id}headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'en-US,en;q=0.5','Connection': 'keep-alive','Cookie': f'PHPSESSID={session_id}','DNT': '1','Host': 'www.cityscapes-dataset.com','Referer': 'https://www.cityscapes-dataset.com/downloads/','Upgrade-Insecure-Request': '1','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36'}res = requests.get(url, headers=headers, cookies=cookies, stream=True)with contextlib.closing(res) as r:accepts = 0bar = progressbar.ProgressBar(maxval=int(r.headers['Content-Length']))bar.start()with open(save_path, "wb") as f:for chunk in res.iter_content(chunk_size=4096):if chunk:f.write(chunk)accepts += len(chunk)bar.update(accepts)# 以下参数如何获取后面有说
download(url='https://www.cityscapes-dataset.com/file-handling/?packageID=14',session_id='your_PHPSESSID',save_path='leftImg8bit_sequence_trainvaltest.zip'
)

进度条效果:

数据集下载

目标是下载leftImg8bit_sequence_trainvaltest.zip这个300多G的数据集,save_path填写对应保存路径+文件名,以下是用Chrome浏览器的操作流程。

获取url

  1. 右键下载链接,点击检查打开控制台
  2. 查看url
  3. 复制粘贴到代码上

获取Cookies里的PHPSESSID

  1. 在控制台点击Network,如果下面没有信息就刷新一下页面,右键Name勾选显示Domain(域名),找到来自www.cityscapes-dataset.com的请求,点击Name那一列的请求。
  2. 我这里打开的是download的页面,点击它,查看Cookies,找到PHPSESSID,把对应的Value填写到代码里。
  3. 运行代码

问题合集

  1. 提示获取长度大于文件总长度,那就是代表PHPSESSID过期了,需要重新获取

python爬虫下载cityscapes数据集相关推荐

  1. python 爬虫下载网易歌单歌曲

    python 爬虫下载网易歌单歌曲 可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外 可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章 爬取网易云音乐所有歌单信息 先取到所有的 ...

  2. Python爬虫——下载音乐

    Python爬虫--下载音乐 1.调用需要库 安装库: Windows + R 输入cmd 后 执行下面这两行 pip install requests -i https://pypi.tuna.ts ...

  3. python爬虫 下载视频网站视频

    python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

  4. python爬虫下载王者荣耀图片

    python爬虫下载王者荣耀图片 腾讯课堂白嫖的一堂课,大佬勿喷. import requests import jsondata = requests.get('http://pvp.qq.com/ ...

  5. Python爬虫下载王者荣耀全皮肤

    python爬虫下载王者荣耀全皮肤 import requests import os from time import timestart = time() headers = {'User-Age ...

  6. Python爬虫——下载PPT模板

    Python爬虫--下载PPT模板 1.调用需要库 安装库: Windows + R 输入cmd 后 执行下面这两行 pip install requests pip install lxml imp ...

  7. python爬虫下载影视网站的电影

    python爬虫下载影视网站的电影 我这边选取了vip网站 F12打开调试抓包模式 搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了 这个请求需要携带发送数据 而这个数据就是我们要的影 ...

  8. 利用Python爬虫下载王者荣耀教学视频

    前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...

  9. Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享

    由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦. 故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理) 下载为5分 ...

最新文章

  1. linux socket 清空缓存区
  2. 为Jersey 2.19创建共享库以与Weblogic 12.1.3一起使用
  3. unity webgl读写txt文件_python Files文件读写操作
  4. python中space_漫谈Python的Namespace
  5. 作为面向事务的客户服务器协议,湖南大学《计算机网络》实验报告.doc
  6. Java讲课笔记32:利用JDBC实现系统登录功能
  7. PHP 长连接,奏是这么简单
  8. Leetcode529. 扫雷游戏
  9. AlertDialog Unable to add window token null is
  10. 《设计模式详解》设计模式概述、UML
  11. GitHub 2019年漏洞奖励计划最值得回顾的2个精彩 bug
  12. 阿里云爬虫风险管理产品商业化,为云端流量保驾护航 1
  13. 初识Python导图笔记
  14. python uwsgi_Python uWSGI 安装配置
  15. Centos7 下安装tomcat7
  16. php生成手写字,快速word手写字体在线生成器笔迹仿手写
  17. 手机直播app制作大揭秘之视频直播系统方案
  18. IMX6ULL 的 IEEE 1588 功能
  19. word文字上下间距怎么调_word文档上下行间距怎么调整
  20. Cloudera Manager安装教程

热门文章

  1. 医学图像分类_体素科技:深钻小数据下的医学图像分割
  2. iOS调用文件app(file.app)选择文件和下载
  3. 计算机实用教程pdf,计算机基础实用教程电子版.pdf
  4. 连续四年ROE在20%附近的绩优股
  5. HTTP的请求头标签 If-Modified-Since与Last-Modified
  6. 信息管理导论 | 信息资源人文管理
  7. 【C++】C++11
  8. 冈萨雷斯toolbox
  9. matlab qp函数,SVM工具箱中qp函数的问题
  10. 10.0高等数学五-上半部分-习题练习