今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐?

如此,我们便简单的使用Python爬虫来实现一下:

1.抓取网盘链接+文件名

2.作用:存为文本文件,当我们需要什么资料的时候或许就可以通过Ctrl+F快速搜索,从而得到我们想要的资源<_<

实现:

1.分析:

第一个链接:http://pan.lanzou.com/x/1671840

第二个链接:https://pan.lanzou.com/1671841

...

如此,我们便分析到,这个网站的文件链接极大可能是通过文件数量递增来的,我们继续分析。

我们在对url的有效数字大小判断

然而只有在167xxxx范围,当然我们不信怎么才会只有这么一点

再次分析原来是有的资源被取消分享了,所以会出现资源不存在的情况!

抓包分析知道:GET请求

因此,我们开始尝试写获取网页的代码

代码运行如下:

貌似,为啥?可以直接请求https???Excuse me

百度也可以。。。

那就先不管了。。。因为以前都是需要的,百度一下,在某个大神博客截图说明一下,

我们继续,等会儿通过判断返回的状态码来确定是否继续执行下一步。

既然HTTPS没问题了,那么问题现在就简单了:

print(res.status_code)#输出状态码为整数型

如此成功顺利

接下来尝试少量数据获取:

发现有获取不到文件的情况

原本是有文件的,只是被取消了,但是我们存储的数据利肯定不能有这些无效数据啊

所以必须得优化,补充一下,访问这种情况,网页的状态码也为200

获取的标题长度为7我们则认为此时文件被取消,虽然有点勉强,但是测试时基本没啥问题,因为有文件名的文件title长度为7+len(文字),至于这个七字节来自于'  ---  '

所以我们有理由相信,如果字符串title的长度为7,则文件不存在,则取消探索,这样做没较大的问题。

So,再写入文件中即可。

从早上7:45开始运行...

上完课回来已经12:38了,先结束吧。

下节课讲如何利用python模拟登陆保持会话。

关于这个爬取网盘项目还要继续下去,有惊喜哦~哈哈~

注:本文属于原创文章,转载请注明本文地址!

作者QQ:1099718640

CSDN博客主页:http://blog.csdn.net/dyboy2017

Github开源项目:暂无开源

Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息相关推荐

  1. Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

    Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...

  2. python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票

    对爬虫的简单介绍 1.    什么是爬虫? 请求页面并提取数据的自动化过程. 2.    爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...

  3. java抓取网页数据_Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取

    我们分别通过Golang.Python.Java三门语言,分别实现对Boss直聘网站的招聘数据进行爬取. 首先打开Boss直聘网站: 然后我们在职位类型中输入Go或者Golang关键字: 然后我们可以 ...

  4. Python爬虫实战——蚂蜂窝国内目的地全抓取

    上一篇文章爬的是豆瓣电影,是属于静态页面的,而且很有规律的,做起来比较容易.这次的蚂蜂窝国内目的主要有三点比较困难的地方 1.不是静态页面,要通过post请求才能获得需要的信息,通过刷新网页可以看到发 ...

  5. Python爬虫实践:从中文歌词库抓取歌词

    利用BeautifulSoup库构建一个简单的网络爬虫,从中文歌词库网站抓取凤凰传奇所有曲目的歌词(http://www.cnlyric.com/geshou/1927.html). from url ...

  6. python爬取网易云音乐飙升榜音乐_Python爬虫实战,30行代码轻松爬取网易云音乐热歌榜...

    在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...

  7. Python爬虫实战使用scrapy与selenium来爬取数据

    系列文章目录 实战使用scrapy与selenium来爬取数据 文章目录 系列文章目录 前言 一.前期准备 二.思路与运行程序 1.思路 2.运行程序 三.代码 1.代码下载 2.部分代码 总结 前言 ...

  8. Python爬虫实战,requests+parsel模块,爬取二手房房源信息数据

    前言 最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...

  9. 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行

    本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

最新文章

  1. python数据分析平均时间间隔_python 数据分析中常用的时间--datetime操作
  2. efcore 更新关联表_如何在生产环境下用好EFCore
  3. java确认rabbitmq_RabbitMQ 消息确认机制
  4. loadView的使用总结
  5. Node实战之聊天室
  6. jetty;linux 目录结构
  7. 中国内窥镜光学物镜市场趋势报告、技术动态创新及市场预测
  8. 从零开始学习python编程-从零开始的Python学习 -- 简单的练习题
  9. Matlab中冒号“:“的使用方法
  10. nginx学习:搭建静态资源服务器
  11. 【Keras】Keras中fit_generator的使用,及fit、fit_generator、和train_on_batch的区别
  12. php 接入google 验证用户登录
  13. 向西,向西,到栖霞去(二)--走马看福山
  14. 频谱细化matlab程序,频谱细化-----Zoom-FFT算法介绍及MATLAB实现
  15. 2016山东计算机春考试题型,2016年山东省春季高考技能考试信息技术类专业考试样题...
  16. 家用千兆路由器排行榜前十名_求家用路由器排名前十名,有哪些比较推荐?
  17. fixed脱离文档流 不占位置
  18. NVIDIA GPU虚拟化七版迭代,如今再秀一波!
  19. 1 Introduction  介绍
  20. 日历函数单元 (转)

热门文章

  1. uni-app小说阅读页,vue小说阅读页,静态demo
  2. 禁用Windows10系统驱动程序强制签名的简单方法
  3. 刘意JavaSE 学习笔记——总纲
  4. docx转换为doc格式,公式变成图片问题,word2016
  5. 1 invalid import format(s) Postman Collection Format v1 is no longer supported and can not be import
  6. 容器技术-部署企业级Docker镜像仓库Harbor
  7. theano 这磨人的小妖精
  8. SQL 注入攻击:简介与原理
  9. SpringBoot项目集成UniPush推送服务
  10. 华为自研分布式时序数据库集群:初始GaussDB(for Influx)