Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息

今天在使用蓝奏网盘的时候发现有一个文件夹加密分享，然后我就尝试了加密文件夹，但是文件夹下的文件还是可以直接通过访问该文件链接得到，所以对于文件夹加密是否显得有点鸡肋了呐？

如此，我们便简单的使用Python爬虫来实现一下：

1.抓取网盘链接+文件名

2.作用：存为文本文件，当我们需要什么资料的时候或许就可以通过Ctrl+F快速搜索，从而得到我们想要的资源<_<

实现：

1.分析：

第一个链接：http://pan.lanzou.com/x/1671840

第二个链接：https://pan.lanzou.com/1671841

...

如此，我们便分析到，这个网站的文件链接极大可能是通过文件数量递增来的，我们继续分析。

我们在对url的有效数字大小判断

然而只有在167xxxx范围，当然我们不信怎么才会只有这么一点

再次分析原来是有的资源被取消分享了，所以会出现资源不存在的情况！

抓包分析知道：GET请求

因此，我们开始尝试写获取网页的代码

代码运行如下：

貌似，为啥？可以直接请求https？？？Excuse me

百度也可以。。。

那就先不管了。。。因为以前都是需要的，百度一下，在某个大神博客截图说明一下，

我们继续，等会儿通过判断返回的状态码来确定是否继续执行下一步。

既然HTTPS没问题了，那么问题现在就简单了：

print(res.status_code)#输出状态码为整数型

如此成功顺利

接下来尝试少量数据获取：

发现有获取不到文件的情况

原本是有文件的，只是被取消了，但是我们存储的数据利肯定不能有这些无效数据啊

所以必须得优化，补充一下，访问这种情况，网页的状态码也为200

获取的标题长度为7我们则认为此时文件被取消，虽然有点勉强，但是测试时基本没啥问题，因为有文件名的文件title长度为7+len(文字)，至于这个七字节来自于' --- '

所以我们有理由相信，如果字符串title的长度为7，则文件不存在，则取消探索，这样做没较大的问题。

So，再写入文件中即可。

从早上7:45开始运行...

上完课回来已经12:38了，先结束吧。

下节课讲如何利用python模拟登陆保持会话。

关于这个爬取网盘项目还要继续下去，有惊喜哦~哈哈~

注：本文属于原创文章，转载请注明本文地址！

作者QQ:1099718640

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：暂无开源

Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息相关推荐

Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票
对爬虫的简单介绍 1. 什么是爬虫? 请求页面并提取数据的自动化过程. 2. 爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...
java抓取网页数据_Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取
我们分别通过Golang.Python.Java三门语言,分别实现对Boss直聘网站的招聘数据进行爬取. 首先打开Boss直聘网站: 然后我们在职位类型中输入Go或者Golang关键字: 然后我们可以 ...
Python爬虫实战——蚂蜂窝国内目的地全抓取
上一篇文章爬的是豆瓣电影,是属于静态页面的,而且很有规律的,做起来比较容易.这次的蚂蜂窝国内目的主要有三点比较困难的地方 1.不是静态页面,要通过post请求才能获得需要的信息,通过刷新网页可以看到发 ...
Python爬虫实践：从中文歌词库抓取歌词
利用BeautifulSoup库构建一个简单的网络爬虫,从中文歌词库网站抓取凤凰传奇所有曲目的歌词(http://www.cnlyric.com/geshou/1927.html). from url ...
python爬取网易云音乐飙升榜音乐_Python爬虫实战，30行代码轻松爬取网易云音乐热歌榜...
在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...
Python爬虫实战使用scrapy与selenium来爬取数据
系列文章目录实战使用scrapy与selenium来爬取数据文章目录系列文章目录前言一.前期准备二.思路与运行程序 1.思路 2.运行程序三.代码 1.代码下载 2.部分代码总结前言 ...
Python爬虫实战，requests+parsel模块，爬取二手房房源信息数据
前言最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...
【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...

Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息

Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息相关推荐

最新文章

热门文章