Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐?
如此,我们便简单的使用Python爬虫来实现一下:
1.抓取网盘链接+文件名
2.作用:存为文本文件,当我们需要什么资料的时候或许就可以通过Ctrl+F快速搜索,从而得到我们想要的资源<_<
实现:
1.分析:
第一个链接:http://pan.lanzou.com/x/1671840
第二个链接:https://pan.lanzou.com/1671841
...
如此,我们便分析到,这个网站的文件链接极大可能是通过文件数量递增来的,我们继续分析。
我们在对url的有效数字大小判断
然而只有在167xxxx范围,当然我们不信怎么才会只有这么一点
再次分析原来是有的资源被取消分享了,所以会出现资源不存在的情况!
抓包分析知道:GET请求
因此,我们开始尝试写获取网页的代码
代码运行如下:
貌似,为啥?可以直接请求https???Excuse me
百度也可以。。。
那就先不管了。。。因为以前都是需要的,百度一下,在某个大神博客截图说明一下,
我们继续,等会儿通过判断返回的状态码来确定是否继续执行下一步。
既然HTTPS没问题了,那么问题现在就简单了:
print(res.status_code)#输出状态码为整数型
如此成功顺利
接下来尝试少量数据获取:
发现有获取不到文件的情况
原本是有文件的,只是被取消了,但是我们存储的数据利肯定不能有这些无效数据啊
所以必须得优化,补充一下,访问这种情况,网页的状态码也为200
获取的标题长度为7我们则认为此时文件被取消,虽然有点勉强,但是测试时基本没啥问题,因为有文件名的文件title长度为7+len(文字),至于这个七字节来自于' --- '
所以我们有理由相信,如果字符串title的长度为7,则文件不存在,则取消探索,这样做没较大的问题。
So,再写入文件中即可。
从早上7:45开始运行...
上完课回来已经12:38了,先结束吧。
下节课讲如何利用python模拟登陆保持会话。
关于这个爬取网盘项目还要继续下去,有惊喜哦~哈哈~
注:本文属于原创文章,转载请注明本文地址!
作者QQ:1099718640
CSDN博客主页:http://blog.csdn.net/dyboy2017
Github开源项目:暂无开源
Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息相关推荐
- Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
- python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票
对爬虫的简单介绍 1. 什么是爬虫? 请求页面并提取数据的自动化过程. 2. 爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...
- java抓取网页数据_Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取
我们分别通过Golang.Python.Java三门语言,分别实现对Boss直聘网站的招聘数据进行爬取. 首先打开Boss直聘网站: 然后我们在职位类型中输入Go或者Golang关键字: 然后我们可以 ...
- Python爬虫实战——蚂蜂窝国内目的地全抓取
上一篇文章爬的是豆瓣电影,是属于静态页面的,而且很有规律的,做起来比较容易.这次的蚂蜂窝国内目的主要有三点比较困难的地方 1.不是静态页面,要通过post请求才能获得需要的信息,通过刷新网页可以看到发 ...
- Python爬虫实践:从中文歌词库抓取歌词
利用BeautifulSoup库构建一个简单的网络爬虫,从中文歌词库网站抓取凤凰传奇所有曲目的歌词(http://www.cnlyric.com/geshou/1927.html). from url ...
- python爬取网易云音乐飙升榜音乐_Python爬虫实战,30行代码轻松爬取网易云音乐热歌榜...
在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...
- Python爬虫实战使用scrapy与selenium来爬取数据
系列文章目录 实战使用scrapy与selenium来爬取数据 文章目录 系列文章目录 前言 一.前期准备 二.思路与运行程序 1.思路 2.运行程序 三.代码 1.代码下载 2.部分代码 总结 前言 ...
- Python爬虫实战,requests+parsel模块,爬取二手房房源信息数据
前言 最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...
- 【Python】Python3网络爬虫实战-27、Requests与正则表达式抓取猫眼电影排行
本节我们利用 Requests 和正则表达式来抓取猫眼电影 TOP100 的相关内容,Requests 相较于 Urllib 使用更加方便,而目前我们还没有系统学习 HTML 解析库,所以可能对 HT ...
最新文章
- python数据分析平均时间间隔_python 数据分析中常用的时间--datetime操作
- efcore 更新关联表_如何在生产环境下用好EFCore
- java确认rabbitmq_RabbitMQ 消息确认机制
- loadView的使用总结
- Node实战之聊天室
- jetty;linux 目录结构
- 中国内窥镜光学物镜市场趋势报告、技术动态创新及市场预测
- 从零开始学习python编程-从零开始的Python学习 -- 简单的练习题
- Matlab中冒号“:“的使用方法
- nginx学习:搭建静态资源服务器
- 【Keras】Keras中fit_generator的使用,及fit、fit_generator、和train_on_batch的区别
- php 接入google 验证用户登录
- 向西,向西,到栖霞去(二)--走马看福山
- 频谱细化matlab程序,频谱细化-----Zoom-FFT算法介绍及MATLAB实现
- 2016山东计算机春考试题型,2016年山东省春季高考技能考试信息技术类专业考试样题...
- 家用千兆路由器排行榜前十名_求家用路由器排名前十名,有哪些比较推荐?
- fixed脱离文档流 不占位置
- NVIDIA GPU虚拟化七版迭代,如今再秀一波!
- 1 Introduction 介绍
- 日历函数单元 (转)
热门文章
- uni-app小说阅读页,vue小说阅读页,静态demo
- 禁用Windows10系统驱动程序强制签名的简单方法
- 刘意JavaSE 学习笔记——总纲
- docx转换为doc格式,公式变成图片问题,word2016
- 1 invalid import format(s) Postman Collection Format v1 is no longer supported and can not be import
- 容器技术-部署企业级Docker镜像仓库Harbor
- theano 这磨人的小妖精
- SQL 注入攻击:简介与原理
- SpringBoot项目集成UniPush推送服务
- 华为自研分布式时序数据库集群:初始GaussDB(for Influx)