爬虫系列学习之爬取西瓜视频

前段时间面试题目中居然出现了：破解西瓜视频地址，获取可直接下载视频的地址。

使用工具

Python 3.7.0
requests库
re库
base64库

分析过程

确定视频资源下载地址

由于之前没有这方面的项目经历，在网上查找资料后，这篇文章给了我灵感（原来西瓜视频上的Url是经过Base64加密的），那么是如何确定西瓜视频上的Url是经过Base64加密的呢？

这个字符串仅有64个字符（A~Z a~z + / ）以及后缀=组成
将目标字符串解密后再将解密字符串加密回去与原来的值做比较如果相同就是Base64

import requests
import re
from base64 import b64decode, b64encodeurl = 'https://www.ixigua.com/i6704446868685849092'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}resp =requests.get(url=url, headers=headers)ex = '''"main_url":"(.*?)"'''def doCheck(source):if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):return Truereturn Falseif doCheck(re.findall(ex, resp.text)[0]):print('该Url是Base64加密!!!')
else:print('该Url不是Base64加密!!!')

下载测试

import requests
import re
from base64 import b64decode, b64encodeheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}url = 'https://www.ixigua.com/i6704446868685849092'resp =requests.get(url=url, headers=headers)ex = '''"main_url":"(.*?)"'''def doCheck(source):if bytes(source, encoding='utf-8') == b64encode(b64decode(source)):return Truereturn Falsedef getVideoUrl(source):return b64decode(source).decode('utf-8')source =re.findall(ex, resp.text)[0]if doCheck(source):resp = requests.get(url=getVideoUrl(source), headers=headers)with open('./Video.mp4', 'wb') as fp:fp.write(resp.content)
else:print('该Url不是Base64加密!!!')

运行结果

爬虫系列学习之爬取西瓜视频相关推荐

python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
爬取西瓜视频影视分类
许久没有更新过博客了,今天帮朋友爬了西瓜视频,希望对喜欢python爬虫的朋友有所指引,希望大神批评指正. 每一个网站都或多或少有一点反爬虫机制,并持续添加新的爬虫机制,所以说针对每一个网站,爬虫规则 ...
Python爬虫进阶之爬取某视频并下载，没有广告的视频看起来不爽吗？
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来着腾讯云作者:python学习教程意外的挖掘到了一个资源网站(你懂得) ...
mfc ajax爬虫,另辟蹊径，爬取Ajax数据内容
通常利用python 爬取ajax数据有两种方式: ①基于selenium+phantomjs+python的动态爬虫技术 ②基于逆向分析但是这两种方式都不太容易. 第一种利用selenium进行 ...
python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python爬虫爬取Twitter视频、文章、图片
Python爬虫爬取Twitter视频.文章.图片 Twitter的Python爬虫 https://github.com/bisguzar/twitter-scraper 2.2k星标 (2020. ...
Python爬虫实现全自动爬取拉钩教育视频
ps:改良之后的多线程版本在最后背景大饼加了不少技术交流群,之前在群里看到拉钩教育平台在做活动,花了1块钱买了套课程.比较尴尬的是大饼一般都会在上下班的路中学习下(路上时间比较久)而这个视频无法缓 ...
python爬虫：Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
python怎么爬取b站_【Python爬虫实例学习篇】——4、超详细爬取bilibili视频
[Python爬虫实例学习篇]--4.超详细爬取bilibili视频由于经常在B站上学习,但无奈于家里网络太差,在线观看卡顿严重,于是萌生了下载视频的想法(如果只是单纯想下载视频,请用you-get ...

爬虫系列学习之爬取西瓜视频

使用工具

分析过程

确定视频资源下载地址

下载测试

运行结果

爬虫系列学习之爬取西瓜视频相关推荐

最新文章

热门文章