大家沉迷短视频无法自拔？Python爬虫进阶，带你玩转短视频

大家好，我是辣条。

现在短视频可谓是一骑绝尘，吃饭的时候、休息的时候、躺在床上都在刷短视频，今天给大家带来python爬虫进阶：美拍视频地址加密解析。

短视频js逆向解析

抓取目标
工具使用
重点学习内容
项目思路解析

抓取目标

目标网址：美拍视频

工具使用

开发环境：win10、python3.7
开发工具：pycharm、Chrome
工具包：requests、xpath、base64

重点学习内容

爬虫采集数据的解析过程
js代码调试技巧
js逆向解析代码
Python代码的转换

项目思路解析

进入到网站的首页
挑选你感兴趣的分类
根据首页地址获取到进入详情页面的超链接的跳转地址

找到对应加密的视频播放地址数据

这个数据是静态的网页数据，通过js代码进行解码的
找到对应的解析代码
先找到视频的播放地址
找到解析视频地址的加密js文件
点击播放的时候会触发文件

大致能看出来这个是base64加密之后的数据
在对应的js文件里搜索关键字
找到js的加密方式

js函数的一些函数的用法

    # eplace()方法用于在字符串中用一些字符替换另一些字符# parseInt 数据转换成对应的整型# base64.atob   对base64编码过的字符串进行解码# substring 方法可在字符串中抽取从 start 下标开始的指定数目的字符

将js代码转换成Python代码

import base64def decode(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))

得出最终视频播放地址

简易源码分享

import requests
from lxml import etree
import base64def decode_mp4(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))
# 运行主函数
def main():url = 'https://www.meipai.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',}response = requests.get(url=url, headers=headers)html_data = etree.HTML(response.text)href_list = html_data.xpath('//div/a/@href')# print(href_list)for href in href_list:res = requests.get('https://www.meipai.com' + href, headers=headers)html = etree.HTML(res.text)name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]# print(name, mp4_data)mp4_url = decode_mp4(mp4_data).decode('utf-8')print(mp4_url)result = requests.get("http:" + mp4_url)with open(name + ".mp4", 'wb') as f:f.write(result.content)f.close()if __name__ == '__main__':main()

欢迎大家在评论中交流技术，记得一键三连哦，祝大家顺顺利利开开心心！

大家沉迷短视频无法自拔？Python爬虫进阶，带你玩转短视频相关推荐

Python爬虫:爬取知乎上的视频，并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块主要是requests模块,用于得到的网页的数据安装命令为:pip install requests 2 ...
Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
python爬虫：Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
一文看懂Python 爬虫进阶（三）
一文看懂Python 爬虫进阶(三) 文章目录一文看懂Python 爬虫进阶(三) **猫眼电影(xpath)** **链家二手房案例(xpath)** **百度贴吧图片抓取** 这篇几乎都是代 ...
Python爬虫进阶五之多线程的用法
前言我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...
python爬虫进阶-每日一学（字体反爬-移花接木）
目的分析与学习更多的字体反爬套路详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析一.审查二.分析 impor ...
Python 爬虫进阶必备 | 某音乐网站查询参数加密逻辑分析（分离式 webpack 的加密代码扣取详解）...
点击上方"咸鱼学Python",选择"加为星标" 第一时间关注Python技术干货! 今日网站 aHR0cDovL3d3dy5rdXdvLmNuL3NlYXJj ...