大家沉迷短视频无法自拔?Python爬虫进阶,带你玩转短视频
大家好,我是辣条。
现在短视频可谓是一骑绝尘,吃饭的时候、休息的时候、躺在床上都在刷短视频,今天给大家带来python爬虫进阶 :美拍视频地址加密解析。
短视频js逆向解析
- 抓取目标
- 工具使用
- 重点学习内容
- 项目思路解析
抓取目标
目标网址:美拍视频
工具使用
开发环境:win10、python3.7
开发工具:pycharm、Chrome
工具包:requests、xpath、base64
重点学习内容
爬虫采集数据的解析过程
js代码调试技巧
js逆向解析代码
Python代码的转换
项目思路解析
进入到网站的首页
挑选你感兴趣的分类
根据首页地址获取到进入详情页面的超链接的跳转地址
找到对应加密的视频播放地址数据
这个数据是静态的网页数据,通过js代码进行解码的
找到对应的解析代码
先找到视频的播放地址
找到解析视频地址的加密js文件
点击播放的时候会触发文件
大致能看出来这个是base64加密之后的数据
在对应的js文件里搜索关键字
找到js的加密方式
js函数的一些函数的用法
# eplace()方法用于在字符串中用一些字符替换另一些字符# parseInt 数据转换成对应的整型# base64.atob 对base64编码过的字符串进行解码# substring 方法可在字符串中抽取从 start 下标开始的指定数目的字符
将js代码转换成Python代码
import base64def decode(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))
得出最终视频播放地址
简易源码分享
import requests
from lxml import etree
import base64def decode_mp4(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))
# 运行主函数
def main():url = 'https://www.meipai.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',}response = requests.get(url=url, headers=headers)html_data = etree.HTML(response.text)href_list = html_data.xpath('//div/a/@href')# print(href_list)for href in href_list:res = requests.get('https://www.meipai.com' + href, headers=headers)html = etree.HTML(res.text)name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]# print(name, mp4_data)mp4_url = decode_mp4(mp4_data).decode('utf-8')print(mp4_url)result = requests.get("http:" + mp4_url)with open(name + ".mp4", 'wb') as f:f.write(result.content)f.close()if __name__ == '__main__':main()
欢迎大家在评论中交流技术,记得一键三连哦,祝大家顺顺利利开开心心!
大家沉迷短视频无法自拔?Python爬虫进阶,带你玩转短视频相关推荐
- Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...
- Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
- python爬虫:Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
- python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
- 一文看懂Python 爬虫 进阶(三)
一文看懂Python 爬虫 进阶(三) 文章目录 一文看懂Python 爬虫 进阶(三) **猫眼电影(xpath)** **链家二手房案例(xpath)** **百度贴吧图片抓取** 这篇几乎都是代 ...
- Python爬虫进阶五之多线程的用法
前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
- Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...
- python爬虫进阶-每日一学(字体反爬-移花接木)
目的 分析与学习更多的字体反爬套路 详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析 一.审查 二.分析 impor ...
- Python 爬虫进阶必备 | 某音乐网站查询参数加密逻辑分析(分离式 webpack 的加密代码扣取详解)...
点击上方"咸鱼学Python",选择"加为星标" 第一时间关注Python技术干货! 今日网站 aHR0cDovL3d3dy5rdXdvLmNuL3NlYXJj ...
最新文章
- 怎么看懂别人写的单片机项目代码?
- python二十三:装饰器 ?
- 【黑科技】在alv中设置字体样式
- python(numpy,pandas5)——numpy中copy 和 deep copy
- VTK:Filtering之VertexGlyphFilter
- 利用 Flash 远程检测客户端安装的杀软
- linux内核研究(二)
- Android平台RTMP推送端实现外部数据对接推送和录像
- 修改ssh端口centos7
- android bugly 符号表,bugly cocos 接入和 符号表使用
- Static allocator 3
- eclipse中文语言包 离线安装
- vmstat命令参数及其介绍
- USSD设置呼叫转移功能
- delphi10 ftp文件名乱码问题
- 人机融合智能时代的人心思考
- 玉米可流转数字仓单标准的落地 将加速行业的资产数字化进程
- 百度ueditor上传图片时如何设置默认宽高度
- 生死看淡,不服就干。SQL常见的一些优化。
- 轻松Git与Github入门
热门文章
- 【高级】思科设备实现城域网ISIS+BGP+MPLS ***多域互通实战
- offload error: cannot find offload entry解决办法
- TypeScript `unknown` 类型
- Codeforces Round #552 (Div. 3) Editorial 1154C - Gourmet Cat
- java中随机生成汉字
- 关于配置tomcat多版本同eclipse的配置问题
- 解决oracle11g连接失败 ORA-01034: ORACLE not available ORA-27101: shared memory realm does not exist
- Genymotion安装那些事
- cin.get()和cin.getline()区别
- SpringBoot2.0应用(五):SpringBoot2.0整合MyBatis