大家好,我是辣条。

现在短视频可谓是一骑绝尘,吃饭的时候、休息的时候、躺在床上都在刷短视频,今天给大家带来python爬虫进阶 :美拍视频地址加密解析。

短视频js逆向解析

  • 抓取目标
  • 工具使用
  • 重点学习内容
  • 项目思路解析

抓取目标

目标网址:美拍视频

工具使用

开发环境:win10、python3.7
开发工具:pycharm、Chrome
工具包:requests、xpath、base64

重点学习内容

爬虫采集数据的解析过程
js代码调试技巧
js逆向解析代码
Python代码的转换

项目思路解析

进入到网站的首页
挑选你感兴趣的分类
根据首页地址获取到进入详情页面的超链接的跳转地址

找到对应加密的视频播放地址数据

这个数据是静态的网页数据,通过js代码进行解码的
找到对应的解析代码
先找到视频的播放地址
找到解析视频地址的加密js文件
点击播放的时候会触发文件

大致能看出来这个是base64加密之后的数据
在对应的js文件里搜索关键字
找到js的加密方式

js函数的一些函数的用法

    # eplace()方法用于在字符串中用一些字符替换另一些字符# parseInt 数据转换成对应的整型# base64.atob   对base64编码过的字符串进行解码# substring 方法可在字符串中抽取从 start 下标开始的指定数目的字符


将js代码转换成Python代码

import base64def decode(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))

得出最终视频播放地址

简易源码分享

import requests
from lxml import etree
import base64def decode_mp4(data):def getHex(a):return {'str': a[4:],'hex': ''.join(list(a[:4])[::-1]),}def getDec(a):b = str(int(a, 16))return {'pre': list(b[:2]),'tail': list(b[2:]),}def substr(a, b):c = a[0: int(b[0])]d = a[int(b[0]): int(b[0]) + int(b[1])]return c + a[int(b[0]):].replace(d, "")def getPos(a, b):b[0] = len(a) - int(b[0]) - int(b[1])return bb = getHex(data)c = getDec(b['hex'])d = substr(b['str'], c['pre'])return base64.b64decode(substr(d, getPos(d, c['tail'])))
# 运行主函数
def main():url = 'https://www.meipai.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',}response = requests.get(url=url, headers=headers)html_data = etree.HTML(response.text)href_list = html_data.xpath('//div/a/@href')# print(href_list)for href in href_list:res = requests.get('https://www.meipai.com' + href, headers=headers)html = etree.HTML(res.text)name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]# print(name, mp4_data)mp4_url = decode_mp4(mp4_data).decode('utf-8')print(mp4_url)result = requests.get("http:" + mp4_url)with open(name + ".mp4", 'wb') as f:f.write(result.content)f.close()if __name__ == '__main__':main()

欢迎大家在评论中交流技术,记得一键三连哦,祝大家顺顺利利开开心心!

大家沉迷短视频无法自拔?Python爬虫进阶,带你玩转短视频相关推荐

  1. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  2. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  3. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  4. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  5. 一文看懂Python 爬虫 进阶(三)

    一文看懂Python 爬虫 进阶(三) 文章目录 一文看懂Python 爬虫 进阶(三) **猫眼电影(xpath)** **链家二手房案例(xpath)** **百度贴吧图片抓取** 这篇几乎都是代 ...

  6. Python爬虫进阶五之多线程的用法

    前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...

  7. Python爬虫进阶——urllib模块使用案例【淘宝】

    Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...

  8. python爬虫进阶-每日一学(字体反爬-移花接木)

    目的 分析与学习更多的字体反爬套路 详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析 一.审查 二.分析 impor ...

  9. Python 爬虫进阶必备 | 某音乐网站查询参数加密逻辑分析(分离式 webpack 的加密代码扣取详解)...

    点击上方"咸鱼学Python",选择"加为星标" 第一时间关注Python技术干货! 今日网站 aHR0cDovL3d3dy5rdXdvLmNuL3NlYXJj ...

最新文章

  1. 怎么看懂别人写的单片机项目代码?
  2. python二十三:装饰器 ?
  3. 【黑科技】在alv中设置字体样式
  4. python(numpy,pandas5)——numpy中copy 和 deep copy
  5. VTK:Filtering之VertexGlyphFilter
  6. 利用 Flash 远程检测客户端安装的杀软
  7. linux内核研究(二)
  8. Android平台RTMP推送端实现外部数据对接推送和录像
  9. 修改ssh端口centos7
  10. android bugly 符号表,bugly cocos 接入和 符号表使用
  11. Static allocator 3
  12. eclipse中文语言包 离线安装
  13. vmstat命令参数及其介绍
  14. USSD设置呼叫转移功能
  15. delphi10 ftp文件名乱码问题
  16. 人机融合智能时代的人心思考
  17. 玉米可流转数字仓单标准的落地 将加速行业的资产数字化进程
  18. 百度ueditor上传图片时如何设置默认宽高度
  19. 生死看淡,不服就干。SQL常见的一些优化。
  20. 轻松Git与Github入门

热门文章

  1. 【高级】思科设备实现城域网ISIS+BGP+MPLS ***多域互通实战
  2. offload error: cannot find offload entry解决办法
  3. TypeScript `unknown` 类型
  4. Codeforces Round #552 (Div. 3) Editorial 1154C - Gourmet Cat
  5. java中随机生成汉字
  6. 关于配置tomcat多版本同eclipse的配置问题
  7. 解决oracle11g连接失败 ORA-01034: ORACLE not available ORA-27101: shared memory realm does not exist
  8. Genymotion安装那些事
  9. cin.get()和cin.getline()区别
  10. SpringBoot2.0应用(五):SpringBoot2.0整合MyBatis