爬虫技巧-西瓜视频MP4地址获取
记录一下西瓜视频MP4地址的获取步骤
目标:
指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频MP4文件的下载地址
以下使用chrome浏览器
开始分析:
首先在浏览器中打开视频页面,打开审查元素(右键-> 审查元素 或 F12)并刷新页面,查看network选项中抓到的包
技巧1:
由于我们获取的是视频文件的下载地址,而视频文件一般比较大,所以可以在network的包列表中使用 Size 排序一下 查看最大的几个包
如图:
这里我们很容易就能确定视频文件的地址
http://v11-tt.ixigua.com/5cc4c0ae0f7d6f87014dc0f0058157e0/5bcc7300/video/m/220f87599d445a14a53803fd01d86816e971157c7a70000cab5121742cc/
(你得到的地址和我得到的可能不一样,不过url路径中的最后一串字符串应该是一样的)
下面我们就要寻找这个地址是从哪里获取的,一般做法就是截取url中比较有代表的部分(这个看经验,你应该懂的)来搜索,搜索可以使用chrome审查元素的Search功能
这个搜索会查找network栏中所有包的响应内容,如果搜到的话,我们就可以确定视频文件地址的来源。
为什么这么做呢?
按照正常的想法,首先这个视频文件的获取请求是浏览器发起的,那么浏览器肯定在发起前就得到了视频文件的地址,那么地址存在什么地方呢?一般来说,不外乎直接写
在网页源代码中或者使用一个ajax请求之类的获取一下视频地址,所以这个地址肯定存在于我们目前所能看到的network列表中的包之中。
BUT,在这个例子中,搜索结果为空。尝试各种截取方法 比如 220f87599d445a14a53803fd01d86816e971157c7a70000cab5121742cc、5cc4c0ae0f7d6f87014dc0f0058157e0、v11-tt.ixigua.com
都搜索不到。
好吧,既然搜不到,那我们就用暴力一点的办法,好在这个网页的network包列表并不多,我们就一个一个找就好了,找的过程一般可以忽略css、图片、多媒体等文件,
优先查看json格式的文件
下面人工查看中。。。
查看一遍之后呢,我发现了一个可疑的链接
https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333&aid=1190&callback=axiosJsonpCallback1&_=1540123000124
首先,url就很可疑,里面包含各种敏感关键词,如 mp4、urls等
其次,内容可疑:
video_list都出来了,不是它还能是谁呢?但是,定睛一看,这个内容里面的url格式不大对,一看就像是加密过后的,怪不得搜不到呢
下面就是想办法找到解密方法,来验证一下,这里看到的是不是我们想要的视频地址了
先捋一下思路,我们找到的这些数据是浏览器请求回来的,既然请求这些数据,肯定会有用到的地方,下面我们就来找一下这些数据在哪里被使用了,怎么找呢,还是搜索,拿这些数据中的变量名来搜
这些数据中可疑变量有两个:backup_url_1、main_url,第一个一看就是备用的,所以我们拿第二个搜吧
搜索结果如图:
下面在这些包中定位main_url所在的代码,很幸运,第一个就是我们想要的(tt-video.js)
如图:
从代码中我们可以看到,main_url使用了base64decode来进行解密,下面使用代码验证(这个请自行验证)一下,果然得到了我们想要的视频地址
此时,我们已经有了从这个包中获取视频地址的方法了,那么下个问题是,这个包的地址是如何生成的?
首先分析一下这个包的url的组成:
https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333&aid=1190&callback=axiosJsonpCallback1&_=1540123000124
首先去掉无关紧要的参数,方法很简单,直接在浏览器中打开这个url,然后尝试删减参数,不断测试就可以了,删减后的url如下
https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333
然后发现,其中有三个东西不知道哪里来的,下面继续使用我们的搜索工具来寻找,一个一个来。
(注意:跟随文章一步一步走的时候可能看到的参数和我这里写的参数不一样,请按照实际的来搜索)
先是 v02004bd0000bc9po7aj2boojm5cta5g,搜索结果如下:
原来这个参数是视频的videoId,直接在网页源码中,好,第一个搞定
下面看第二个参数 048136401358795045 搜不到
下面看第三个参数 3128215333 搜不到
后面两个参数都搜不到,可能是实时生成的或者加密了,所以换个思路,用 url的前半部分的关键词去搜 https://ib.365yg.com/video/urls/v/1/toutiao/mp4, 看那里用到了这个
关于关键词 当然是越长越准确,所以我选取的搜索词是 video/urls/v/1/toutiao/mp4 搜索结果如下:
这里只能一个一个点开看源码了。。。
看源码的时候注意点有以下几个:
1、查看上下文,看所在函数作用 所在文件作用
2、思考我们搜索的东西是什么,比如本例中搜索的是一个视频资源的url,那么肯定要特别关注和视频相关的关键词,函数名之类的东西
哈哈,幸运的是,在第一个文件(tt-video.js)中我就找到了很可疑的代码
这里面全是video相关的,更可疑的是这个 getVideosJson函数名,然后我发现有个crc32函数用到了目标url,那下面就看一下crc32函数在哪里定义的
(PS:标准crc32是一个公开算法,用于生成一段数据的校验码,不过一般这些反爬虫的前端工程师们都会自己实现一下,所以还是以JS代码为准)
通过搜索crc32关键词,可以定位到如下代码:
重点看图中的标红区域,苦寻不见的 r 和 s 参数在这里出现了,这说明我们的思路应该是正确的,然后发现r的值是随机生成的,这个好办,我们待会也随机生成一个就行,最好完全按照JS代码来模拟。
但是 s 的值好像略微复杂一下,嗯,下面就是考验你脑力的时刻了。
s的值是由函数o生成的,但是o的代码很复杂,这个怎么办呢?
第一种办法:
硬上呗,把JS代码的算法完全模拟了,使用别的语言尝试计算,或者使用js引擎比如pyv8, nodejs等来执行都可以
第二种办法:
怎么说呢,换位思考一下,如果你是写这段代码的前端工程师,你会怎么做,难道你会去从零开始实现一个校验算法???(当然不可否认,确实有某些情况下,算法是自创的)既然这个函数是
crc32这样的公开算法,每种语言基本都有实现的标准库,所以直接调用标准库测试一下就可以了,如果加密结果一致,皆大欢喜,不一致,请参考第一种方法。
ok,到目前为止,分析已经完成了,下面就是写代码的时刻了。代码如下:
代码在哪里?
你难道还真想要代码?自己动手,丰衣足食!!
爬虫技巧-西瓜视频MP4地址获取相关推荐
- Python爬虫技巧-西瓜视频MP4地址获取
记录一下西瓜视频MP4地址的获取步骤 目标: 指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频M ...
- 【Python】爬虫进阶---西瓜视频地址获取
最近最学习爬虫,今天我们来看下如何爬取西瓜视频的地址. 本文阅读指导,爬虫基于chrome浏览器F12开发工具进行的,需要知道关于chrome浏览器F12基础的功能,不了解的童鞋请移步:[Python ...
- python爬app西瓜视频_Python爬虫下载西瓜视频
Python爬虫下载西瓜视频 1.简介 由于西瓜视频免费,全站视频都可以下载,需要指定详情的视频链接,默认720P,电影内存1G多 2.Python 清单文件 requests==2.21.0 lxm ...
- 视频URL地址获取神器:疯狂URL 视频及直播源地址获取
关于wireshark的介绍我就不罗嗦了,非常牛也是使用频率超高的网络资源捕获工具,基本上通过网卡的数据包都能获取到. 今天我们主要介绍一款新的软件:疯狂URL,通过我个人测试发现,它可以很方便的捕获 ...
- Python爬虫:给我一个链接,西瓜视频随便下载
1.实现原理 首先,我们需要来到西瓜视频的官网,链接为:西瓜视频,随便点击其中一个视频进入,点击电脑键盘的F12来到开发者模式,按ctrl+F进行搜索,输入video,如下: 我们可以发现,这里有一个 ...
- python3 scrapy抓取今日头条视频(西瓜视频)
使用环境: python3 scrapy win10 爬取步骤 (1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址) 备注: 这里的今日头条视频链 ...
- 超清西瓜视频真实视频地址获取方法
超清西瓜视频真实视频地址获取方法 1.打开浏览器,进入视频播放页面 2.按F12打开浏览器调试工具栏,在Console里粘贴以下代码(记得按回车) window.atob(window._SSR_HY ...
- 动态获取爱奇艺上传视频mp4格式url地址
有时候,在工作中有些客户需要用到视频,我们大家都知道视频是非常的耗费流量的,因此,如果因为项目要求客户单独买台视频服务器是非常划不来的.那么将视频上传到优酷,爱奇艺等视频网站来托管那是一件很好的解决方 ...
- 爬虫系列学习之爬取西瓜视频
前段时间面试题目中居然出现了:破解西瓜视频地址,获取可直接下载视频的地址. 使用工具 Python 3.7.0 requests库 re库 base64库 分析过程 确定视频资源下载地址 由于之前没有 ...
最新文章
- iSCSI软件套件 介绍
- 计算机视觉的数据增广技术大盘点!附涨点神器,已开源!
- CSDN博客如何转载(技术贴)
- 学习笔记:文本过滤_____unix 下的通配符
- 两根硬铜线并线接插座_高级电工原来都这样接电线,手法还没见过,我也立马学...
- c语言判断闰年_C语言1博客作业06 - D丶千思
- java httpcomponents_java – 如何使用Apache httpcomponents从NHttpRequ...
- 图形的花样翻转(洛谷P1205题题解,Java语言描述)
- 内连接和等值连接的区别
- java quartz SimpleScheduleBuilder
- Trufun Kant Studio 2008面向VS.NET的开发应用
- incrby redis 最大值_Redis 的 8 大数据类型,写得非常好!
- mysql安装包下载与检核
- 雨林木风工具箱 3.5
- 密码学--认证协议(Authentication Protocol)分类
- SAP 移动类型详解 大全说明
- 如何卸载手机系统自带应用(无需root)?【亲测有用】
- 怎么做硬件产品的需求分析?
- session垃圾回收机制
- 计算机毕业设计android的云南旅游,美食攻略,产品预订app(源码+系统+mysql数据库+Lw文档)
热门文章
- 当前数据中心运维管理工作中存在的问题
- 二分图(染色法+匈牙利法)学习笔记
- android 地球坐标 火星坐标系,IOS开发入门之iOS开发火星坐标系与地球坐标系解析...
- 【NEO NEXT社区】高校区块链技术分享会——上海交通大学
- python 实现126邮箱登录
- 从零学习游戏服务器开发(一) 从一款多人联机实时对战游戏开始
- 随着窗体大小变化改变控件的大小和字体
- 微信分享报错errMsg: “updateAppMessageShareData:fail, the permission value is offline verifying“
- SQL入门-连结(JOIN)
- ARKit 2推出共享体验