python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）

python3 scrapy抓取今日头条视频(西瓜视频)

发布时间：2018-07-21 16:07,

浏览次数：979

, 标签：

python

scrapy

<>使用环境：

* python3

* scrapy

* win10

<>爬取步骤

(1)从用户视频列表页开始

(2)使用ajax对接接口

(3)获取今日头条视频真实地址(西瓜视频真实地址)

备注：

这里的今日头条视频链接是直接跳转到365阳光宽频网的

https://www.365yg.com/

(1)我们要做的目标就是从把某个作者下的视频全部爬取下来。

(2)列表页下滑，获取xhr json数据

(3)xhr json获取规则: max_behot_time 参数的获取

列表的json数据参数只靠一个uid和max_behot_time进行拼接，得到下次请求数据内容，

(4)到这，列表页面的数据内容我们就获取到了。

(5)获取详情页的数据内容(视频播放页)

(6)source_url：

http://toutiao.com/item/6580318835541279236/

视频会重定向到：

http://www.365yg.com/i6580318835541279236/#mid=98676707813

(7)详情页解析：

这里详情页的信息是进行动态加载出来的，包括各种html标签，在查看网页源代码的时候都是这些

唯一有用的一个参数也就只有videoId这个东西了。

(8)右键审查元素

这个video标签下的url链接并不是我们所要取出来的，因为它返回的是404页面

真实的视频地址应该是这样子的：

http://v11-tt.ixigua.com/8a683ae4cba879e11cb4d6f0b43a7619/5b52f568/video/m/220af88614f73ce4742877a807bbbc0d0fb1159603c00008d84075740fd/

上面这个地址也是西瓜视频的永久地址，并不存在视频根据时间过期的时间。

因为使用的是scrapy-redis框架，加上ip代理池，加上延时1秒，并发量在1秒10次请求左右(限于ip1秒最大只能取10次)，数据爬了一天，现在为14万左右

单条信息数据：

'videos': [{'cut_url':

'http://p1.pstatp.com/list/190x124/31b9000116e2ab5c8840', 'duration': '',

'size': '', 'title': '世界这么美好，你为什么要去得罪老虎！为什么为什么为什么！', 'url':

'http://v3-tt.ixigua.com/85a193eb73049b91d90c871805557408/5b52f4ec/video/m/2206c559475e53f41849f784a829d58ef67114c4830000113768212918/'}]}

个人网站：http://xudailong.cc

关注「蛇崽网盘教程资源」公众号，在微信后台回复「领取资源」，获取IT资源200G干货大全。

更多资源请访问：

超详细图文搭建个人免费博客

关注「蛇崽网盘教程资源」公众号，在微信后台回复「领取资源」，获取IT资源200G干货大全。

在微信后台回复「130个小程序」，即可免费领取享有导入就能跑的微信小程序

python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）相关推荐

python3 scrapy抓取今日头条视频（西瓜视频）
使用环境: python3 scrapy win10 爬取步骤 (1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址) 备注: 这里的今日头条视频链 ...
（廿五）Python爬虫：抓取今日头条图片
此次完成抓取今日头条动漫图片,并将图片保存在本地.最后结果如下: 分析打开今日头条首页搜索"动漫",查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的.打 ...
用python爬取今日头条上的图片_Python爬虫：抓取今日头条图集
今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析从 ...
使用javascript在各大视频网站一键抓取无水印m3u8格式视频并将视频下载成mp4格式（以Google抓取腾讯视频为例）
两三天没有更新博客了,最近博主有点夏乏(其实是懒),今日在划水的时候无意中学到了使用javascrpit抓取m3u8格式视频的小技巧,因此进行延伸并作此博客进行记录.接下来,我将使用javascrip ...
抓取今日头条的个人收藏夹目录
在今日头条收藏了很多视频,文章什么的,通过头条的界面查看相当不方便,由于产生了要保存到本地的想法. 由是用python写了一个爬虫,可以抓取个人的今日头条的收藏夹内的内容到本地,并保存为excel文件 ...
[Python爬虫] 之二十七：Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视二 ...
python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件
版权声明:本文为xing_star原创文章,转载请注明出处! 背景: 这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了.一天不看,就有500+的内容显示未读,弄的自己格外的焦虑.感 ...
今日头条python_GitHub - a57571735/headlines_today: 基于Python的爬取今日头条文章及视频...
分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...
python爬虫爬今日头条_GitHub - striver-ing/headlines_today: 基于Python的爬取今日头条文章及视频...
分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...
python爬今日头条组图_python 爬虫抓取今日头条街拍图片
1. 打开google浏览器,输入www.toutiao.com, 搜索街拍.html 2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,能够看到preview里面的da ...

python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）

python爬app西瓜视频_python3 scrapy抓取今日头条视频（西瓜视频）相关推荐

最新文章

热门文章