python爬app西瓜视频_python3 scrapy抓取今日头条视频(西瓜视频)
python3 scrapy抓取今日头条视频(西瓜视频)
发布时间:2018-07-21 16:07,
浏览次数:979
, 标签:
python
scrapy
<>使用环境:
* python3
* scrapy
* win10
<>爬取步骤
(1)从用户视频列表页开始
(2)使用ajax对接接口
(3)获取今日头条视频真实地址(西瓜视频真实地址)
备注:
这里的今日头条视频链接是直接跳转到365阳光宽频网的
https://www.365yg.com/
(1)我们要做的目标就是从把某个作者下的视频全部爬取下来。
(2)列表页下滑,获取xhr json数据
(3)xhr json获取规则: max_behot_time 参数的获取
列表的json数据参数只靠一个uid和max_behot_time进行拼接,得到下次请求数据内容,
(4)到这,列表页面的数据内容我们就获取到了。
(5)获取详情页的数据内容(视频播放页)
(6)source_url:
http://toutiao.com/item/6580318835541279236/
视频会重定向到:
http://www.365yg.com/i6580318835541279236/#mid=98676707813
(7)详情页解析:
这里详情页的信息是进行动态加载出来的,包括各种html标签,在查看网页源代码的时候都是这些
唯一有用的一个参数也就只有videoId这个东西了。
(8)右键审查元素
这个video标签下的url链接并不是我们所要取出来的,因为它返回的是404页面
真实的视频地址应该是这样子的:
http://v11-tt.ixigua.com/8a683ae4cba879e11cb4d6f0b43a7619/5b52f568/video/m/220af88614f73ce4742877a807bbbc0d0fb1159603c00008d84075740fd/
上面这个地址也是西瓜视频的永久地址,并不存在视频根据时间过期的时间。
因为使用的是scrapy-redis框架,加上ip代理池,加上延时1秒,并发量在1秒10次请求左右(限于ip1秒最大只能取10次),数据爬了一天,现在为14万左右
单条信息数据:
'videos': [{'cut_url':
'http://p1.pstatp.com/list/190x124/31b9000116e2ab5c8840', 'duration': '',
'size': '', 'title': '世界这么美好,你为什么要去得罪老虎!为什么为什么为什么!', 'url':
'http://v3-tt.ixigua.com/85a193eb73049b91d90c871805557408/5b52f4ec/video/m/2206c559475e53f41849f784a829d58ef67114c4830000113768212918/'}]}
个人网站:http://xudailong.cc
关注「蛇崽网盘教程资源」公众号 ,在微信后台回复「领取资源」,获取IT资源200G干货大全。
更多资源请访问:
超详细图文搭建个人免费博客
关注「蛇崽网盘教程资源」公众号 ,在微信后台回复「领取资源」,获取IT资源200G干货大全。
在微信后台回复「130个小程序」,即可免费领取享有导入就能跑的微信小程序
python爬app西瓜视频_python3 scrapy抓取今日头条视频(西瓜视频)相关推荐
- python3 scrapy抓取今日头条视频(西瓜视频)
使用环境: python3 scrapy win10 爬取步骤 (1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址) 备注: 这里的今日头条视频链 ...
- (廿五)Python爬虫:抓取今日头条图片
此次完成抓取今日头条动漫图片,并将图片保存在本地.最后结果如下: 分析 打开今日头条首页搜索"动漫",查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的.打 ...
- 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集
今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...
- 使用javascript在各大视频网站一键抓取无水印m3u8格式视频并将视频下载成mp4格式(以Google抓取腾讯视频为例)
两三天没有更新博客了,最近博主有点夏乏(其实是懒),今日在划水的时候无意中学到了使用javascrpit抓取m3u8格式视频的小技巧,因此进行延伸并作此博客进行记录.接下来,我将使用javascrip ...
- 抓取今日头条的个人收藏夹目录
在今日头条收藏了很多视频,文章什么的,通过头条的界面查看相当不方便,由于产生了要保存到本地的想法. 由是用python写了一个爬虫,可以抓取个人的今日头条的收藏夹内的内容到本地,并保存为excel文件 ...
- [Python爬虫] 之二十七:Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍 本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视 二 ...
- python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件
版权声明:本文为xing_star原创文章,转载请注明出处! 背景: 这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了.一天不看,就有500+的内容显示未读,弄的自己格外的焦虑.感 ...
- 今日头条python_GitHub - a57571735/headlines_today: 基于Python的爬取今日头条文章及视频...
分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...
- python爬虫爬今日头条_GitHub - striver-ing/headlines_today: 基于Python的爬取今日头条文章及视频...
分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...
- python爬今日头条组图_python 爬虫抓取今日头条街拍图片
1. 打开google浏览器,输入www.toutiao.com, 搜索街拍.html 2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,能够看到preview里面的da ...
最新文章
- [PHPUnit]自动生成PHPUnit测试骨架脚本-提供您的开发效率【2015升级版】
- Python的f-strings格式化
- leangoo敏捷工具卡片关联上线
- mysql注入 outfile_Mysql注入中的outfile、dumpfile、load_file函数详解
- 并发编程(三)原子操作CAS
- C++ Primer 5th笔记(chap 19 特殊工具与技术)控制内存分配
- python3.6.6有多少关键字_python中的关键字---6(os/sys模块)
- RocketMQ的发展历史
- C语言 malloc动态申请内存,存放数组
- http 错误 404.0 - not found_电脑Regsvr32 用法和错误消息的说明
- (转)hibernate-5.0.7+struts-2.3.24+spring-4.2.4三大框架整合
- Thymeleaf学习总结(1)——新一代Java模板引擎Thymeleaf
- 玩转动态编译 - 高级篇:三,实例属性的读取与设置
- Clojure 学习入门(17)- 异常处理
- vue差(插)值表达式
- 织梦采集侠教程设置免费版本
- 使用casewhen来判断执行不同的sql
- ACM International Collegiate Programming Contest, Egyptian Collegiate Programming Contest (ECPC 2015
- 【论文分享】ARBITRAR: User-Guided API Misuse Detection
- python把PDF转换成图片
热门文章
- 拒绝iap cracker
- 中南大学2021计算机专硕复试分数线,中南大学2021年考研复试分数线
- MATLAB读取EXCEL表格文件,并进行可视化
- 一台电脑两个macOS系统,怎么装
- 我有一个梦,叫“禾下乘凉梦“!
- Unable to start embedded Tomcat 解决方式(已解决)
- python清除所有变量_python清理变量
- 想学习高速ADC/DAC/SDR项目这个项目你不得不理解
- linux文件误删恢复debugfs和extundelete
- S3(Simple Storage Service) 对象存储 详细介绍