python3 scrapy抓取今日头条视频(西瓜视频)

发布时间:2018-07-21 16:07,

浏览次数:979

, 标签:

python

scrapy

<>使用环境:

* python3

* scrapy

* win10

<>爬取步骤

(1)从用户视频列表页开始

(2)使用ajax对接接口

(3)获取今日头条视频真实地址(西瓜视频真实地址)

备注:

这里的今日头条视频链接是直接跳转到365阳光宽频网的

https://www.365yg.com/

(1)我们要做的目标就是从把某个作者下的视频全部爬取下来。

(2)列表页下滑,获取xhr json数据

(3)xhr json获取规则: max_behot_time 参数的获取

列表的json数据参数只靠一个uid和max_behot_time进行拼接,得到下次请求数据内容,

(4)到这,列表页面的数据内容我们就获取到了。

(5)获取详情页的数据内容(视频播放页)

(6)source_url:

http://toutiao.com/item/6580318835541279236/

视频会重定向到:

http://www.365yg.com/i6580318835541279236/#mid=98676707813

(7)详情页解析:

这里详情页的信息是进行动态加载出来的,包括各种html标签,在查看网页源代码的时候都是这些

唯一有用的一个参数也就只有videoId这个东西了。

(8)右键审查元素

这个video标签下的url链接并不是我们所要取出来的,因为它返回的是404页面

真实的视频地址应该是这样子的:

http://v11-tt.ixigua.com/8a683ae4cba879e11cb4d6f0b43a7619/5b52f568/video/m/220af88614f73ce4742877a807bbbc0d0fb1159603c00008d84075740fd/

上面这个地址也是西瓜视频的永久地址,并不存在视频根据时间过期的时间。

因为使用的是scrapy-redis框架,加上ip代理池,加上延时1秒,并发量在1秒10次请求左右(限于ip1秒最大只能取10次),数据爬了一天,现在为14万左右

单条信息数据:

'videos': [{'cut_url':

'http://p1.pstatp.com/list/190x124/31b9000116e2ab5c8840', 'duration': '',

'size': '', 'title': '世界这么美好,你为什么要去得罪老虎!为什么为什么为什么!', 'url':

'http://v3-tt.ixigua.com/85a193eb73049b91d90c871805557408/5b52f4ec/video/m/2206c559475e53f41849f784a829d58ef67114c4830000113768212918/'}]}

个人网站:http://xudailong.cc

关注「蛇崽网盘教程资源」公众号 ,在微信后台回复「领取资源」,获取IT资源200G干货大全。

更多资源请访问:

超详细图文搭建个人免费博客

关注「蛇崽网盘教程资源」公众号 ,在微信后台回复「领取资源」,获取IT资源200G干货大全。

在微信后台回复「130个小程序」,即可免费领取享有导入就能跑的微信小程序

python爬app西瓜视频_python3 scrapy抓取今日头条视频(西瓜视频)相关推荐

  1. python3 scrapy抓取今日头条视频(西瓜视频)

    使用环境: python3 scrapy win10 爬取步骤 (1)从用户视频列表页开始 (2)使用ajax对接接口 (3)获取今日头条视频真实地址(西瓜视频真实地址) 备注: 这里的今日头条视频链 ...

  2. (廿五)Python爬虫:抓取今日头条图片

    此次完成抓取今日头条动漫图片,并将图片保存在本地.最后结果如下: 分析 打开今日头条首页搜索"动漫",查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的.打 ...

  3. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  4. 使用javascript在各大视频网站一键抓取无水印m3u8格式视频并将视频下载成mp4格式(以Google抓取腾讯视频为例)

    两三天没有更新博客了,最近博主有点夏乏(其实是懒),今日在划水的时候无意中学到了使用javascrpit抓取m3u8格式视频的小技巧,因此进行延伸并作此博客进行记录.接下来,我将使用javascrip ...

  5. 抓取今日头条的个人收藏夹目录

    在今日头条收藏了很多视频,文章什么的,通过头条的界面查看相当不方便,由于产生了要保存到本地的想法. 由是用python写了一个爬虫,可以抓取个人的今日头条的收藏夹内的内容到本地,并保存为excel文件 ...

  6. [Python爬虫] 之二十七:Selenium +phantomjs 利用 pyquery抓取今日头条视频

    一.介绍 本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视 二 ...

  7. python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件

    版权声明:本文为xing_star原创文章,转载请注明出处! 背景: 这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了.一天不看,就有500+的内容显示未读,弄的自己格外的焦虑.感 ...

  8. 今日头条python_GitHub - a57571735/headlines_today: 基于Python的爬取今日头条文章及视频...

    分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...

  9. python爬虫爬今日头条_GitHub - striver-ing/headlines_today: 基于Python的爬取今日头条文章及视频...

    分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章. 有视频的文章json内容里均有video_id这个key,如下图所示: 没有视频的文章:json文件内容均包含t ...

  10. python爬今日头条组图_python 爬虫抓取今日头条街拍图片

    1. 打开google浏览器,输入www.toutiao.com, 搜索街拍.html 2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,能够看到preview里面的da ...

最新文章

  1. [PHPUnit]自动生成PHPUnit测试骨架脚本-提供您的开发效率【2015升级版】
  2. Python的f-strings格式化
  3. leangoo敏捷工具卡片关联上线
  4. mysql注入 outfile_Mysql注入中的outfile、dumpfile、load_file函数详解
  5. 并发编程(三)原子操作CAS
  6. C++ Primer 5th笔记(chap 19 特殊工具与技术)控制内存分配
  7. python3.6.6有多少关键字_python中的关键字---6(os/sys模块)
  8. RocketMQ的发展历史
  9. C语言 malloc动态申请内存,存放数组
  10. http 错误 404.0 - not found_电脑Regsvr32 用法和错误消息的说明
  11. (转)hibernate-5.0.7+struts-2.3.24+spring-4.2.4三大框架整合
  12. Thymeleaf学习总结(1)——新一代Java模板引擎Thymeleaf
  13. 玩转动态编译 - 高级篇:三,实例属性的读取与设置
  14. Clojure 学习入门(17)- 异常处理
  15. vue差(插)值表达式
  16. 织梦采集侠教程设置免费版本
  17. 使用casewhen来判断执行不同的sql
  18. ACM International Collegiate Programming Contest, Egyptian Collegiate Programming Contest (ECPC 2015
  19. 【论文分享】ARBITRAR: User-Guided API Misuse Detection
  20. python把PDF转换成图片

热门文章

  1. 拒绝iap cracker
  2. 中南大学2021计算机专硕复试分数线,中南大学2021年考研复试分数线
  3. MATLAB读取EXCEL表格文件,并进行可视化
  4. 一台电脑两个macOS系统,怎么装
  5. 我有一个梦,叫“禾下乘凉梦“!
  6. Unable to start embedded Tomcat 解决方式(已解决)
  7. python清除所有变量_python清理变量
  8. 想学习高速ADC/DAC/SDR项目这个项目你不得不理解
  9. linux文件误删恢复debugfs和extundelete
  10. S3(Simple Storage Service) 对象存储 详细介绍