目标:爬取网站在线播放的视频

分析:

1.网站:天一影视 视频:天地争霸美猴王第一集

2.request请求
:'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000001.ts------>'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000664.ts
可以看出只有最后不同:视频流从001.ts–>664.ts

3.将上述地址在浏览器敲入后得到下载信息,考虑使用scrapy的内置文件下载pipline

4.将所有ts文件下载后使用winrar合并为一个MP4文件

scrapy内置文件和图片下载使用:
1.定义item,然后定义两个属性(下载图片设置:image_urls以及images),(下载文件设置:file_urls以及files),其中image_urls和file_urls是要下载的列表

2.当下载完成后,会把下载的相关信息存储到images或files中,包括下载路径、url、校验码等

3.配置文件settings(下载图片配置:IMAGES_STORE),(下载文件配置:FILES_STORE),这个配置保存存储的路径如:

4 启用pipline: setting中启用
(图片设置:scrapy.pipelines.images.ImagesPipline:1),
(文件设置:scrapy.pipelines.images.FilesPipline:1)


5.spider中item这样创建

6.运行结果

可以看出ts文件保存在full文件夹中,这是默认保存在full文件,而且ts文件名称也是自动生成的,后面我们可以自己更改。

7.更改文件名称,和存储的文件夹
要更改我们就不能用系统默认pipline要自己写一个然后继承


原本filepipline有一个file_path方法,返回的是文件的存储路径,我们更改下该方法返回值在返回就可以了,有兴趣可以看下源码
8.到这里记得将默认pipline更改为我们的pipline


9.运行结果

可以看出文件名字和文件夹都改变了

文件的合并
建议使用winrar合并,使用winrar合并需要几秒钟,使用视频合并软件如:魔影工厂需要数分钟。
winrar使用:
1.打开winrar:选中文件

2.点击添加,记得选中压缩方式为存储,不然播放不了,然后更改文件名称后缀为mp4

总结
时间:文件大小大概300MB左右,爬虫运行时间一分钟左右,ts文件合并几秒钟,总体来说:效率还是很高的

scrapy爬取网站在线播放TS视频流片段并整合为MP4格式相关推荐

  1. scrapy 解析css,Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段...

    上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息 通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...

  2. Scrapy爬取伯乐在线所有文章

    Scrapy爬取伯乐在线所有文章 1.目标分析 2.Spiders的编写 2.1.网站结构分析 2.2.获取当页文章URL 2.3.获取文章的信息 2.4.文章列表下一页 2.4.编写spiders. ...

  3. Scrapy爬取伯乐在线的所有文章

    本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境 用mkvirtualen ...

  4. scrapy | 爬取伯乐在线全部博文(xpath/css/itemload三种提取方法,同步、异步方式存入MySQL)

    1.目标 伯乐在线网站地址:http://blog.jobbole.com/all-posts/ 爬取伯乐在线的所有文章信息,包括图片网址,标题,发表日期,标签,点赞数,评论数等 将爬取的数据保存至数 ...

  5. scrapy爬取网站古诗并保存

    前言: 学了scrapy想练习一下成果,于是有了下面的爬取网站的所有古诗的代码 目录结构: 创建项目: scrapy startproject mySpider main.py from scrapy ...

  6. 利用Scrapy爬取伯乐在线文章并存取到mysql数据库

    1.观察网址直接从(http://blog.jobbole.com/all-posts/)入手爬取伯乐在线所有文章,常规cmd创建项目 2.spider中采取xpath和css选择器提取语法,提取出想 ...

  7. 毕设总结1:使用python scrapy 爬取 伯乐在线文章

    伯乐在线爬取教程 写在前面 scrapy架构 爬取过程 Spider 爬取思路 Item pipelines Main 写在前面 伯乐在线 好像已经不能访问了,但爬虫的思路还是一样的. scrapy架 ...

  8. python爬取内容为空怎么剔除_用scrapy爬取网站内容时,如何忽略某些内容为空的值;...

    我爬取京东上所有手机信息时会碰到如下问题: 1.返回值过多,如下图片所示: 2.spider代码如下: -- coding: utf-8 -- import scrapy from scrapy.ht ...

  9. 使用scrapy爬取伯乐在线多线程存为MySQL数据库

    在spider文件中的程序为 import scrapy from ..items import BolespiderItemclass BoleSpider(scrapy.Spider):name ...

最新文章

  1. 7-29 修理牧场 (25 分)
  2. 现代密码学8.1--密码学所涉及的数论和群论
  3. python画画零基础_[零基础学python]画圈还不简单吗?
  4. opencv学习笔记2:图像处理基础
  5. python中内置的集成开发工具_python应用(3):启用集成开发工具pycharm
  6. Android自定义实现FlowLayout
  7. 农村大学生的出路或许是读个真才实学的博士
  8. CentOS 7.x 默认防火墙 yum install firewalld
  9. Python数据分析-TMDb 5000 Movie Database电影数据分析
  10. java setproperty 未生效_Java System类setProperty()方法及示例
  11. 快捷键你到底知道多少(Pr篇)
  12. VB 获取文件名后缀
  13. 从继承和组合理解面向对象,并从面向对象与继承的意义理解白马非马问题
  14. 生活小技巧 | win10开热点给手机使用
  15. 【肖四出了】考研政治肖秀荣预测四套卷已出!
  16. Win7/8.1免费升级Win10-三种秘钥
  17. html消除行间距,HTML:如何从PRE标记中删除行间距
  18. 安卓系统层开发之C++
  19. 数学里的 e 为什么叫做自然底数?
  20. 神秘“鬼影”病毒袭击xp系统 重装也无法清除

热门文章

  1. 小实验----Cobbler自动化部署装机
  2. 四元数矩阵向量积 matlab
  3. Win7安装VisualC++6.0全程图解
  4. Hbuildx创建vue3项目
  5. 南加利福尼亚大学计算机博士,斑马博士|南加州大学(USC) MSc Electronic Engineering (Computer Network)...
  6. OSChina 周二乱弹 —— 金 冈刂 犭良
  7. wireshark抓图
  8. 文秘专业计算机基础考题,文秘计算机测试题.doc
  9. LVS部署准备工作-DRBD的部署
  10. 专访许长敬:移动互联网将进入电子商务阶段