scrapy爬取网站在线播放TS视频流片段并整合为MP4格式

目标：爬取网站在线播放的视频

分析：

1.网站：天一影视视频：天地争霸美猴王第一集

2.request请求
：'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000001.ts------>'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000664.ts
可以看出只有最后不同：视频流从001.ts–>664.ts

3.将上述地址在浏览器敲入后得到下载信息，考虑使用scrapy的内置文件下载pipline

4.将所有ts文件下载后使用winrar合并为一个MP4文件

scrapy内置文件和图片下载使用：
1.定义item,然后定义两个属性（下载图片设置：image_urls以及images）,(下载文件设置：file_urls以及files)，其中image_urls和file_urls是要下载的列表

2.当下载完成后，会把下载的相关信息存储到images或files中，包括下载路径、url、校验码等

3.配置文件settings(下载图片配置：IMAGES_STORE),(下载文件配置：FILES_STORE)，这个配置保存存储的路径如：

4 启用pipline: setting中启用
(图片设置：scrapy.pipelines.images.ImagesPipline:1),
(文件设置：scrapy.pipelines.images.FilesPipline:1)

5.spider中item这样创建

6.运行结果

可以看出ts文件保存在full文件夹中，这是默认保存在full文件，而且ts文件名称也是自动生成的，后面我们可以自己更改。

7.更改文件名称，和存储的文件夹
要更改我们就不能用系统默认pipline要自己写一个然后继承

原本filepipline有一个file_path方法，返回的是文件的存储路径，我们更改下该方法返回值在返回就可以了，有兴趣可以看下源码
8.到这里记得将默认pipline更改为我们的pipline

9.运行结果

可以看出文件名字和文件夹都改变了

文件的合并
建议使用winrar合并，使用winrar合并需要几秒钟，使用视频合并软件如：魔影工厂需要数分钟。
winrar使用：
1.打开winrar:选中文件

2.点击添加，记得选中压缩方式为存储，不然播放不了，然后更改文件名称后缀为mp4

总结
时间：文件大小大概300MB左右，爬虫运行时间一分钟左右，ts文件合并几秒钟，总体来说：效率还是很高的

scrapy爬取网站在线播放TS视频流片段并整合为MP4格式相关推荐

scrapy 解析css,Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段...
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
Scrapy爬取伯乐在线所有文章
Scrapy爬取伯乐在线所有文章 1.目标分析 2.Spiders的编写 2.1.网站结构分析 2.2.获取当页文章URL 2.3.获取文章的信息 2.4.文章列表下一页 2.4.编写spiders. ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
scrapy | 爬取伯乐在线全部博文（xpath/css/itemload三种提取方法，同步、异步方式存入MySQL）
1.目标伯乐在线网站地址:http://blog.jobbole.com/all-posts/ 爬取伯乐在线的所有文章信息,包括图片网址,标题,发表日期,标签,点赞数,评论数等将爬取的数据保存至数 ...
scrapy爬取网站古诗并保存
前言: 学了scrapy想练习一下成果,于是有了下面的爬取网站的所有古诗的代码目录结构: 创建项目: scrapy startproject mySpider main.py from scrapy ...
利用Scrapy爬取伯乐在线文章并存取到mysql数据库
1.观察网址直接从(http://blog.jobbole.com/all-posts/)入手爬取伯乐在线所有文章,常规cmd创建项目 2.spider中采取xpath和css选择器提取语法,提取出想 ...
毕设总结1：使用python scrapy 爬取伯乐在线文章
伯乐在线爬取教程写在前面 scrapy架构爬取过程 Spider 爬取思路 Item pipelines Main 写在前面伯乐在线好像已经不能访问了,但爬虫的思路还是一样的. scrapy架 ...
python爬取内容为空怎么剔除_用scrapy爬取网站内容时，如何忽略某些内容为空的值；...
我爬取京东上所有手机信息时会碰到如下问题: 1.返回值过多,如下图片所示: 2.spider代码如下: -- coding: utf-8 -- import scrapy from scrapy.ht ...
使用scrapy爬取伯乐在线多线程存为MySQL数据库
在spider文件中的程序为 import scrapy from ..items import BolespiderItemclass BoleSpider(scrapy.Spider):name ...

scrapy爬取网站在线播放TS视频流片段并整合为MP4格式

scrapy爬取网站在线播放TS视频流片段并整合为MP4格式相关推荐

最新文章

热门文章