scrapy爬取网站在线播放TS视频流片段并整合为MP4格式
目标:爬取网站在线播放的视频
分析:
1.网站:天一影视 视频:天地争霸美猴王第一集
2.request请求
:'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000001.ts------>'https://youku.comyouku.com/20190524/23996_8cac2539/1000k/hls/8bdb5aebb7a000664.ts
可以看出只有最后不同:视频流从001.ts–>664.ts
3.将上述地址在浏览器敲入后得到下载信息,考虑使用scrapy的内置文件下载pipline
4.将所有ts文件下载后使用winrar合并为一个MP4文件
scrapy内置文件和图片下载使用:
1.定义item,然后定义两个属性(下载图片设置:image_urls以及images),(下载文件设置:file_urls以及files),其中image_urls和file_urls是要下载的列表
2.当下载完成后,会把下载的相关信息存储到images或files中,包括下载路径、url、校验码等
3.配置文件settings(下载图片配置:IMAGES_STORE),(下载文件配置:FILES_STORE),这个配置保存存储的路径如:
4 启用pipline: setting中启用
(图片设置:scrapy.pipelines.images.ImagesPipline:1),
(文件设置:scrapy.pipelines.images.FilesPipline:1)
5.spider中item这样创建
6.运行结果
可以看出ts文件保存在full文件夹中,这是默认保存在full文件,而且ts文件名称也是自动生成的,后面我们可以自己更改。
7.更改文件名称,和存储的文件夹
要更改我们就不能用系统默认pipline要自己写一个然后继承
原本filepipline有一个file_path方法,返回的是文件的存储路径,我们更改下该方法返回值在返回就可以了,有兴趣可以看下源码
8.到这里记得将默认pipline更改为我们的pipline
9.运行结果
可以看出文件名字和文件夹都改变了
文件的合并
建议使用winrar合并,使用winrar合并需要几秒钟,使用视频合并软件如:魔影工厂需要数分钟。
winrar使用:
1.打开winrar:选中文件
2.点击添加,记得选中压缩方式为存储,不然播放不了,然后更改文件名称后缀为mp4
总结
时间:文件大小大概300MB左右,爬虫运行时间一分钟左右,ts文件合并几秒钟,总体来说:效率还是很高的
scrapy爬取网站在线播放TS视频流片段并整合为MP4格式相关推荐
- scrapy 解析css,Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段...
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息 通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
- Scrapy爬取伯乐在线所有文章
Scrapy爬取伯乐在线所有文章 1.目标分析 2.Spiders的编写 2.1.网站结构分析 2.2.获取当页文章URL 2.3.获取文章的信息 2.4.文章列表下一页 2.4.编写spiders. ...
- Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境 用mkvirtualen ...
- scrapy | 爬取伯乐在线全部博文(xpath/css/itemload三种提取方法,同步、异步方式存入MySQL)
1.目标 伯乐在线网站地址:http://blog.jobbole.com/all-posts/ 爬取伯乐在线的所有文章信息,包括图片网址,标题,发表日期,标签,点赞数,评论数等 将爬取的数据保存至数 ...
- scrapy爬取网站古诗并保存
前言: 学了scrapy想练习一下成果,于是有了下面的爬取网站的所有古诗的代码 目录结构: 创建项目: scrapy startproject mySpider main.py from scrapy ...
- 利用Scrapy爬取伯乐在线文章并存取到mysql数据库
1.观察网址直接从(http://blog.jobbole.com/all-posts/)入手爬取伯乐在线所有文章,常规cmd创建项目 2.spider中采取xpath和css选择器提取语法,提取出想 ...
- 毕设总结1:使用python scrapy 爬取 伯乐在线文章
伯乐在线爬取教程 写在前面 scrapy架构 爬取过程 Spider 爬取思路 Item pipelines Main 写在前面 伯乐在线 好像已经不能访问了,但爬虫的思路还是一样的. scrapy架 ...
- python爬取内容为空怎么剔除_用scrapy爬取网站内容时,如何忽略某些内容为空的值;...
我爬取京东上所有手机信息时会碰到如下问题: 1.返回值过多,如下图片所示: 2.spider代码如下: -- coding: utf-8 -- import scrapy from scrapy.ht ...
- 使用scrapy爬取伯乐在线多线程存为MySQL数据库
在spider文件中的程序为 import scrapy from ..items import BolespiderItemclass BoleSpider(scrapy.Spider):name ...
最新文章
- 7-29 修理牧场 (25 分)
- 现代密码学8.1--密码学所涉及的数论和群论
- python画画零基础_[零基础学python]画圈还不简单吗?
- opencv学习笔记2:图像处理基础
- python中内置的集成开发工具_python应用(3):启用集成开发工具pycharm
- Android自定义实现FlowLayout
- 农村大学生的出路或许是读个真才实学的博士
- CentOS 7.x 默认防火墙 yum install firewalld
- Python数据分析-TMDb 5000 Movie Database电影数据分析
- java setproperty 未生效_Java System类setProperty()方法及示例
- 快捷键你到底知道多少(Pr篇)
- VB 获取文件名后缀
- 从继承和组合理解面向对象,并从面向对象与继承的意义理解白马非马问题
- 生活小技巧 | win10开热点给手机使用
- 【肖四出了】考研政治肖秀荣预测四套卷已出!
- Win7/8.1免费升级Win10-三种秘钥
- html消除行间距,HTML:如何从PRE标记中删除行间距
- 安卓系统层开发之C++
- 数学里的 e 为什么叫做自然底数?
- 神秘“鬼影”病毒袭击xp系统 重装也无法清除
热门文章
- 小实验----Cobbler自动化部署装机
- 四元数矩阵向量积 matlab
- Win7安装VisualC++6.0全程图解
- Hbuildx创建vue3项目
- 南加利福尼亚大学计算机博士,斑马博士|南加州大学(USC) MSc Electronic Engineering (Computer Network)...
- OSChina 周二乱弹 —— 金 冈刂 犭良
- wireshark抓图
- 文秘专业计算机基础考题,文秘计算机测试题.doc
- LVS部署准备工作-DRBD的部署
- 专访许长敬:移动互联网将进入电子商务阶段