一转眼,我已经工作一个多月了,就想着闲的时候爬取一些视频,网站上的视频有好多种,有的是flv格式的,然后被分成一段一段的,一段大概是3-10秒,通过js动态。(这部分还不会,以后弄成了的话会更新的)

有的是在网站则是比较容易来爬取的,饭一口一口吃,那就先从简单的开始爬取吧。

这类网站的源码里面就有视频的url

爬取的视频网站叫梨视频(大型网站的反扒机制是留给大佬们爬的,我等萌新就先不要去尝试爬取什么别的大型网站了)

顺便吐槽一下,现在是北京时间2018年6月15日14:38:26

B站的python爬取视频的视频我看到的全部都是去年爬取百思不得姐的教学视频,然后今年百思不得姐因为某些原因已经被某部勒令整改了,但是那些视频我还是推荐可以去学习一下的,毕竟网站不在,思路仍在。

吐槽的是最新的视频是18年4月份的吧,然而还是去年的教学视频,只是再剪辑重新发布了一下

Chrome浏览器,右键检查,然后播放,然后点击选取键,对视频源进行固定

src=........,打开一下,看看是不是

成了,确实是视频。好了,视频url已经找到了,那接下来就是爬取了

下面是代码

import requests

import re

import urllib

URL = 'http://www.pearvideo.com/video_1367621'

hd = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

def main():

root = r'd:/自媒体配图/'

html = requests.get(URL,headers = hd).text

#匹配大盒子 视频URL

url_MP4 = re.compile(r'(http://video.*?mp4.*?mp4)',re.S) #正则匹配

url_MP4s = re.findall(url_MP4,html)

print(url_MP4s)

for i in url_MP4s:

print(i)

urllib.request.urlretrieve(i,'haha.mp4')

print('下载成功')

if __name__ == '__main__':

main()

相比较爬取图片来说,比较有新意的就是urllib.request.urlretrieve()方法了吧,这个是下载的方法,两个参数分别为url,要存储的文件名

然后就

文件已出来,可以观看了

下一步要做的就是找到规律,然后大批量的下载了,萌新一枚,写的也是基础文章。

欢迎交流

python爬虫爬取网站视频_python3爬虫爬取视频(一)相关推荐

  1. Python爬虫实例 wallhaven网站高清壁纸爬取。

    文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...

  2. 如何爬一个网站的数据-免费爬取网站的任意数据软件

    如何爬一个网站的数据?爬取网络数据大家称之为网络爬行 收集页面以创建索引或集合.另一方面,网络抓取下载页面以提取一组特定的数据用于分析目的,例如,产品详细信息.定价信息.SEO 数据或任何其他数据集. ...

  3. python爬取凤凰新闻网_python3.6爬取凤凰网新闻-爬虫框架式思维

    一.序言 先前几篇爬虫的代码,是简单的脚本代码.在爬取小网页觉得挺简单.高效,但涉及复杂网页的时候,就要考虑成熟的爬虫框架与分布式.本篇博客作为无框架式爬虫和有框架式爬虫的一个过渡,介绍具有框架式思维 ...

  4. python爬虫爬取新闻标题_Python3爬虫实战(一):新闻标题及其URL

    本文以'链节点'网站为例,实现新闻标题及其URL批量获取,并以字典的形式存入本地. 代码使用python的requests模块,并以json格式转存本地. 分成3步:1,发请求:2,解析数据:3,保存 ...

  5. python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说

    import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

  6. python写一个爬虫、爬取网站漫画信息_python爬取漫画

    原博文 2017-05-31 00:56 − 抓取漫画的网址是:sf互动传媒 抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: 相关推荐 2019 ...

  7. python怎么爬取豆瓣首页_Python3 爬虫(二) -- 爬取豆瓣首页图片

    ''' 批量下载豆瓣首页的图片 采用伪装浏览器的方式爬取豆瓣网站首页的图片,保存到指定路径文件夹下 ''' #导入所需的库 import urllib.request,socket,re,sys,os ...

  8. python 12306查询不到车次_Python3.x 抓取12306车次信息,表格详情显示,让你学会思路,分析网站特点,爬取数据。12306车票查看器!...

    我的例子都比较适合新手,那种老司机请绕道,谢谢! ps 前言 最近学习Python,所以呢?跟大家一样,都是看看官网,看看教程,然后就准备搞一个小东西来试试,那么我使用的例子是实验楼中的12306火车 ...

  9. Python爬取网站用户手机号_python爬取招聘网站:拉勾网

    前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:TM0831 转载:https://www.cnblogs.com/T ...

  10. 爬虫:实现网站的全部图片抓取

    --------------2018/12/11 update------------------- 爬取的网站已经关闭,此爬虫已经失效,代码也不会再维护,不建议学习此代码等设计风格.写的实在挺烂(摔 ...

最新文章

  1. 介绍两个非常好用的Javascript内存泄漏检测工具
  2. JavaScript之function类型
  3. Android 内存详细分析
  4. MapReduce 作业调试
  5. 【project】十次方-01
  6. 三十、MySQL 处理重复数据
  7. 为什么不能把CSS放到html中,为什么我的CSS代码不能在我的HTML文件中工作?
  8. linux桌面下安装pptp,Linux下安装PPTP客户端
  9. 运筹优化(十九)--决策论基础及其最优化求解
  10. 美团/饿了么外卖红包小程序源码
  11. The SetStack Computer UVA - 12096 集合栈计算机 set集合
  12. 简洁明了的刘海屏适配方案
  13. android 手机资源获取失败,三、解决android手机IMEI获取失败终极方案,自定义IMIE,主板+系统定制商+cup指令集+设备参数+显示屏参数+修订版列表等参数生成IMIEI...
  14. html网页打不开二级网页,遇到二级网页打不开怎么办 讲解二级页面打不开的处理方法...
  15. HWND CDC HDC的转换
  16. 蓄电池维护——蓄电池的日常检测与维护
  17. org.hibernate.hql.internal.ast.QuerySyntaxException: XXX is not mapped [from XXX]
  18. 洋桃技术支持0002:中断函数调用冲突问题
  19. 农业数字化:谁来进行数据整合?
  20. 【wpf】拖拽的简单实现

热门文章

  1. java wmic_wmic
  2. ArrayList扩容机制
  3. :root选择器的妙用【2021.11.14】
  4. Oracle 公有云(OCI)价格与计费工具
  5. CPU 显卡详细讲解
  6. php微信公众号群发,php实现微信公众号无限群发,php信公众群发
  7. 机器学习之 kd 树
  8. Ubuntu14.04/16.04安装Dukto
  9. Git 连接码云 上传本地项目
  10. 测绘摄影测量与遥感乙级资质申请流程及具体要求