工具 : requests 库

解析: beautifulsoup

任务: 视频抓取

1,分析目标网站

寻找一个虚拟的头文件

User-Agent:

Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36

定义一个视频存储的路径

root="D://SP//"

并且以url的最后一个“\”后的字符问视频名称

path = root + url.split('/')[-1]

然后用 try except 框架来判断文件夹是否存在 如若不存在 那么就调用requests库来进行爬取,进行保存

若果存在 就报文件存在

贴出源码

#引入requests库

import requests

#解析主页,获得url

url =" https://qiniu-xpc10.xpccdn.com/5e38f4b527a11.mp4"

import os

#根据解析主页,给定一个use-agent

header={"Use-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}

#给定一个根目录

root="D://SP//"

#定义一个路径,并根据url设定一个底层文件

path = root + url.split('/')[-1]

#用try,expcet来完成主框架,判断是否存在根目录,若不存在,进行创建,判断是否存在路径,若不存在进行requests获取,保存文件。

try:

if not os.path.exists(root):

os.mkdir(root)

if not os.path.exists(path):

r=requests.get(url,headers=header)

with open(path, 'wb')as f:

f.write(r.content)

f.close()

print("文件保存成功")

else:

print("文件已存在")

except:

print("爬取失败")

转载本文请联系原作者获取授权,同时请注明本文来自李鸿斌科学网博客。

链接地址:http://blog.sciencenet.cn/blog-3387053-1218656.html

上一篇:python 3.7安装及第三方pillow库的安装

下一篇:youtube-dl

如何用python爬视频_科学网—利用python爬取一个小视频 - 李鸿斌的博文相关推荐

  1. python读取tiff影像_科学网—利用python GDAL库读写geotiff格式的遥感影像方法 - 张伟的博文...

    (1)利用python GDAL库读写geotiff格式的遥感影像方法,具有很好的参考价值,不错! from osgeo import gdal import numpy as np def read ...

  2. python 面板数据分析_科学网—Python中的结构化数据分析利器-Pandas简介 - 郑俊娟的博文...

    此文转载于XXXXXX处... Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数 ...

  3. python读取网站_科学网—python 获取网址 - 林清莹的博文

    Python获取网址的内容# coding=utf-8 import urllib url = "http://www.baidu.com" data = urllib.urlop ...

  4. python 数据去重_科学网—python学习——根据条件提取数据,并去重 - 李立的博文...

    [Python字符串提取] 摘要:根据要求进行字符串的提取,并去重 导入分析所需的库import pandas as pd 构造数据集 as1 = pd.DataFrame({'a':[1,2,3,4 ...

  5. python编程口诀_科学网—Python编程技巧汇总 - 高关胤的博文

    正在学习python编程,把一些小技巧记录下来备查 ======================计算技巧========================== 正常的条件语句如下if a>b:c= ...

  6. python的安装包下载_科学网—[转载]python常用的安装包下载 - 林清莹的博文

    Python常用的安装包下载 1.首先应该下载dlib安装包(例如:dlib-19.8.1-cp36-cp36m-win_amd64.whl) 可以通过此网址进行下载对应的dlib包   https: ...

  7. python 基因序列提取_科学网—简单的Python脚本提取对应位置基因序列(fasta文件) - 王彬忠的博文...

    最近,用Python脚本提取,在基因号已知,位置已知条件下,相对应位置的基因序列时发现,这样很简单但是很实用的脚本,在网上却比较难找.而且,能被找到的脚本,相对于具有初级编程能力的人而言,有点难.本人 ...

  8. anaconda中python的位置_科学网—查询Anaconda安装路径、安装包位置及授予访问权限 - 张伟的博文...

    (1)确认安装路径 输入以下命令: conda info --env 可以知道当前有哪些环境,以及环境路径: (2)Anaconda管理的包的位置 具体路径为F:\Anaconda\Lib\site- ...

  9. python networkx 边权重_科学网—NetworkX:关于边的权重及其画图 - 胡海华的博文

    这两天因为有个想法,想用NetworkX跑一跑看看情况,但是在权重上犯了糊涂. NetworkX添加带有权重的边很简单,只需要以三个元素的元组(a, b, w)来表示就可以了,其中ab代表节点a和b- ...

最新文章

  1. 17.ubuntu18.04解决压缩包乱码问题
  2. kafka Windows客户端Linux服务器---转
  3. JavaScript君,请您坦诚相待~~~
  4. python二叉树的创建与遍历
  5. 捡起JavaScript(1)
  6. ArcGIS——vs2015安装arcgis engine不兼容
  7. Git 提交的正确姿势:Commit message 编写指南
  8. 自然常数e相关数列收敛
  9. Common IO 使用小结
  10. 计算机室英语单词怎么读,“计算机”英语单词怎么读?
  11. python 第一行包含一个整数n、表示行数_输入 第一行输入一个整数n(1 = n = 100)表示测试样例个数 接下来n行,一...
  12. 《药学综合知识与技能》
  13. 阿里巴巴面试与面试技巧
  14. 错误: Failed to install 'unknown package' from GitHub: schannel: failed to receive handshake, SSL/TL
  15. 转载几篇别人写的皮肤类控件的技术文章
  16. 戴尔服务器盘柜盘故障分析
  17. 小米手机安装 charles 证书,提示“没有可安装的证书”
  18. 计算机没鼠标怎么,计算机中没有鼠标如何进行拖拽
  19. ASP.NET AJAX---TimerHiddenField控件小实例 (实现倒计时)
  20. spring boot 怎么 html 嵌套 html?

热门文章

  1. mysql支持ASCII_MySQL ASCII()函数返回字符的ASCII码值
  2. GD GD32F103RCT6 微控制器
  3. 10月26~27日敏捷圈清明上河图
  4. 不爱科研,只为当大学老师而读博,这种做法对吗?
  5. hpm128无法共享打印_m126及m128打印机共享问题
  6. 微软警告:Java虚拟机发现2个重要安全漏洞(转)
  7. GIS空间插值算法-自然邻域法
  8. java信号量生产者_java信号量PV操作 解决生产者-消费者问题
  9. Qt视频播放器[QMediaPlayer+QVideowidget]
  10. [Visual Studio 2022 C#]使用SplitContainer拆分器让一个Windows窗口秒变多个