而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等。怎样通过Python爬虫把这些资源下载下来。

1、怎样在网上找资源:

就是百度图片为例,当你如下图在百度图片里搜索一个主题时,会为你跳出一大堆相关的图片。

还有如果你想学英语,找到一个网站有很多mp3的听力资源,这些可能都是你想获取的内容。

现在是一个互联网的时代,只要你去找,基本上能找到你想要的任何资源。

2、怎样识别网页中的资源:

以上面搜索到的百度图片为例。找到了这么多的内容,当然你可以通过手动一张张的去保存,但这样做既费力又费事。你当然更希望通过程序自动去下载所找到的资源。要想代码识别这些资源,就要告诉代码这些资源有哪些特征,怎样在网页中找到它们。

打开浏览器的调试功能(不同浏览器可能有差别,不知道的百度一下吧)。找出网页中你想要下载资源的路径,如下图所示。如果有许多类似资源需要下载,则要找到识别这些资源地址的规律,然后告诉代码。

3、资源下载方法一:

代码很简单,直接上代码:

from urllib.request import urlretrieve

urlretrieve("图片URL", "./image.jpg")

直接通过urlretrieve函数就把URL对应的图片给下载到当前文件夹(./)中了,并把图片命名为image.jpg。

4、资源下载方法二:

还是直接看代码:

import requests

resource = requests.get("图片URL")

with open("./image.jpg", mode="wb") as fh:

fh.write(resource.content)

此下载方法要安装python的requests库。从功能上来说与下载方法一是一样的。python库的安装方法用pip就好。很简单,这里都不啰嗦了。

5、资源下载方法三:

看代码:

import requests

resource = requests.get("图片URL", stream=True)

with open("./image.jpg", mode="wb") as fh:

for chunk in resource.iter_content(chunk_size=100):

fh.write(chunk)

此方法与下载方法二的不同之处在于在get方法调用时使用了参数【stream=True】。而在写入的文件的时候是分块写入的。

什么意思呢:

前两种方法是把一个文件全部下载到内存后,再一起写入到硬盘文件中。

方法三是下载一定的量(这里指的是100字节)后,就写入到硬盘文件中,直到全部写完。

第三种方法的好处是,如果在下载大容量文件时,不会造成内存的过度使用。

6、资源下载说明一:

上述的代码都是通过下载图片资源为例子的,但所有其它资源,如文档,电影等的下载方式是一样的。关键是要正确的识别出网页中资源所对应的URL地址才能够正确的下载(因为有些资源是用的相对路径或加密后的路径)。

7、资源下载说明二:

上面例子中的代码都是下载单一资源的。如果要在同一网页中下载多个资源的思路如下:

1. 找出要下载资源的URL,并形成一个资源集合;

2. 把下载函数中的资源URL与保存路径参数化;

3. 遍历资源集合,依靠循环调用下载函数来达到多个资源下载的目的。

总结:以上就是本次介绍关于Python爬虫下载文件的所有知识点内容,感谢大家的阅读。

本文标题: Python爬虫文件下载图文教程

本文地址: http://www.cppcns.com/jiaoben/python/248068.html

python怎么下载教程-Python爬虫文件下载图文教程相关推荐

  1. python爬虫教程下载-Python爬虫文件下载图文教程

    而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等.怎样通过Python爬虫把这些资源下载下来. 1.怎样在网上找资源: 就是百度图片为例,当你如下图在百度图片里搜索一个主题时, ...

  2. python3.6.2怎样安装,python 3.6.2 安装配置方法图文教程

    python 3.6.2 安装配置方法图文教程 Windows下Python(pip)环境搭建(3.6)图解,供大家参考,具体内容如下 1.下载最新的Python安装:3.6.2 2.安装时不要选择默 ...

  3. 阿里云ECS服务器安装docker教程(超详细图文教程)

    文章预览: 阿里云ECS服务器安装docker教程(超详细图文教程) 一.查看服务器信息 二.安装docker 三.卸载docker 四.阿里云镜像加速器 五.篇外 阿里云ECS服务器安装docker ...

  4. vs2019安装python库_vs2019安装和使用详细图文教程

    vs2019已经在4月2日正式发布,vs2019发布会请看这个链接: vs2019和vs2017一样强大,项目兼容,不用互相删除,而且C/C++,Python,F#,ios,Android,Web,N ...

  5. python爬虫入门教程pdf-Python爬虫实战入门教程.pdf

    Python 爬虫实战入门教程 州的先生 <Python 爬虫实战入门教程> 作者:州的先生 微信公众号:州的先生 博客: 2018/3/24 1 Python 爬虫实战入门教程 州的先生 ...

  6. 手机python软件下载安装,python手机下载安装教程

    如何在手机上下载python 应用市场内搜索下载下载Python在您开始之前,在你的计算机将需要Python,但您可能不需要下载它. 首先检查(在命令行窗口输入python)有没有安装Python!如 ...

  7. python3.6.2安装教程-python 3.6.2 安装配置方法图文教程

    Windows下Python(pip)环境搭建(3.6)图解,供大家参考,具体内容如下 1.下载最新的Python安装:3.6.2 2.安装时不要选择默认,自定义安装(customize instal ...

  8. python电脑下载安装-python

    Python是一款通用型的计算机程序设计语言,Python对编程人员来说是一款非常有利的工具,可以让您快速编写代码,而且代码运行速度非常快.Python具有非常简捷而清晰的语法特点,适合完成各种高层任 ...

  9. python电脑下载安装-Python的下载安装与Python编辑器的安装

    在此特别鸣谢kamael,本文内容由kamael提供. 各位朋友大家好,我是章鱼(认识我的都喜欢这么叫我).今天我就来当当广大Python初学者的救星--交大家如何安装Python与编辑器以及编辑器的 ...

最新文章

  1. HDFS小文件问题及解决方案
  2. 程序员论坛炫耀公司福利:一线互联网公司的下午茶,什么水平?
  3. tcp协议timestamp字段导致问题分析
  4. CAS (3) —— Mac下配置CAS客户端经代理访问Tomcat CAS
  5. 深度学习(十一)RNN入门学习
  6. 小米6 Pro工程机惊现闲鱼 炒至2万多,王腾:太超前 卖1万都亏本
  7. 教你轻松解决苹果Mac安装Axure首次打开报错的问题
  8. html怎么打开本地文件,HTML怎么打开本地文件
  9. 28天肝完阿里面试通关宝典,含答案解析
  10. blaster 驱动_为什么2020年IR Blaster在手机上仍然有用
  11. html设置鼠标移动变色,table行随鼠标移动变色示例
  12. 梦幻西游手游经验任务链计算机,梦幻西游手游经验和道具任务链攻略
  13. 支付宝支付接口的调用
  14. 全网最透彻的Hash分析
  15. xposed模块编写教程_Xposed插件开发入门详解,
  16. 爬虫(一):用python爬取亚马逊所有家具种类前100名的商品信息(上)
  17. ul-li(div)下拉列表
  18. 改了dns服务器有没有影响,dns改成114有危险吗_dns改了有什么影响
  19. Java并发编程总结
  20. 如何解决 使用matplotlib.finance获取雅虎财经网站股票数据 报错?

热门文章

  1. 分布式系统唯一ID设计
  2. Webframe x-scroll
  3. [leetcode-117]填充每个节点的下一个右侧节点指针 II
  4. Django引入静态文件
  5. 创建私有 Gems 源
  6. docker容器管理及网络管理
  7. Javascript版-显示相应图片的详细信息
  8. Bailian4112 情报破译-Cryptanalysis【密码】
  9. UVA10150 POJ2647 Doublets【BFS】
  10. ICPC程序设计题解系列