译者:天天向上    英文原文:

https://dzone.com/articles/simple-examples-of-downloading-files-using-python

在本教程中,你将学习如何使用不同的Python模块从web下载文件。此外,你将下载常规文件、web页面、Amazon S3和其他资源。

最后,你将学习如何克服可能遇到的各种挑战,例如下载重定向的文件、下载大型文件、完成一个多线程下载以及其他策略。

使用Requests

你可以使用requests模块从一个URL下载文件。

考虑以下代码:

你只需使用requests模块的get方法获取URL,并将结果存储到一个名为“myfile”的变量中。然后,将这个变量的内容写入文件。

使用wget

你还可以使用Python的wget模块从一个URL下载文件。你可以使用pip按以下命令安装wget模块:

考虑以下代码,我们将使用它下载Python的logo图像。

在这段代码中,URL和路径(图像将存储在其中)被传递给wget模块的download方法。

下载重定向的文件

在本节中,你将学习如何使用requests从一个URL下载文件,该URL会被重定向到另一个带有一个.pdf文件的URL。该URL看起来如下:

要下载这个pdf文件,请使用以下代码:

在这段代码中,我们第一步指定的是URL。然后,我们使用request模块的get方法来获取该URL。在get方法中,我们将allow_redirects设置为True,这将允许URL中的重定向,并且重定向后的内容将被分配给变量myfile。

最后,我们打开一个文件来写入获取的内容。

分块下载大文件

考虑下面的代码:

首先,我们像以前一样使用requests模块的get方法,但是这一次,我们将把stream属性设置为True。

接着,我们在当前工作目录中创建一个名为PythonBook.pdf的文件,并打开它进行写入。

然后,我们指定每次要下载的块大小。我们已经将其设置为1024字节,接着遍历每个块,并在文件中写入这些块,直到块结束。

不漂亮吗?不要担心,稍后我们将显示一个下载过程的进度条。

下载多个文件(并行/批量下载)

要同时下载多个文件,请导入以下模块:

我们导入了os和time模块来检查下载文件需要多少时间。ThreadPool模块允许你使用池运行多个线程或进程。

让我们创建一个简单的函数,将响应分块发送到一个文件:

这个URL是一个二维数组,它指定了你要下载的页面的路径和URL。

就像在前一节中所做的那样,我们将这个URL传递给requests.get。最后,我们打开文件(URL中指定的路径)并写入页面内容。

现在,我们可以分别为每个URL调用这个函数,我们也可以同时为所有URL调用这个函数。让我们在for循环中分别为每个URL调用这个函数,注意计时器:

现在,使用以下代码行替换for循环:

运行该脚本。

使用进度条进行下载

进度条是clint模块的一个UI组件。输入以下命令来安装clint模块:

考虑以下代码:

在这段代码中,我们首先导入了requests模块,然后,我们从clint.textui导入了进度组件。唯一的区别是在for循环中。在将内容写入文件时,我们使用了进度条模块的bar方法。

使用urllib下载网页

在本节中,我们将使用urllib下载一个网页。

urllib库是Python的标准库,因此你不需要安装它。

以下代码行可以轻松地下载一个网页:

在这里指定你想将文件保存为什么以及你想将它存储在哪里的URL,

在这段代码中,我们使用了urlretrieve方法并传递了文件的URL,以及保存文件的路径。文件扩展名将是.html。

通过代理下载

如果你需要使用代理下载你的文件,你可以使用urllib模块的ProxyHandler。请看以下代码:

在这段代码中,我们创建了代理对象,并通过调用urllib的build_opener方法来打开该代理,并传入该代理对象。然后,我们创建请求来获取页面。

此外,你还可以按照官方文档的介绍来使用requests模块:

你只需要导入requests模块并创建你的代理对象。然后,你就可以获取文件了。

使用urllib3

urllib3是urllib模块的改进版本。你可以使用pip下载并安装它:

我们将通过使用urllib3来获取一个网页并将它存储在一个文本文件中。

导入以下模块:

在处理文件时,我们使用了shutil模块。

现在,我们像这样来初始化URL字符串变量:

然后,我们使用了urllib3的PoolManager ,它会跟踪必要的连接池。

创建一个文件:

最后,我们发送一个GET请求来获取该URL并打开一个文件,接着将响应写入该文件:

使用Boto3从S3下载文件

要从Amazon S3下载文件,你可以使用Python boto3模块。

在开始之前,你需要使用pip安装awscli模块:

对于AWS配置,请运行以下命令:

现在,按以下命令输入你的详细信息:

要从Amazon S3下载文件,你需要导入boto3和botocore。Boto3是一个Amazon SDK,它允许Python访问Amazon web服务(如S3)。Botocore提供了与Amazon web服务进行交互的命令行服务。

Botocore自带了awscli。要安装boto3,请运行以下命令:

现在,导入这两个模块:

在从Amazon下载文件时,我们需要三个参数:

  1. Bucket名称

  2. 你需要下载的文件名称

  3. 文件下载之后的名称

初始化变量:

现在,我们初始化一个变量来使用会话的资源。为此,我们将调用boto3的resource()方法并传入服务,即s3:

最后,使用download_file方法下载文件并传入变量:

使用asyncio

asyncio模块主要用于处理系统事件。它围绕一个事件循环进行工作,该事件循环会等待事件发生,然后对该事件作出反应。这个反应可以是调用另一个函数。这个过程称为事件处理。asyncio模块使用协同程序进行事件处理。

要使用asyncio事件处理和协同功能,我们将导入asyncio模块:

现在,像这样定义asyncio协同方法:

关键字async表示这是一个原生asyncio协同程序。在协同程序的内部,我们有一个await关键字,它会返回一个特定的值。我们也可以使用return关键字。

现在,让我们使用协同创建一段代码来从网站下载一个文件:

在这段代码中,我们创建了一个异步协同函数,它会下载我们的文件并返回一条消息。

然后,我们使用另一个异步协同程序调用main_func,它会等待URL并将所有URL组成一个队列。asyncio的wait函数会等待协同程序完成。

现在,为了启动协同程序,我们必须使用asyncio的get_event_loop()方法将协同程序放入事件循环中,最后,我们使用asyncio的run_until_complete()方法执行该事件循环。

使用Python下载文件是很有趣的。希望本教程对你有用!

欢迎关注我们,看通俗干货!

Python下载文件的11种方式相关推荐

  1. python 下载文件-Python下载文件的11种方式

    原标题:Python下载文件的11种方式 在本教程中,你将学习如何使用不同的Python模块从web下载文件.此外,你将下载常规文件.web页面.Amazon S3和其他资源. 最后,你将学习如何克服 ...

  2. python如何在手机上下载模块-Python 下载文件的 11 种方式

    考虑以下代码: 你只需使用requests模块的get方法获取URL,并将结果存储到一个名为"myfile"的变量中.然后,将这个变量的内容写入文件. 使用wget 你还可以使用P ...

  3. python下载文件的11种方式_Python下载文件的11种方式

    在本教程中,你将学习如何使用不同的Python模块从web下载文件.此外,你将下载常规文件.web页面.Amazon S3和其他资源. 最后,你将学习如何克服可能遇到的各种挑战,例如下载重定向的文件. ...

  4. python下载文件的11种方式_Python 中常见的几种下载文件方法

    下载比较小的文件: # 方法一:使用urllib库 # -*- coding:utf-8 -*- import urllib import time url = 'http://mvideo.spri ...

  5. 用python下载文件的若干种方法汇总

    压缩文件可以直接放到下载器里面下载的 you-get 连接 下载任意文件 重点 用python下载文件的若干种方法汇总 写文章 用python下载文件的若干种方法汇总 zhangqibot发表于Met ...

  6. python下载方法-python下载文件的几种常用方法

    本文信息本文由方法SEO顾问发表于2016-10-1814:34:30,共 506 字,转载请注明:python下载文件的几种常用方法_[方法SEO顾问],如果我网站的文章对你有所帮助的话,来百度口碑 ...

  7. java 文件下载详解_Java 从网上下载文件的几种方式实例代码详解

    废话不多说了,直接给大家贴代码了,具体代码如下所示: package com.github.pandafang.tool; import java.io.BufferedOutputStream; i ...

  8. python 下载文件-用python下载文件的若干种方法汇总

    在日常科研或者工作中,我们免不了要批量从网上下载一些资料.要是手工一个个去下载,浪费时间又让鼠标折寿,好不容易点完了发现手指都麻木了. 这种重复性的批量作业我们应该交给python小弟去帮我们搞定,这 ...

  9. 前端下载文件的几种方式

    前端下载文件的几种方式 前言 1. window.open 2. window.location.href 3. a标签 4. iframe 5. blob 前言 总结下载文件的几种方式,文件都是通过 ...

最新文章

  1. 利用IE8开发人员工具调试JavaScript脚本
  2. 宏基因组云讲堂今晚8点开讲!第一期由刘永鑫博士主持,特邀袁军副教授分享纯生信发表ISME文章的思路...
  3. java pg数据库事务回滚_PG 事务提交与回滚
  4. 人工智能将是人类最后的需要 | 大咖来了
  5. C语言:编写程序,打开文本文件stu.txt,读出文件内容,将其中的字符‘s’删除,将修改后的内容存到student.txt文件中。
  6. ie浏览器css怎么调,IE浏览器下的CSS问题小结
  7. html文件嵌入到reportlab,Django Reportlab使用HTML
  8. bootstrap 可编辑列表,实现某个单元格动态控制是否可编辑状态
  9. 嵌入式课程设计第一篇之OLED与温湿度模块
  10. puzzle(003)数字拼图、色块拼图
  11. 使用 HttpWatch 分析 HTTP 协议
  12. Ubuntu20.04安装Mysql(亲测有效,一定要按步骤来)
  13. 微信支付消费者投诉消息推送接入企业微信群
  14. 浙江宁波天童禅寺重阳节前夕慰问鄞州区东吴福利院
  15. 小米电视5和5pro区别
  16. prosper loan data EDA分析(特征字典)
  17. 【敬伟ps教程】平移、缩放、移动、选区
  18. vm本地虚拟机导入服务器,vmware虚拟机导入到云服务器
  19. 我看车展感(tu)想(cao)
  20. 关于Web 网页设计规范

热门文章

  1. UMeditor使用
  2. (转) Twisted :第二十一部分 惰性不是迟缓: Twisted和Haskell
  3. 正则严格验证身份证信息
  4. 思科预计全球云数据流量将以66%的混合年增长率递增
  5. Android开源项目源码下载(不断更新中)
  6. 一个浙江商人立下的22条规矩
  7. 增强的Internet域内网关路由协议
  8. 选择图层_Photoshop思维导图,图层的高级操作
  9. 1047.删除字符串中的相邻重复项
  10. Could not fetch URL https://pypi.org/simple/pip/