python官网下载文件-使用Python下载文件的简单示例

在本教程中，您将学习如何使用不同的Python模块从Web下载文件。此外，您还将下载常规文件、网页、AmazonS 3和其他来源。

最后，您将学习如何克服可能遇到的各种挑战，例如下载重定向文件、下载大型文件、完成多线程下载以及其他策略。

使用请求

您可以使用请求模块从URL下载文件。

考虑以下守则：

import requests

url = 'https://www.python.org/static/img/python-logo@2x.png'

myfile = requests.get(url)

open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)

只需使用get 方法，并将结果存储到名为"myfile”的变量中。然后，将变量的内容写入文件中。

使用wget

还可以使用惠特Python模块。这个wget 可以使用PIP安装模块，如下所示：

pip install wget

考虑下面的代码，我们将下载Python的徽标图像：

import wget

url = "https://www.python.org/static/img/python-logo@2x.png"

wget.download(url, 'c:/users/LikeGeeks/downloads/pythonLogo.png')

在这段代码中，URL以及路径(图像将在其中存储)被传递给wget模块的下载方法。

重定向的下载文件

在本节中，您将学习如何从URL下载，该URL使用请求重定向到另一个带有.pdf文件的URL。URL内容如下：

https://readthedocs.org/projects/python-guide/downloads/pdf/latest/

要下载此pdf文件，请使用以下代码：

import requests

url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest/'

myfile = requests.get(url, allow_redirects=True)

open('c:/users/LikeGeeks/documents/hello.pdf', 'wb').write(myfile.content)

在这段代码中，我们指定的第一步是URL。然后，我们使用请求模块的get方法来获取URL。在get方法中，我们设置allow_redirects到True，这将允许在URL中重定向，而重定向后的内容将分配给变量myfile.

最后，我们打开一个文件来编写获取的内容。

块下载大文件

考虑以下守则：

import requests

url = 'https://www.python.org/static/img/python-logo@2x.png'

myfile = requests.get(url)

open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)

首先，我们像以前一样使用请求模块的get方法，但这一次，我们将流属性设置为True。

然后，我们在当前工作目录中创建一个名为PythonBook.pdf的文件，并打开它进行写入。

然后，我们指定要一次下载的块大小。我们已经设置为1024字节，遍历每个块，并在文件中写入块直到块完成。

不漂亮？别担心，我们稍后会显示下载过程的进度条。

下载多个文件(并行/批量下载)

若要一次下载多个文件，请导入以下模块：

import os

import requests

from time import time

from multiprocessing.pool import ThreadPool

我们导入了操作系统和时间模块，以检查下载文件所需的时间。模块ThreadPool 允许您使用池运行多个线程或进程。

让我们创建一个简单的函数，将响应以块的形式发送到文件：

def url_response(url):

path, url = url

r = requests.get(url, stream = True)

with open(path, 'wb') as f:

for ch in r:

f.write(ch)

URL是一个二维数组，它指定要下载的页面的路径和URL。

urls = [("Event1", "https://www.python.org/events/python-events/805/"),

("Event2", "https://www.python.org/events/python-events/801/"),

("Event3", "https://www.python.org/events/python-events/790/"),

("Event4", "https://www.python.org/events/python-events/798/"),

("Event5", "https://www.python.org/events/python-events/807/"),

("Event6", "https://www.python.org/events/python-events/807/"),

("Event7", "https://www.python.org/events/python-events/757/"),

("Event8", "https://www.python.org/events/python-user-group/816/")]

将URL传递给requests.get，就像我们在上一节中所做的那样。最后，打开文件(URL中指定的路径)并写入页面的内容。

现在，我们可以对每个URL分别调用这个函数，也可以同时调用所有URL的这个函数。让我们在for循环中分别对每个URL执行此操作，并注意计时器：

start = time()

for x in urls:

url_response (x)

print(f"Time to download: {time() - start}")

现在，用以下代码行替换for循环：

ThreadPool(9).imap_unordered(url_response, urls)

运行脚本。

用进度栏下载

进度条是客户端模块的UI小部件。若要安装客户端模块，请键入以下命令：

pip install clint

考虑以下代码：

import requests

from clint.textui import progress

url = 'http://do1.dr-chuck.com/pythonlearn/EN_us/pythonlearn.pdf'

r = requests.get(url, stream=True)

with open("LearnPython.pdf", "wb") as Pypdf:

total_length = int(r.headers.get('content-length'))

for ch in progress.bar(r.iter_content(chunk_size = 2391975), expected_size=(total_length/1024) + 1):

if ch:

Pypdf.write(ch)

在这段代码中，我们导入了请求模块，然后从clint.textui导入了进度小部件。唯一的区别是for循环。我们在将内容写入文件时使用了进度模块的BAR方法。

使用urllib下载网页

在本节中，我们将使用urllib下载一个网页。

urllib库是Python的标准库，因此不需要安装它。

以下代码行可以轻松下载网页：

urllib.request.urlretrieve('url', 'path')

在这里指定要保存的URL以及要存储它的位置：

urllib.request.urlretrieve('https://www.python.org/', 'c:/users/LikeGeeks/documents/PythonOrganization.html')

在这段代码中，我们使用了urlretrieve 方法并传递文件的URL，以及保存文件的路径。文件扩展名为.html。

通过代理下载

如果需要使用代理下载文件，可以使用ProxyHandler 在urllib模块中。检查以下代码：

import urllib.request

>>> myProxy = urllib.request.ProxyHandler({'http': '127.0.0.2'})

>>> openProxy = urllib.request.build_opener(myProxy)

>>> urllib.request.urlretrieve('https://www.python.org/')

在此代码中，我们创建了代理对象，并通过调用build_opener方法并传递代理对象。然后，我们请求检索页面。

此外，您还可以使用正式文档中记录的请求模块：

import requests

myProxy = { 'http': 'http://127.0.0.2:3001' }

requests.get("https://www.python.org/", proxies=myProxy)

使用urllib 3

urllib 3是urllib模块的改进版本。您可以使用pip下载并安装它：

pip install urllib3我们将获取一个网页，并使用urllib 3将其存储在文本文件中。

导入以下模块：

import urllib3, shutil

shutil模块在处理文件时使用。

现在，初始化URL字符串变量，如下所示：

url = 'https://www.python.org/'然后，我们使用PoolManager 用于跟踪必要的连接池的urllib 3。

c = urllib3.PoolManager()创建一个文件：

filename = "test.txt"

最后，我们发送一个GET请求来获取URL并打开一个文件并将响应写到该文件中：

with c.request('GET', url, preload_content=False) as res, open(filename, 'wb') as out_file:

shutil.copyfileobj(res, out_file)

使用Boto 3从S3下载文件

要从AmazonS 3下载文件，可以使用PythonBoto 3模块。

在开始之前，您需要使用pip安装awscli模块：

pip install awscli对于AWS配置，运行以下命令：

aws configure现在，输入您的详细信息如下：

AWS Access Key ID [None]: (The access key)

AWS Secret Access Key [None]: (Secret access key)

Default region name [None]: (Region)

Default output format [None]: (Json)

要从AmazonS 3下载文件，请导入boto 3和botocore。Boto 3是用于Python访问AmazonWeb服务(如S3)的AmazonSDK。Botocore提供命令行服务来与AmazonWeb服务交互。

Botocore配备了awscli。要安装boto 3，运行以下命令：

pip install boto3现在，导入这两个模块：

import boto3, botocore当从Amazon下载文件时，我们需要三个参数：

桶的名字

需要下载的文件的名称。

文件下载后的名称。

初始化变量：

bucket = "bucketName"

file_name = "filename"

downloaded_file = "downloadedfilename"

现在，初始化一个变量以使用会话的资源。为此，我们将调用resource()方法并传递服务，即S3：

service = boto3.resource("s3’)

最后，使用download_file 方法并传入变量：

service.Bucket(bucket).download_file(file_name, downloaded_file)

使用异步

异步模块的重点是处理系统事件。它围绕一个事件循环工作，该循环等待事件发生，然后对该事件作出反应。反应可以是调用另一个函数。这个过程叫做偶数处理。异步模块使用协同处理事件。

为了使用异步事件处理和协同服务功能，我们将导入异步模块：

import asyncio现在，定义异步协同器方法，如下所示：

async def coroutine():

await my_func()

关键字异步告诉我们，这是一个本机异步协同器。在协同线的主体中，我们有一个等待关键字，它返回一个特定的值。返回关键字也可以使用。

现在，让我们使用Cooutine创建一个代码，从Web下载一个文件：

>>> import os

>>> import urllib.request

>>> async def coroutine(url):

r = urllib.request.urlopen(url)

filename = "couroutine_downloads.txt"

with open(filename, 'wb') as f:

for ch in r:

f.write(ch)

print_msg = 'Successfully Downloaded'

return print_msg

>>> async def main_func(urls_to_download):

co = [coroutine(url) for url in urls_to_download]

downloaded, downloading = await asyncio.wait(co)

for i in downloaded:

print(i.result())

urls_to_download = ["https://www.python.org/events/python-events/801/",

"https://www.python.org/events/python-events/790/",

"https://www.python.org/events/python-user-group/816/",

"https://www.python.org/events/python-events/757/"]

>>> eventLoop = asyncio.get_event_loop()

>>> eventLoop.run_until_complete(main_func(urls_to_download))

在这段代码中，我们创建了一个异步协同函数，用于下载我们的文件并返回一条消息。

然后，我们有另一个异步协同器调用main_func 它等待URL并生成所有URL的队列。异步的等待函数等待协同器的完成。

现在，要启动coroutine，我们必须将coroutine放入事件循环中，方法是使用get_event_loop()方法，最后，使用run_until_complete()异步方法

使用Python下载文件很有趣。希望这个教程对你有用！

python官网下载文件-使用Python下载文件的简单示例相关推荐

安装gutenberg报错，尝试在官网下载文件安装到指定文件夹还是没用
D:\Python实践>pip install gutenberg Collecting gutenberg Using cached Gutenberg-0.8.1.tar.gz (19 kB ...
如何用python创建一个下载网站-使用Python下载文件的简单示例
Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 学习如何使用各种Python模块从web下载文件在本教程中,你将学习如何使用不同的Python模块从we ...
使用python下载文件的简单示例_Python
简单的FTP下载 ,不加任何异常判断. import os from ftplib import FTP ftp_addr = '10.10.0.1' f=FTP(ftp_addr) f.login( ...
使用python下载文件的简单示例_Python FTP 下载文件简单示例
简单的FTP下载 ,不加任何异常判断. import os from ftplib import FTP ftp_addr = '10.10.0.1' f=FTP(ftp_addr) f.login( ...
python官网网址是什么,python官方下载网址
如何找到Python的官方网站? 百度搜索python,有官方标志的就是.如何找到Python的官方网站?可以阅读相关书籍,不过,这类型的问题更直接的是直接搜索. 中英文搜索都可以,百度搜索可以使用关 ...
Python 官网宣布，正式发布 Python 3.8.0！
来源:python.org 编辑:肖琴,转自:新智元阅读文本大概需要 3.8 分钟. Python 官网静悄悄地发布了一则大消息:正式发布 Python 3.8.0!新版本较3.7版增加了一大波新功 ...
python将源代码转换成在html可显示的格式,Python实现将HTML转换成doc格式文件的方法示例...
Python实现将HTML转换成doc格式文件的方法示例来源:中文源码网浏览: 次日期:2018年9月2日 [下载文档: Python实现将HTML转换成doc格式文件的方法示例. ...
python读写文件实例_python读写文件的简单示例
这篇文章主要为大家详细介绍了python读写文件的简单示例,具有一定的参考价值,可以用来参考一下. 感兴趣的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. 首先看一个例子: # 来自www.512 ...
php 当前页面下载文件,php实现当前页面点击下载文件的简单方法
php实现当前页面点击下载文件的简单方法发布于 2017-08-02 17:44:21 | 80 次阅读 | 评论: 0 | 来源: 网友投递 PHP开源脚本语言PHP(外文名: Hypertext ...

python官网下载文件-使用Python下载文件的简单示例

python官网下载文件-使用Python下载文件的简单示例相关推荐

最新文章

热门文章