爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件

正好就是一个简单的爬虫任务，就分享个代码


#需求：爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件import requests
from bs4 import BeautifulSoup
import timedef downloadFile(name, url):headers = {'Proxy-Connection':'keep-alive'}r = requests.get(url, stream=True, headers=headers)length = float(r.headers['content-length'])f = open(name, 'wb')count = 0count_tmp = 0time1 = time.time()for chunk in r.iter_content(chunk_size =1024):if chunk:f.write(chunk)count += len(chunk)if time.time() - time1 > 2:p = count / length * 100speed = (count - count_tmp) / 1024 / 1024 / 2count_tmp = countprint(name + ': ' + formatFloat(p) + '%' + ' Speed: ' + formatFloat(speed) + 'M/S')time1 = time.time()f.close()def formatFloat(num):return '{:.2f}'.format(num)#设置url
splice_url = 'http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/'#需要拼接用来下载的字符
url = 'http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/'
include_http_str = 'http'
include_scripts_str = 'scripts'
response = requests.get(url)
soup = BeautifulSoup(response.text,'lxml')
for k in soup.find_all('a'):#获取所有的a标签
#处理没用的链接，获得自己需要下载的链接if k['href'].find(include_http_str) < 0:if k['href'].find(include_scripts_str) < 0:cur_str = splice_url + k['href'] #拼接下载好的链接cur_count = len(cur_str.split('/')) download_name = cur_str.split('/')[cur_count-1] #设置保存到本地的文件名downloadFile(download_name,cur_str) #使用写好的下载脚本直接下载文件

比较简单的代码，但是处理起来还是很方便的。

爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件相关推荐

教你用python爬取王者荣耀英雄皮肤图片，并将图片保存在各自英雄的文件夹中。（附源码）
教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中.(附源码) 代码展示: 保存在各自的文件夹中美么? 让我们开始爬虫之路开发环境 windows 10 python3. ...
selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件
selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件 from selenium.webdriver import Chrome #引入selenium中的Chrome from ...
python使用selenium爬取联想官网驱动（一）：获取遍历各驱动的下载网址
python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...
python 爬取2021年《财富》世界500强排行榜2层链接
python 爬取2021年<财富>世界500强排行榜2层链接 ''' 2021年500强财富爬取 QQ:28928247 # ''' # -*- coding: UTF-8 -*- i ...
用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载
用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...
java爬虫爬取互联网上的各大影视网站---360影视（附源码下载）
关于爬虫: 万维网上有着无数的网页,包含着海量的信息,无孔不入.森罗万象.但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣.有价值的内容,但是纵然是进化到21世纪的人类,依 ...
【练习】爬取当当网中的好评榜图书信息，显示并保存为excel文件
声明: 1. 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助 2. 如果要转载,请标记出来源 3.本文纯粹用于技术练习,请勿用作非法途径做题途中所遇问 ...
Python爬虫爬取部分学校的新闻标题、时间、对应的新闻链接
目录使用工具准备步骤 1. Anaconda Navigator 2. 安装chrome_Xpath_v2.0.2 3. 使用chrome_Xpath_v2.0.2 环境搭建代码示例效果展示 ...
python爬取万方数据库,爬虫获取 js 动态数据（万方数据库文献下载）
今天讲讲用爬虫下载万方数据库文献. 右键那个下载按钮 -> 检查,我们可以看见,按钮的点击事件是一个 js 函数 upload(). 在网页源代码中,寻找这个 upload() 函数,发现它只在 ...

爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件

爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件相关推荐

最新文章

热门文章