正好就是一个简单的爬虫任务,就分享个代码


#需求:爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件import requests
from bs4 import BeautifulSoup
import timedef downloadFile(name, url):headers = {'Proxy-Connection':'keep-alive'}r = requests.get(url, stream=True, headers=headers)length = float(r.headers['content-length'])f = open(name, 'wb')count = 0count_tmp = 0time1 = time.time()for chunk in r.iter_content(chunk_size =1024):if chunk:f.write(chunk)count += len(chunk)if time.time() - time1 > 2:p = count / length * 100speed = (count - count_tmp) / 1024 / 1024 / 2count_tmp = countprint(name + ': ' + formatFloat(p) + '%' + ' Speed: ' + formatFloat(speed) + 'M/S')time1 = time.time()f.close()def formatFloat(num):return '{:.2f}'.format(num)#设置url
splice_url = 'http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/'#需要拼接用来下载的字符
url = 'http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/'
include_http_str = 'http'
include_scripts_str = 'scripts'
response = requests.get(url)
soup = BeautifulSoup(response.text,'lxml')
for k in soup.find_all('a'):#获取所有的a标签
#处理没用的链接,获得自己需要下载的链接if k['href'].find(include_http_str) < 0:if k['href'].find(include_scripts_str) < 0:cur_str = splice_url + k['href'] #拼接下载好的链接cur_count = len(cur_str.split('/')) download_name = cur_str.split('/')[cur_count-1] #设置保存到本地的文件名downloadFile(download_name,cur_str) #使用写好的下载脚本直接下载文件

比较简单的代码,但是处理起来还是很方便的。

爬取http://ycb-benchmarks.s3-website-us-east-1.amazonaws.com/的链接并下载文件相关推荐

  1. 教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中。(附源码)

    教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中.(附源码) 代码展示: 保存在各自的文件夹中 美么? 让我们开始爬虫之路 开发环境 windows 10 python3. ...

  2. selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件

    selenium爬取巨潮资讯指定领域下所有上市公司的数据并存储到csv文件 from selenium.webdriver import Chrome #引入selenium中的Chrome from ...

  3. python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址

    python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载 由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...

  4. python 爬取2021年《财富》世界500强排行榜2层链接

    python  爬取2021年<财富>世界500强排行榜2层链接 ''' 2021年500强财富爬取 QQ:28928247 # ''' # -*- coding: UTF-8 -*- i ...

  5. 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载

    用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...

  6. java爬虫爬取互联网上的各大影视网站---360影视(附源码下载)

    关于爬虫: 万维网上有着无数的网页,包含着海量的信息,无孔不入.森罗万象.但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣.有价值的内容,但是纵然是进化到21世纪的人类,依 ...

  7. 【练习】爬取当当网中的好评榜图书信息,显示并保存为excel文件

    声明: 1. 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助 2. 如果要转载,请标记出来源 3.本文纯粹用于技术练习,请勿用作非法途径 做题途中所遇问 ...

  8. Python爬虫爬取部分学校的新闻标题、时间、对应的新闻链接

    目录 使用工具 准备步骤 1. Anaconda Navigator 2. 安装chrome_Xpath_v2.0.2 3. 使用chrome_Xpath_v2.0.2 环境搭建 代码示例 效果展示 ...

  9. python爬取万方数据库,爬虫获取 js 动态数据 (万方数据库文献下载)

    今天讲讲用爬虫下载万方数据库文献. 右键那个下载按钮 -> 检查,我们可以看见,按钮的点击事件是一个 js 函数 upload(). 在网页源代码中,寻找这个 upload() 函数,发现它只在 ...

最新文章

  1. wxDrawjs循环添加图形后增加标识记录点击的是哪个的另类方法
  2. 【转】Virtualbox虚拟机配置安装CentOS 6.5图文教程
  3. CSS属性(根据继承性分为两类)
  4. 初始化环境配置:CentOS 7.4x64 系统安装及基础配置
  5. 根据父类id查询所有的父级_031、组函数和子查询
  6. BDD测试利器:mocha+should.js
  7. 【转】pkg-config与LD_LIBRARY_PATH
  8. Oracle 故障整理
  9. form表单样式案例
  10. 记一次公司被勒索病毒攻击事迹,上上下下咬牙切齿
  11. Vuex中的actions的参数
  12. php:php时区的三种设置方式
  13. 新型工业路由器,为进入智能工业时代加快步伐
  14. c语言sht 和ch,普通话指导:z、c、s和zh、ch、sh的分辨
  15. 小程序 朋友圈,点赞 ,评论,发布动态,功能,上传图片 -----发布动态
  16. fastjson html 转义,JSONString的转义和反转义
  17. java.lang.NoClassDefFoundError: com.unionpay.sdk.UPAgent银联开发
  18. 部署SNMP使网管与设备通信,配置关于TCP测试NQA的配置案例
  19. 安装SQLnbsp;SERVERnbsp;2000最后提示“安装…
  20. 前端面试vue (上)

热门文章

  1. 好文力荐 | MySQL 索引、B+树原理以及建索引的几大原则
  2. Java多线程基础学习一:线程的6种状态和相互转化
  3. java生成动态验证码_java动态生成验证码
  4. Java并发编程-线程池底层工作原理
  5. MySQL高级-SQL优化步骤
  6. antd pro中如何使用mock数据以及调用接口
  7. .NET BackgroundWorker的一般使用方式
  8. composer的使用
  9. Java IO的一些列子
  10. 在这里总结一些iOS开发中的小技巧,能大大方便我们的开发,持续更新。