环境
语言环境:python3.6
操作系统:Win10

第三方库
requests

互联网上的资源大都是以二进制形式存储和运输的,如图片、pdf、音频、视频等,像.dat、.ts等这些不常用的文件也都是二进制。我们知道python3爬虫是利用爬虫模拟浏览器向服务端发送请求,并解析服务器返回来的响应,像上述这些文件都是以二进制形式返回到本地客户端的。而response对象的属性content表示的则是HTTP响应内容的二进制形式,利用该属性,我们可以通过代码对网上资源进行下载
下载这些资源最重要的一点就是,你要知道这些文件在哪儿,也就是他们的URL,即他们的连接

下载图片
链接:美女长发披肩背影美图

代码实现

import requests  url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content       #响应的二进制文件
with open('美女.png','wb') as f:     #二进制写入f.write(img)

下载pdf
下载链接:http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf

代码实现

import requestsurl = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content       #响应的二进制文件
with open('杭电多校第六场.pdf','wb') as f:     #二进制写入f.write(pdf)

效果图

当然,本篇博文针对的只是文件的下载,当然对于这样一个两个文件完全可以手动下载,而且一般情况下资源的URL不一定说能找到就能找到的,但对于处理大批量文件来说通过脚本实现就非常容易了
以下是一个处理大量文件的例子:Python3批量下载.dat和.hea文件

利用python3爬虫下载图片、pdf文档相关推荐

  1. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  2. 下载图片,文档,excel导入导出

    Q1:下载图片,文档 --1:Fileio.html <!DOCTYPE html> <html> <head> <meta charset="UT ...

  3. itext html 转换 pdf文件,利用itext实现html转pdf文档

    Link: http://keyknight.blog.163.com/blog/static/366378402009431104941637/ 利用itext实现html转pdf文档的代码实在是太 ...

  4. 在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载)...

    在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载) 该主题的Part1- Part5系列文章已经陆续发表.为了感兴趣的朋友阅读方便,这里提供 ...

  5. python生成word 带目录_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  6. unity 利用iTextSharp 开发doc转换pdf文档

    1:将iTextSharp插件导入到unity->Asset文件夹下面 2:新建一个脚本,取名为ExportPDF,此脚本用于配置pdf文档的前期工作,以及用于接收其他脚本递交过来的数据 < ...

  7. python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  8. 自己亲自写的两本linux资料,免费下载,pdf文档

    第一本是我写的韩顺平老师解说的linux视频的笔记,该视频原本有21讲,可是我始终没有找到当中的17.18讲.可是其它部分我感觉及记录的还是蛮认真的.该套视频解说的非常基础,因此我的这本笔记也非常基础 ...

  9. qt 利用 HTML 生成PDF文档,不能显示jpg图片

    利用 QPrinter 和html 生成 pdf文档 其中用html语句有显示图片的语句 但只能显示png格式的图片,不能显示jpg格式图片. 经过排查:语法,文件路径等都正确,最终在stack ov ...

最新文章

  1. python中的类怎样理解_理解Python数据类:Dataclass fields 的概述(下)
  2. Java案例:词频统计
  3. MyIbatis使用trim灵活的插入
  4. linux离线安装httpd服务,Linux系列之离线安装Apache HTTP
  5. -分类数组-创建//修改(添加/改变原有/合并/删除)分类数组(categorical)
  6. 50.远程连接服务器 SSH, XDMCP, VNC, XRDP
  7. linux怎么对文件去重,linux文件合并、去重、拆分
  8. matlab sae模型,发动机平均值模型的三篇SAE论文
  9. tomcat设置为开机自启动
  10. win10重置mysql密码是多少钱_Win10重置mariadb密码步骤
  11. 通过ping检测网络故障的典型次序
  12. 多重剪贴板工具 CLCL
  13. 40vf什么意思_LED的基本术语VF
  14. 用区块链解决电子证据司法存证
  15. python生成微信个性签名的词云图
  16. 实现敌人(怪物)的简单AI(自动巡逻、看到玩家攻击玩家、玩家离开恢复自动巡逻)
  17. pygame绘制简单游戏——壁球(图像型,节奏型)
  18. 离心机 TFN A17CH 微量高速冷冻离心机 17800r/min 触摸屏 轻型便捷微量高速
  19. SpringBoot与ElasticSearch、ActiveMQ、RocketMQ的整合及多环境配置、响应式框架WebFlux、服务器端主动推送SSE技术、生产环境部署、Actuator监控平台
  20. 损失函数、风险函数、目标函数

热门文章

  1. web服务器并发量计算
  2. 事件与事件流、事件监听
  3. 使用CStdioFile读写文件
  4. 爬取5K分辨率超清唯美壁纸
  5. Arduino 开发入门 学习笔记 Arduino编程基础
  6. Linux系统搭建jupyter notebook
  7. 外夹式超声波流量计工作原理及优缺点
  8. 以微信公众号爬虫为例,谈谈对session、cookie和token认证的理解
  9. tp部署了admin.php如何显示页面,深度解析ThinkPHP5设置模板路径
  10. 编码解码(HtmlEncode与HtmlEncode)