利用python3爬虫下载图片、pdf文档
环境
语言环境:python3.6
操作系统:Win10
第三方库
requests
互联网上的资源大都是以二进制形式存储和运输的,如图片、pdf、音频、视频等,像.dat、.ts等这些不常用的文件也都是二进制。我们知道python3爬虫是利用爬虫模拟浏览器向服务端发送请求,并解析服务器返回来的响应,像上述这些文件都是以二进制形式返回到本地客户端的。而response对象的属性content表示的则是HTTP响应内容的二进制形式,利用该属性,我们可以通过代码对网上资源进行下载
下载这些资源最重要的一点就是,你要知道这些文件在哪儿,也就是他们的URL,即他们的连接
下载图片
链接:美女长发披肩背影美图
代码实现
import requests url = 'https://img-blog.csdnimg.cn/20181119214250858.png'
r = requests.get(url)
img = r.content #响应的二进制文件
with open('美女.png','wb') as f: #二进制写入f.write(img)
下载pdf
下载链接:http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf
代码实现
import requestsurl = 'http://47.106.94.154/study_file/hdu-multi6-fzdx.pdf'
r = requests.get(url)
pdf = r.content #响应的二进制文件
with open('杭电多校第六场.pdf','wb') as f: #二进制写入f.write(pdf)
效果图
当然,本篇博文针对的只是文件的下载,当然对于这样一个两个文件完全可以手动下载,而且一般情况下资源的URL不一定说能找到就能找到的,但对于处理大批量文件来说通过脚本实现就非常容易了
以下是一个处理大量文件的例子:Python3批量下载.dat和.hea文件
利用python3爬虫下载图片、pdf文档相关推荐
- python处理word或者pdf文件_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- 下载图片,文档,excel导入导出
Q1:下载图片,文档 --1:Fileio.html <!DOCTYPE html> <html> <head> <meta charset="UT ...
- itext html 转换 pdf文件,利用itext实现html转pdf文档
Link: http://keyknight.blog.163.com/blog/static/366378402009431104941637/ 利用itext实现html转pdf文档的代码实在是太 ...
- 在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载)...
在.NET 3.5 平台上使用LINQ to SQL创建三层/多层Web应用系统(源代码下载和PDF文档下载) 该主题的Part1- Part5系列文章已经陆续发表.为了感兴趣的朋友阅读方便,这里提供 ...
- python生成word 带目录_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- unity 利用iTextSharp 开发doc转换pdf文档
1:将iTextSharp插件导入到unity->Asset文件夹下面 2:新建一个脚本,取名为ExportPDF,此脚本用于配置pdf文档的前期工作,以及用于接收其他脚本递交过来的数据 < ...
- python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- 自己亲自写的两本linux资料,免费下载,pdf文档
第一本是我写的韩顺平老师解说的linux视频的笔记,该视频原本有21讲,可是我始终没有找到当中的17.18讲.可是其它部分我感觉及记录的还是蛮认真的.该套视频解说的非常基础,因此我的这本笔记也非常基础 ...
- qt 利用 HTML 生成PDF文档,不能显示jpg图片
利用 QPrinter 和html 生成 pdf文档 其中用html语句有显示图片的语句 但只能显示png格式的图片,不能显示jpg格式图片. 经过排查:语法,文件路径等都正确,最终在stack ov ...
最新文章
- python中的类怎样理解_理解Python数据类:Dataclass fields 的概述(下)
- Java案例:词频统计
- MyIbatis使用trim灵活的插入
- linux离线安装httpd服务,Linux系列之离线安装Apache HTTP
- -分类数组-创建//修改(添加/改变原有/合并/删除)分类数组(categorical)
- 50.远程连接服务器 SSH, XDMCP, VNC, XRDP
- linux怎么对文件去重,linux文件合并、去重、拆分
- matlab sae模型,发动机平均值模型的三篇SAE论文
- tomcat设置为开机自启动
- win10重置mysql密码是多少钱_Win10重置mariadb密码步骤
- 通过ping检测网络故障的典型次序
- 多重剪贴板工具 CLCL
- 40vf什么意思_LED的基本术语VF
- 用区块链解决电子证据司法存证
- python生成微信个性签名的词云图
- 实现敌人(怪物)的简单AI(自动巡逻、看到玩家攻击玩家、玩家离开恢复自动巡逻)
- pygame绘制简单游戏——壁球(图像型,节奏型)
- 离心机 TFN A17CH 微量高速冷冻离心机 17800r/min 触摸屏 轻型便捷微量高速
- SpringBoot与ElasticSearch、ActiveMQ、RocketMQ的整合及多环境配置、响应式框架WebFlux、服务器端主动推送SSE技术、生产环境部署、Actuator监控平台
- 损失函数、风险函数、目标函数