python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来。
尤其是做我们这一行,产品经理,电商行业。
领导:弄一个买卖游戏周边商品的交易APP出来。
我:行,那我们卖什么呀?
领导:看下友商卖什么我们就卖什么。
我:好吧,那就爬点数据下来吧。
玩笑归玩笑,虽有夸张成分,但也不无道理。
作为入门级别,首先就来学习下怎么爬取网站图片。只需要调用4个方法,即可轻松批量拿到网站图片。
下面对于每一步调用的方法进行详细说明(主要还是自己拿了别人代码之后遇到的坑)
第一步:获取网页的源代码
urllib.request.urlopen().read()
这个方法是获取到请求的这个URL所返回的网页源代码信息数据,返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中,所以还要调用decode()方法进行解码。
最终得到的就是平时我们编写或者查看的页面源代码了。
这里可能会出现的报错信息:
1.Non-ASCII character '\xe5'
原因:这是编码的问题,Python的默认编码文件是用的ASCII码,而你的Python文件中使用了中文等非英语字符。
解决方法:在第一行添加 # -- coding: UTF-8 --
2.如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书
解决方法:全局加上以下代码
第二步:过滤出图片URL
这一步至为关键,因为在一堆网页源代码中,要有效找出目标对象(图片URL)的特点(结构特征)才行。怎么找?
1.了解图片URL的html表达方式
学过html的同学都知道,图片的标签是,src属性定义其图片源路径。
2.使用正则表达式进行匹配
我也没有详细了解过正则表达式各个符号的含义,这里不展开讲。
这里的正则表达式的意思是,过滤出所有标签是,旗下的src属性,且属性值是以http开头jpg结尾的源代码。
每个网站的规则都不一样,不能直接套用代码。
简单例子,你要爬取的网站图片是png格式,直接拿代码去运行肯定是什么都抓不到的。
再例如,我在一开始设定的规则中是没有加上http开头的,结果抓到一些图片URL是相对路径的数据,导致后面是无法访问URL报错的。
3.将所有匹配规则的代码存入list里
re.compile() 根据包含的正则表达式的字符串创建模式对象(直接拿来用就好)
findall() 返回string中所有与pattern相匹配的全部字串,返回形式为数组
我们试一下打印出来imglist是什么结果,看是不是就把所有匹配规则的内容全部找出来呢!
第三步:定义图片保存路径
这一步看个人习惯,如果只是少数几张图片,就没有必要新建一个文件夹给图片都保存整理到一起。
不过如果是爬一个网站或一个网页相对数量级比较大的时候,建议还是全部整理到一个文件夹里面,好管理嘛。
“新建文件夹”这个基础的操作,就调用os.makedirs()方法即可。
但是这里有3个注意的点:
1.新建文件夹,你是希望指定路径还是在当前路径下创建?
指定路径:很简单,直接把你想要创建文件夹的路径复制出来,加上新建文件夹的名称,作为参数直接写到方法里即可。
eg.(windows)
当前路径:先获取当前的目录,再拼接上新建文件夹的名称。
获取当前目录的方式是:os.getcwd()
eg.
2.新建的文件夹是否已存在?
相同目录下不能有重名的文件/文件夹,如果直接创建的话,就会报错:文件已存在,无法创建。
3.是否需要考虑windows和macOS的路径表述方式不一样?
注意一下,两个操作系统对于路径的表述方式是不一样的,尤其是指定路径,要输入正确的路径才能创建成功。
第四步:将图片URL保存到文件夹下
现在,图片URL已经存入到list里(见第2步)、保存图片的文件夹也有了,就可以将虚拟的图片url转换成真实的png或jpg文件。
urllib.request.urlretrieve(url, filename)这个方法就是将远程数据下载到本地
url:远程或本地的url,对应这里就是要放图片URL了。
filename:保存的完整地方,即“路径+文件名”。如果未指定该参数,urllib会生成一个临时文件来保存数据。
这里要注意3个地方:
1.图片的文件名怎么生成?
建议使用最简单的方式来生成文件名:递增数字+图片后缀
这里就再次说明要新建文件夹的重要性,新建文件夹后,这个目录下是全新空白的,不用考虑生成的文件名会不会和原有文件名重复的问题。
递增数字:譬如说,第一张图片叫“1.jpg”,第二张图片叫“2.jpg”,如此类推。
2.一般网站爬下来的图片是多张的,如何批量处理?
这里也说明了,为什么要将抓取到的图片url存到list里面了。给list一个循环,每个url调用一次urllib.request.urlretrieve()方法,那就相当于每个url都保存为1个图片。
3.报错:urllib2.HTTPError: HTTP Error 403: Forbidden
原因:一些网站是禁止爬虫做的处理
解决方法:可以在请求加上头信息,伪装成浏览器访问User-Agent(具体的信息可以通过火狐的FireBug插件查询),再去请求。
运行结果:一堆图片
其他问题
1.没有自动安装或导入第三方库,如urllib.request
报错:ImportError: No module named request
解决方法:安装第三方库,Mac机上在安装python3之后,系统是自动安装了pip3,所以我们只需要每次使用pip3即可安装(Windows请自行百度,注意区分Python2和Python3)
敲入安装命令:pip3 install requests
2.千万千万要注意windows和mac系统的路径表达方式不一样
因为我是两个操作系统切换着用,所以很头痛有这个问题,每次要记得改就是了,没技术难度。或者再加一层系统判断进行兼容就好了。
最后
文章的代码文件可以分享给大家,留下你们的邮箱,我就会把文件发给大家。
代码很小白,很简陋,请勿见笑,请多指正!
初学Python-2018.08.04
慢慢努力,每天学得一点是一点,给自己加油!
python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)相关推荐
- iphone看python文件_Python实战 | 只需 ”三步“ 爬取二手iphone手机信息(转发送源码)...
原标题:Python实战 | 只需 "三步" 爬取二手iphone手机信息(转发送源码) 本次实战是爬取二手苹果手机的信息,共爬取了300部手机信息,效果如下: 开发环境 环境:M ...
- python 第一行 报错_初学Python-只需4步,爬取网站图片
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...
- 爬取千库网ppt_初学Python-只需4步,爬取网站图片(附py文件)
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...
- Python网络爬虫——爬取网站图片小工具
最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...
- Python爬取网站图片并保存,超级简单
Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...
- Python爬取网站图片数据
Python爬取网站图片数据 找到需要爬取的网站地址 模拟网站http请求 根据调试模式获取的了解读取到真实的地址url,读取请求头数据和参数信息,模拟http请求调用 import requests ...
- C++编写爬虫脚本爬取网站图片
C++编写爬虫脚本爬取网站图片 整体代码设计思路 具体功能实现 初始化网络库 url中爬取图片 获取网页源代码 连接主机 url中获取主机名和文件名 html中提取连接 html中提取图片链接 获取并 ...
- 四个步骤教你爬取网站图片,新手必学
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...
- python 循环 覆盖之前print内容_Python爬虫第二战---爬取500px图片
前言: 如今的高速网络极大促进了信息的展示方式,高清图片,视频等成就了我们的视听盛宴.但是,我们获取到的图片或者视频可能是被压缩过的,所以总体上还是有点小瑕疵,今天呢,我给大家带来一篇使用Python ...
最新文章
- Spring源码分析【5】-Spring MVC处理流程
- Windows Phone UI控件
- rust(67)-rust元组与空元组
- 谈谈 Android 中的 PathClassLoader 和 DexClassLoader
- cplex安装_Excel软件规划求解工具的安装与功能介绍
- IndexedDB:浏览器里内置的数据库
- java自动化执行javascript,Js代码执行__实现自动化
- CentOS7文本模式下配置及安装KVM虚拟机
- 快速西门子PLC入门(零基础心得版)
- 计算机故障报警声2声,电脑开机报警声音2短4短是什么問題?
- 磁盘提示:使用驱动器中的光盘之前需要将其格式化怎么办?
- RobotStudio安装步骤
- Java 实现PDB数据库中蛋白质部分序列与Uniport数据库中相应的全长序列的最优匹配
- 企业智能化管理固定资产的新思路
- HTTP和TCP之间的关系
- VVC学习之五:帧内预测之色度预测——CCLM及代码学习
- 【邢不行|量化小讲堂系列40-Python量化入门】为什么我推荐使用Anaconda
- ubuntu 防火墙端口设置
- 【IoT】产品设计:不得不说的「硬件黑话」
- Halcon正版软件加密狗使用指南
热门文章
- arccatalog点要素显示不完_孩子过生日,是选“阴历”还是“阳历”?看完这3点再决定也不迟...
- jq onclick 定义_关于js中的onclick事件和JQuery中的click方法
- 十大恶意软件让安卓手机成为噩梦,移动代码签名证书重要性大增
- numpy的astype函数
- Proxmox VE(PVE)开启IOMMO并开启网卡(82576)SRIOV功能【时隔半年,我回来了】
- 基于Spring AOP实现权限控制
- CefSharp-基于C#的客户端开发框架技术栈开发全记录
- iOS入门开发计算器小程序,包括button、label、image的使用
- 渗透测试学习入门级基础知识总结(必备)
- 人工智能AI常用的库有哪些?