很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来。

尤其是做我们这一行,产品经理,电商行业。

领导:弄一个买卖游戏周边商品的交易APP出来。

我:行,那我们卖什么呀?

领导:看下友商卖什么我们就卖什么。

我:好吧,那就爬点数据下来吧。

玩笑归玩笑,虽有夸张成分,但也不无道理。

作为入门级别,首先就来学习下怎么爬取网站图片。只需要调用4个方法,即可轻松批量拿到网站图片。

下面对于每一步调用的方法进行详细说明(主要还是自己拿了别人代码之后遇到的坑)第一步:获取网页的源代码

urllib.request.urlopen().read()

这个方法是获取到请求的这个URL所返回的网页源代码信息数据,返回值是bytes类型时,要将其转换成utf-8才能正常显示在python程序中,所以还要调用decode()方法进行解码。

最终得到的就是平时我们编写或者查看的页面源代码了。

这里可能会出现的报错信息:

1.Non-ASCII character '\xe5'

原因:这是编码的问题,Python的默认编码文件是用的ASCII码,而你的Python文件中使用了中文等非英语字符。

解决方法:在第一行添加  # -- coding: UTF-8 --

2.如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书

解决方法:全局加上以下代码

第二步:过滤出图片URL

这一步至为关键,因为在一堆网页源代码中,要有效找出目标对象(图片URL)的特点(结构特征)才行。怎么找?

1.了解图片URL的html表达方式

学过html的同学都知道,图片的标签是,src属性定义其图片源路径。

2.使用正则表达式进行匹配

我也没有详细了解过正则表达式各个符号的含义,这里不展开讲。

这里的正则表达式的意思是,过滤出所有标签是,旗下的src属性,且属性值是以http开头jpg结尾的源代码。

每个网站的规则都不一样,不能直接套用代码。

简单例子,你要爬取的网站图片是png格式,直接拿代码去运行肯定是什么都抓不到的。

再例如,我在一开始设定的规则中是没有加上http开头的,结果抓到一些图片URL是相对路径的数据,导致后面是无法访问URL报错的。

3.将所有匹配规则的代码存入list里

re.compile()  根据包含的正则表达式的字符串创建模式对象(直接拿来用就好)

findall()  返回string中所有与pattern相匹配的全部字串,返回形式为数组

我们试一下打印出来imglist是什么结果,看是不是就把所有匹配规则的内容全部找出来呢!

第三步:定义图片保存路径

这一步看个人习惯,如果只是少数几张图片,就没有必要新建一个文件夹给图片都保存整理到一起。

不过如果是爬一个网站或一个网页相对数量级比较大的时候,建议还是全部整理到一个文件夹里面,好管理嘛。

“新建文件夹”这个基础的操作,就调用os.makedirs()方法即可。

但是这里有3个注意的点:

1.新建文件夹,你是希望指定路径还是在当前路径下创建?

指定路径:很简单,直接把你想要创建文件夹的路径复制出来,加上新建文件夹的名称,作为参数直接写到方法里即可。

eg.(windows)

当前路径:先获取当前的目录,再拼接上新建文件夹的名称。

获取当前目录的方式是:os.getcwd()

eg.

2.新建的文件夹是否已存在?

相同目录下不能有重名的文件/文件夹,如果直接创建的话,就会报错:文件已存在,无法创建。

3.是否需要考虑windows和macOS的路径表述方式不一样?

注意一下,两个操作系统对于路径的表述方式是不一样的,尤其是指定路径,要输入正确的路径才能创建成功。第四步:将图片URL保存到文件夹下

现在,图片URL已经存入到list里(见第2步)、保存图片的文件夹也有了,就可以将虚拟的图片url转换成真实的png或jpg文件。

urllib.request.urlretrieve(url, filename)这个方法就是将远程数据下载到本地

url:远程或本地的url,对应这里就是要放图片URL了。

filename:保存的完整地方,即“路径+文件名”。如果未指定该参数,urllib会生成一个临时文件来保存数据。

这里要注意3个地方:

1.图片的文件名怎么生成?

建议使用最简单的方式来生成文件名:递增数字+图片后缀

这里就再次说明要新建文件夹的重要性,新建文件夹后,这个目录下是全新空白的,不用考虑生成的文件名会不会和原有文件名重复的问题。

递增数字:譬如说,第一张图片叫“1.jpg”,第二张图片叫“2.jpg”,如此类推。

2.一般网站爬下来的图片是多张的,如何批量处理?

这里也说明了,为什么要将抓取到的图片url存到list里面了。给list一个循环,每个url调用一次urllib.request.urlretrieve()方法,那就相当于每个url都保存为1个图片。

3.报错:urllib2.HTTPError: HTTP Error 403: Forbidden

原因:一些网站是禁止爬虫做的处理

解决方法:可以在请求加上头信息,伪装成浏览器访问User-Agent(具体的信息可以通过火狐的FireBug插件查询),再去请求。

运行结果:一堆图片

其他问题

1.没有自动安装或导入第三方库,如urllib.request

报错:ImportError: No module named request

解决方法:安装第三方库,Mac机上在安装python3之后,系统是自动安装了pip3,所以我们只需要每次使用pip3即可安装(Windows请自行百度,注意区分Python2和Python3)

敲入安装命令:pip3 install requests

2.千万千万要注意windows和mac系统的路径表达方式不一样

因为我是两个操作系统切换着用,所以很头痛有这个问题,每次要记得改就是了,没技术难度。或者再加一层系统判断进行兼容就好了。

最后

文章的代码文件可以分享给大家,留下你们的邮箱,我就会把文件发给大家。

代码很小白,很简陋,请勿见笑,请多指正!

初学Python-2018.08.04

慢慢努力,每天学得一点是一点,给自己加油!

爬取千库网ppt_初学Python-只需4步,爬取网站图片(附py文件)相关推荐

  1. 爬取千库网ppt_前程无忧爬虫、数据清洗及可视化

    #!/usr/bin/env python # -*- coding:utf-8 -*- importrequests importpandasaspd #from pprint import ppr ...

  2. iphone看python文件_Python实战 | 只需 ”三步“ 爬取二手iphone手机信息(转发送源码)...

    原标题:Python实战 | 只需 "三步" 爬取二手iphone手机信息(转发送源码) 本次实战是爬取二手苹果手机的信息,共爬取了300部手机信息,效果如下: 开发环境 环境:M ...

  3. 爬取千库网ppt_python爬取千库网

    但是点进去就没了 这里先来测试是否有反爬虫 import requests from bs4 import BeautifulSoup import os html = requests.get('h ...

  4. requests库(正则提取)爬取千图网

    requests库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信 ...

  5. python爬取千图网图片并保存_Python数据分析与挖掘实战-课程作业5爬取千图网某个频道的高清图片...

    作业要求:爬取千图网(http://www.58pic.com)某个频道的高清图片 作业难点:正确找到图片链接并用正则表达式写出 代码如下: """ Created on ...

  6. python 图片库_Python开发之千库网图片下载助手

    千库网图片下载助手开发 我是一个很爱美的人,写文章喜欢带点插图. 另外我也有一个VX公众账号,写推文总需要点封面图片和插图的嘛,为了看起来更加美观和优雅. 为此我在网上找了写图片,但是直接通过右键下载 ...

  7. python xpath循环_初学Python,就用它爬取一点情话说给她听!

    老铁们,一年一度的520就要来了,大家有没有正在抓耳挠腮的给女朋友准备礼物呢? 作为一个业余非专业程序猿(ps:自称程序猿,哈哈),最近初学python,用它来抓取情话网站的100页情话,作为给女朋友 ...

  8. python界面设计资源库_python界面ui设计图-python界面ui设计模板-千库网

    开通元素VIP 设计不抠图 正版敢商用 免抠PNG下载即用 海量紧跟营销热点 商用版权设计无忧 低价0.27元/天享海量下载立即开通 开通元素VIP 设计不抠图 正版敢商用 免抠PNG下载即用 海量紧 ...

  9. 最新手写图片爬虫(针对千库网和一个福利网站)

    前言:由于前一段时期需要从网站上扒一些图片下来,因为css,js都好扒,就是图片数量众多,需要代码实现,在网上找了一堆以实现的代码,要么没有用,要么功能不是自己想要的,干脆自己写一个,写的时候发现还挺 ...

最新文章

  1. 这所985大学宣布调查结果:抄袭事实成立!撤销其硕士学位!
  2. 计算机网络名词解释-csma cda,计算机专业对口升学模拟题1资料.doc
  3. centos7搭建easy-mock服务
  4. C++ Templates之模板元编程
  5. 异常:java.lang.NoClassDefFoundError: org/springframework/expression/ParserContext
  6. python把图片存放到数据库_使用Python把图片存入数据库
  7. 西门子plc200 c语言转换,s7-200程序转换成s7-1200方法
  8. php arcsin,三角函数在线计算器
  9. 基于python的数字印刷体识别_利用卷积神经网络识别印刷体中文
  10. 自定义Xshell高亮
  11. 详细解读TPH-YOLOv5 | 让目标检测任务中的小目标无处遁形
  12. 把读书当做信仰的民族:犹太民族
  13. 大型网站技术架构+核心原理与案例分析+李智慧
  14. 7.0版本的微信你会接受它吗?
  15. 高考,高中毕业之后,这人世间,又多了一只闲云野鹤
  16. Team System:基本 Power Tool 工具
  17. AJAX技术学院风连衣裙,清新又减龄学院风连衣裙,轻松穿出少女感
  18. 电荷放大器+低通滤波器的设计
  19. 介绍VO、DTO、PO、DO
  20. Epplus获取数据区域的第一行或最后一行

热门文章

  1. HCIA脱产班 学习笔记4
  2. SQL Server - 提高服务器安全性13招
  3. matlab legend剔除,Matlab图例里多余的线去除 legendline off
  4. ENVI5.3 影像数据辐射定标及大气校正实验处理-多光谱遥感数据
  5. linux系统用中文怎么说,Linux系统的Linux中文怎么读?
  6. gpo 软件限制策略_什么是GPO(组策略对象)? 如何在Microsoft Windows中使用,更改GPO?...
  7. 火车头采集规则,火车头采集数据发布不小心设置了发布数量怎么修改?
  8. processing-python-泡泡龙(终极真实版)
  9. 深度解读:《数字孪生世界白皮书(2023)》全方位剖析
  10. “爱因斯坦的超级问题:谁养鱼?”