Python数据爬虫学习笔记（11）爬取千图网图片数据

需求：在千图网http://www.58pic.com中的某一板块中，将一定页数的高清图片素材爬取到一个指定的文件夹中。

分析：以数码电器板块为例

1.查看该板块的每一页的URL：

注意到第一页是“0-1.html”，第二页是“0-2.html”，由此可找到规律。

2.查看缩略图片的URL，使用F12开发者工具，通过element选项卡中的工具对网页div进行不断展开，找到图片真正的地址：

例如：

3.查看高清图的URL：进入图片详情界面，直接右键点击图片查看图片地址，如：

为：

比较缩略图与高清图的URL对应关系，即可得出结论，高清图URL=至“.jpg!”的缩略图URL+“一陀代码”

4.编写代码：

import urllib.request
import re
import urllib.error
for i in range(1,10):pageurl="http://www.58pic.com/piccate/3-151-615-default-0_2_0_0_default_0-"+str(i)+".html"data=urllib.request.urlopen(pageurl).read().decode("utf-8","ignore")pat='</div></div><img  src="(.*?)qt'imglist=re.compile(pat).findall(data)for j in range(0,len(imglist)):try:thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a0"#被网站强行裁剪的一小部分#thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a1024"file="F:/result/"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(thisimg,filename=file)print("第"+str(i)+"页第"+str(j)+"个图片爬取成功")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)except Exception as e:print(e)

遇到的问题：

1）千图网需登录才能看到高清大图的URL。

2）千图网为对高清大图进行了裁剪，可能分为了多个小部分图片。

3）查看网页源代码的缩略图URL与Python爬取的URL可能会不一致，具体原因可能是因为登录导致的。

结果：

Python数据爬虫学习笔记（11）爬取千图网图片数据相关推荐

python爬取千图网图片并保存_Python数据分析与挖掘实战-课程作业5爬取千图网某个频道的高清图片...
作业要求:爬取千图网(http://www.58pic.com)某个频道的高清图片作业难点:正确找到图片链接并用正则表达式写出代码如下: """ Created on ...
爬虫学习笔记：爬取古诗文网
1.目标网站目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...
python爬取千图网图片（出现HTTP Error 403怎么解决）
刚开始: 问题: 后来: 到底是要怎么改呢????? 转载于:https://www.cnblogs.com/gongzixi/p/10345119.html
爬虫笔记——多线程爬取斗图网表情包（threading）
爬虫笔记--多线程爬取斗图网表情包(threading) 网站观察爬取框架具体代码斗图网网址:斗图网,这里以爬取最新套图为例. 网站观察在网页翻页操作中可以看到网页是非动态加载的(page为页 ...
python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
用Python爬取彼岸图网图片
用Python爬取彼岸图网图片 *使用了四个模块 import time import requests from lxml import etree import os 没有的话自行百度安装. ...
requests库（正则提取）爬取千图网
requests库(正则提取)爬取千图网首先分析网页结构打开千图网的网址搜索春节打开网页源代码,发现跳转链接存在网页源代码里接下来我们就利用正则表达式去提取正则表达式最主要的就是找到你想要信 ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求...
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器Referer 防跨域请求 2.爬取代码 #导入模块 import requests#爬取网址 ur ...
python爬虫爬取58网站数据_python实战学习笔记：爬取58同城平板电脑数据
学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...

Python数据爬虫学习笔记（11）爬取千图网图片数据

Python数据爬虫学习笔记（11）爬取千图网图片数据相关推荐

最新文章

热门文章