需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中。

分析:以数码电器板块为例

1.查看该板块的每一页的URL:

注意到第一页是“0-1.html”,第二页是“0-2.html”,由此可找到规律。

2.查看缩略图片的URL,使用F12开发者工具,通过element选项卡中的工具对网页div进行不断展开,找到图片真正的地址:

例如:

3.查看高清图的URL:进入图片详情界面,直接右键点击图片查看图片地址,如:

为:

比较缩略图与高清图的URL对应关系,即可得出结论,高清图URL=至“.jpg!”的缩略图URL+“一陀代码”

4.编写代码:

import urllib.request
import re
import urllib.error
for i in range(1,10):pageurl="http://www.58pic.com/piccate/3-151-615-default-0_2_0_0_default_0-"+str(i)+".html"data=urllib.request.urlopen(pageurl).read().decode("utf-8","ignore")pat='</div></div><img  src="(.*?)qt'imglist=re.compile(pat).findall(data)for j in range(0,len(imglist)):try:thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a0"#被网站强行裁剪的一小部分#thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a1024"file="F:/result/"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(thisimg,filename=file)print("第"+str(i)+"页第"+str(j)+"个图片爬取成功")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)except Exception as e:print(e)

遇到的问题:

1)千图网需登录才能看到高清大图的URL。

2)千图网为对高清大图进行了裁剪,可能分为了多个小部分图片。

3)查看网页源代码的缩略图URL与Python爬取的URL可能会不一致,具体原因可能是因为登录导致的。

结果:

Python数据爬虫学习笔记(11)爬取千图网图片数据相关推荐

  1. python爬取千图网图片并保存_Python数据分析与挖掘实战-课程作业5爬取千图网某个频道的高清图片...

    作业要求:爬取千图网(http://www.58pic.com)某个频道的高清图片 作业难点:正确找到图片链接并用正则表达式写出 代码如下: """ Created on ...

  2. 爬虫学习笔记:爬取古诗文网

    1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...

  3. python爬取千图网图片(出现HTTP Error 403怎么解决)

    刚开始: 问题: 后来: 到底是要怎么改呢????? 转载于:https://www.cnblogs.com/gongzixi/p/10345119.html

  4. 爬虫笔记——多线程爬取斗图网表情包(threading)

    爬虫笔记--多线程爬取斗图网表情包(threading) 网站观察 爬取框架 具体代码 斗图网网址:斗图网,这里以爬取最新套图为例. 网站观察 在网页翻页操作中可以看到网页是非动态加载的(page为页 ...

  5. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  6. 用Python爬取彼岸图网图片

     用Python爬取彼岸图网图片 *使用了  四个模块 import time import requests from lxml import etree import os 没有的话自行百度安装. ...

  7. requests库(正则提取)爬取千图网

    requests库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信 ...

  8. 爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求...

    6.21自我总结 一.爬取斗图网 1.摘要 使用xpath匹配规则查找对应信息文件将请求伪装成浏览器Referer 防跨域请求 2.爬取代码 #导入模块 import requests#爬取网址 ur ...

  9. python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据

    学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息 首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...

最新文章

  1. NeurIPS2019 入选论文数据深度剖析!!!
  2. 中国移动开发者社区专访:学习Android的两大法宝
  3. 深入理解分布式技术 - 消息队列知识点回顾总结
  4. php mysql 数据字典_php如何生成mysql数据字典
  5. Boost:基于Boost的异步UDP回显服务器
  6. 如何将软件限制策略发挥大作用
  7. 设计模式之间的关联关系和对比
  8. java后台常见问题
  9. python fork 守护进程
  10. Qt工作笔记-MineData相关基本操作
  11. linux备份根目录与还原脚本,Shell脚本备份和还原MBR(主引导记录)
  12. 多线程等待唤醒机制之生产消费者模式
  13. LINUX右键打开方式,如何同时存在多种应用?
  14. 【安装教程】 【Visio2019】(附带安装包下载)
  15. 【渝粤题库】陕西师范大学201901 中国古代文学(二) 作业(高起专)
  16. 1.1各种编程语言的介绍
  17. 摩尔庄园手游测评——爷青回or爷青毁?
  18. Android Studio启动海马玩模拟器
  19. MYSQL常见命令-Java学习之数据库学习
  20. 考研英语——阅读的逻辑关系分析(唐迟阅读的逻辑笔记+实战)更新中

热门文章

  1. ThingsBoard 仪表板状态
  2. 南京恩博:绿水青山的守卫者
  3. matlab批量处理excel(CSV)文件数据
  4. 使用多种方法在Word方框中打对勾√和叉叉×
  5. 无业务不伸缩之一,云计算有ESS(基础篇)
  6. workbench设置单元坐标系_浅谈Ansys中的几种坐标系
  7. 基于JavaSSM和微信小程序的智能二维码门禁管理系统
  8. Win11找不到显卡控制面板怎么办?
  9. PDF如何提取其中一页,PDF提取页面的方法
  10. css ms是什么意思,CSS 3中-webkit-, -moz-, -o-, -ms-这些私有前缀的含义和兼容