Python数据爬虫学习笔记(11)爬取千图网图片数据
需求:在千图网http://www.58pic.com中的某一板块中,将一定页数的高清图片素材爬取到一个指定的文件夹中。
分析:以数码电器板块为例
1.查看该板块的每一页的URL:
注意到第一页是“0-1.html”,第二页是“0-2.html”,由此可找到规律。
2.查看缩略图片的URL,使用F12开发者工具,通过element选项卡中的工具对网页div进行不断展开,找到图片真正的地址:
例如:
3.查看高清图的URL:进入图片详情界面,直接右键点击图片查看图片地址,如:
为:
比较缩略图与高清图的URL对应关系,即可得出结论,高清图URL=至“.jpg!”的缩略图URL+“一陀代码”
4.编写代码:
import urllib.request
import re
import urllib.error
for i in range(1,10):pageurl="http://www.58pic.com/piccate/3-151-615-default-0_2_0_0_default_0-"+str(i)+".html"data=urllib.request.urlopen(pageurl).read().decode("utf-8","ignore")pat='</div></div><img src="(.*?)qt'imglist=re.compile(pat).findall(data)for j in range(0,len(imglist)):try:thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a0"#被网站强行裁剪的一小部分#thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a1024"file="F:/result/"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(thisimg,filename=file)print("第"+str(i)+"页第"+str(j)+"个图片爬取成功")except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)except Exception as e:print(e)
遇到的问题:
1)千图网需登录才能看到高清大图的URL。
2)千图网为对高清大图进行了裁剪,可能分为了多个小部分图片。
3)查看网页源代码的缩略图URL与Python爬取的URL可能会不一致,具体原因可能是因为登录导致的。
结果:
Python数据爬虫学习笔记(11)爬取千图网图片数据相关推荐
- python爬取千图网图片并保存_Python数据分析与挖掘实战-课程作业5爬取千图网某个频道的高清图片...
作业要求:爬取千图网(http://www.58pic.com)某个频道的高清图片 作业难点:正确找到图片链接并用正则表达式写出 代码如下: """ Created on ...
- 爬虫学习笔记:爬取古诗文网
1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...
- python爬取千图网图片(出现HTTP Error 403怎么解决)
刚开始: 问题: 后来: 到底是要怎么改呢????? 转载于:https://www.cnblogs.com/gongzixi/p/10345119.html
- 爬虫笔记——多线程爬取斗图网表情包(threading)
爬虫笔记--多线程爬取斗图网表情包(threading) 网站观察 爬取框架 具体代码 斗图网网址:斗图网,这里以爬取最新套图为例. 网站观察 在网页翻页操作中可以看到网页是非动态加载的(page为页 ...
- python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
- 用Python爬取彼岸图网图片
用Python爬取彼岸图网图片 *使用了 四个模块 import time import requests from lxml import etree import os 没有的话自行百度安装. ...
- requests库(正则提取)爬取千图网
requests库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信 ...
- 爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求...
6.21自我总结 一.爬取斗图网 1.摘要 使用xpath匹配规则查找对应信息文件将请求伪装成浏览器Referer 防跨域请求 2.爬取代码 #导入模块 import requests#爬取网址 ur ...
- python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据
学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息 首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...
最新文章
- NeurIPS2019 入选论文数据深度剖析!!!
- 中国移动开发者社区专访:学习Android的两大法宝
- 深入理解分布式技术 - 消息队列知识点回顾总结
- php mysql 数据字典_php如何生成mysql数据字典
- Boost:基于Boost的异步UDP回显服务器
- 如何将软件限制策略发挥大作用
- 设计模式之间的关联关系和对比
- java后台常见问题
- python fork 守护进程
- Qt工作笔记-MineData相关基本操作
- linux备份根目录与还原脚本,Shell脚本备份和还原MBR(主引导记录)
- 多线程等待唤醒机制之生产消费者模式
- LINUX右键打开方式,如何同时存在多种应用?
- 【安装教程】 【Visio2019】(附带安装包下载)
- 【渝粤题库】陕西师范大学201901 中国古代文学(二) 作业(高起专)
- 1.1各种编程语言的介绍
- 摩尔庄园手游测评——爷青回or爷青毁?
- Android Studio启动海马玩模拟器
- MYSQL常见命令-Java学习之数据库学习
- 考研英语——阅读的逻辑关系分析(唐迟阅读的逻辑笔记+实战)更新中
热门文章
- ThingsBoard 仪表板状态
- 南京恩博:绿水青山的守卫者
- matlab批量处理excel(CSV)文件数据
- 使用多种方法在Word方框中打对勾√和叉叉×
- 无业务不伸缩之一,云计算有ESS(基础篇)
- workbench设置单元坐标系_浅谈Ansys中的几种坐标系
- 基于JavaSSM和微信小程序的智能二维码门禁管理系统
- Win11找不到显卡控制面板怎么办?
- PDF如何提取其中一页,PDF提取页面的方法
- css ms是什么意思,CSS 3中-webkit-, -moz-, -o-, -ms-这些私有前缀的含义和兼容