09Python爬虫---爬虫实战之京东图片

目的：获取京东手机页面的图片
1、打开京东首页(www.jd.com)，选择对应的”手机/运营商/数码”分类，并进入“手机”子分类

链接地址：https://list.jd.com/list.html?cat=9987,653,655&page=1
分析网页源码：找到对应的图片代码段：

思路：

1、爬取网页

2、然后根据正则爬取出关键内容

3、根据关键内容再用正则匹配出图片地址

4、存到服务器将图片

源代码：

import urllib.request
import re
import urllib.error
def craw(url, page):html1 = urllib.request.urlopen(url).read()html1 = str(html1)  # 如果不转为str 则会报TypeError: cannot use a string pattern on a bytes-like object# 先把所有图片部分的数据全部取出pat1 = '<div id="plist".+?<div class="clr"'  # 注意单双引号  result1 = re.compile(pat1).findall(html1)if result1:result1 = result1[0]# 京东图片加载时首先加载8张，然后的图片为懒加载所以要获取两次图片# 根据源码写出对应图片链接地址的正则表达式pat2 = '<img width="220" height="220" data-img="1" src="//(.+?\.jpg)"' pat3 = '<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)"'  # 懒加载图片正则imagelist = re.compile(pat2).findall(result1) # 常加载的图片imagelist1 = re.compile(pat3).findall(result1)  # 懒加载的图片imagelist = imagelist + imagelist1  # 数组合并 将所有图片合并x = 1for imageurl in imagelist:# 对所存的图片进行命名imagename = "/home/zyb/crawler/myweb/part6/img1/"+str(page)+str(x)+".jpg" # 图片地址imageurl = "http://"+imageurltry:# 获取图片并保存urllib.request.urlretrieve(imageurl, filename=imagename)except urllib.error.URLError as e:if hasattr(e, "code"):  # 使用hasattr函数判断是否有这些属性x += 1if hasattr(e, "reason"):x += 1x += 1print("爬取成功")else:print("爬取失败，未获取内容")
for i in range(1, 2):url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)craw(url, i)

最终结果：

09Python爬虫---爬虫实战之京东图片相关推荐

python爬虫实践----爬取京东图片
爬虫思路: 1.分析url: http://list.jd.com/list.html?cat=9987,653,655&page=1# url只有page变化,而page代表了页数提取ur ...
python学爬虫书籍_Python3实战爬虫之爬取京东图书的图文详解
最近在学习python3,下面这篇文章主要给大家介绍了关于Python3实战爬虫之爬取京东图书图片的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下 ...
010：图片类爬虫项目实战
之间我们学习了使用Urllib模块手写图片爬虫,在本章内容中,我们会以图片类爬虫为例,为大家讲解如何通过Scrapy框架实现图片爬虫项目. 利用Urllib手写爬虫回顾: 之前在实战的时候使用Urll ...
python爬虫实例手机_Python爬虫实现爬取京东手机页面的图片(实例代码)
实例如下所示: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例
本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...
python爬虫爬取京东图片（python小白笔记七）
有时候需要统计,图片参考等,用python爬虫.爬下来的图片再存储到本地,同时把文件的名称取出一下.同时,python真是个有趣的东西,欢迎一起交流学习. 代码如下: 我的只是提取第一页,同时把图片保 ...
python爬虫项目-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
python爬虫知网实例-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
简单记录 - Jsoup爬虫入门实战数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网 ...

09Python爬虫---爬虫实战之京东图片

1、爬取网页

2、然后根据正则爬取出关键内容

3、根据关键内容再用正则匹配出图片地址

4、存到服务器将图片

09Python爬虫---爬虫实战之京东图片相关推荐

最新文章

热门文章

09Python爬虫---爬虫实战之京东图片

1、爬取网页

2、然后根据正则爬取出 关键内容

3、根据关键内容 再用正则匹配出 图片地址

4、存到服务器将图片

09Python爬虫---爬虫实战之京东图片相关推荐

最新文章

热门文章

2、然后根据正则爬取出关键内容

3、根据关键内容再用正则匹配出图片地址