【Python3 爬虫】14_爬取淘宝上的手机图片

现在我们想要使用爬虫爬取淘宝上的手机图片，那么该如何爬取呢？该做些什么准备工作呢？

首先，我们需要分析网页，先看看网页有哪些规律

打开淘宝网站http://www.taobao.com/

我们可以看到左侧是主题市场，将鼠标移动到【女装/男装/内衣】这一栏目，我们可以看到更细类的展示

假如我们现在需要爬取【羽绒服】，那么我们进入到【羽绒服】衣服这个界面

此时查看浏览器地址，我们可以看到

网址复制到word或者其他地方会发生url转码

我们可以选中【羽绒服模块的第1,2,3页进行网址对比】，对比结果如下：

从上图我们可以看出：三页的s值都是相差60

然后我们再看下图片地址：

图片中标记的地方或许是两个图片最大的差别，于是打开源代码搜索

图片1搜索结果

图片2搜索结果

从两个网址我们发现了共同的特征：都是以"pic_url":"//开头，网址分析到此结束，那么我们接下来就写代码了。

代码如下：

import urllib.request
import re
#设置关键字
keywords = "羽绒服"
#quote函数进行url编码(屏蔽特殊的字符)
key = urllib.request.quote(keywords)
#设置User-Agent
headers=("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")
#自定义opener
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
#循环遍历抓取
for i in range(0,2):url = "https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.3.5af911d9rLmo4K&q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=12&s="+str(i*60)#print(url)content = urllib.request.urlopen(url).read().decode("utf-8","ignore")rule = '"pic_url":"//(.*?)"' #正则匹配imglist = re.compile(rule).findall(content) #获取图片列表for j in range(0,len(imglist)):img = imglist[j]imgurl = "http://"+imgfile = "D://source//img//"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(imgurl,filename=file)

爬取完毕后，我们可以打开D:\source\img查看

我们已经成功爬取，并且爬取的图片与页面上是一致的。

转载于:https://www.cnblogs.com/OliverQin/p/8907248.html

【Python3 爬虫】14_爬取淘宝上的手机图片相关推荐

python爬虫淘宝手机_【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律我们可以看到左侧是主题市场,将鼠标移动到[女装/男装/内衣]这一栏目, ...
爬取淘宝上dota2自走棋糖果利润
最近一直在玩dota2自走棋,就好奇巨鸟多多糖果在淘宝上总共赚了多少钱?就用selenium爬取淘宝上dota2自走棋糖果的售价和销量.只爬了前2页,后面基本都是销量0,就没爬.不算其他税什么的,就单 ...
python爬虫淘宝实例-Python——爬虫实战爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...
Python3实例：爬取淘宝商品列表
这个实例是从淘宝爬数据,原文是:http://www.cnblogs.com/nima/p/5324490.html 因为我比较关心的是网络这一块,所以对文章做了很多删改.侧重在理解request.c ...
Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 1 #-*- coding:utf-8 -*- 2 import ...
爬虫之爬取淘宝主题市场主要产品信息
一.爬取主题市场中大分类对应的中分类 1. 分析网页源码,构造中分类的url地址: class ThememarketSpider(scrapy.Spider):name = 'thememarket ...
【python爬虫】爬取淘宝网商品信息
相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...
Python，自己修改的爬取淘宝网页的代码修改Python爬虫，爬取淘宝商品信息也不报错，也不输出信息的错误
代码部分: 下面是正确的: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r ...
Python爬虫+selenium——爬取淘宝商品信息和数据分析
浏览器驱动点击下载chromedrive .将下载的浏览器驱动文件chromedriver丢到Chrome浏览器目录中的Application文件夹下,配置Chrome浏览器位置到PATH环境. 需 ...
【爬虫】爬取淘宝网的商品信息
文章目录一.思路 1.根据关键词搜索 2.数据提取 3.数据保存二.结果三.源代码一.思路首先,从命令行参数列表中,提取出要爬取商品的关键词,根据关键词拼接URL,请求相应的URL,然后利用 ...

【Python3 爬虫】14_爬取淘宝上的手机图片

【Python3 爬虫】14_爬取淘宝上的手机图片相关推荐

最新文章

热门文章