现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢?

首先,我们需要分析网页,先看看网页有哪些规律

打开淘宝网站http://www.taobao.com/

我们可以看到左侧是主题市场,将鼠标移动到【女装/男装/内衣】这一栏目,我们可以看到更细类的展示

假如我们现在需要爬取【羽绒服】,那么我们进入到【羽绒服】衣服这个界面

此时查看浏览器地址,我们可以看到

网址复制到word或者其他地方会发生url转码

我们可以选中【羽绒服模块的第1,2,3页进行网址对比】,对比结果如下:

从上图我们可以看出:三页的s值都是相差60

然后我们再看下图片地址:

图片中标记的地方或许是两个图片最大的差别,于是打开源代码搜索

图片1搜索结果

图片2搜索结果

从两个网址我们发现了共同的特征:都是以"pic_url":"//开头,网址分析到此结束,那么我们接下来就写代码了。

代码如下:

import urllib.request
import re
#设置关键字
keywords = "羽绒服"
#quote函数进行url编码(屏蔽特殊的字符)
key = urllib.request.quote(keywords)
#设置User-Agent
headers=("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")
#自定义opener
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
#循环遍历抓取
for i in range(0,2):url = "https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.3.5af911d9rLmo4K&q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=12&s="+str(i*60)#print(url)content = urllib.request.urlopen(url).read().decode("utf-8","ignore")rule = '"pic_url":"//(.*?)"' #正则匹配imglist = re.compile(rule).findall(content) #获取图片列表for j in range(0,len(imglist)):img = imglist[j]imgurl = "http://"+imgfile = "D://source//img//"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(imgurl,filename=file)

爬取完毕后,我们可以打开D:\source\img查看

我们已经成功爬取,并且爬取的图片与页面上是一致的。

转载于:https://www.cnblogs.com/OliverQin/p/8907248.html

【Python3 爬虫】14_爬取淘宝上的手机图片相关推荐

  1. python爬虫淘宝手机_【Python3 爬虫】14_爬取淘宝上的手机图片

    现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 我们可以看到左侧是主题市场,将鼠标移动到[女装/男装/内衣]这一栏目, ...

  2. 爬取淘宝上dota2自走棋糖果利润

    最近一直在玩dota2自走棋,就好奇巨鸟多多糖果在淘宝上总共赚了多少钱?就用selenium爬取淘宝上dota2自走棋糖果的售价和销量.只爬了前2页,后面基本都是销量0,就没爬.不算其他税什么的,就单 ...

  3. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

  4. Python3实例:爬取淘宝商品列表

    这个实例是从淘宝爬数据,原文是:http://www.cnblogs.com/nima/p/5324490.html 因为我比较关心的是网络这一块,所以对文章做了很多删改.侧重在理解request.c ...

  5. Python 002- 爬虫爬取淘宝上耳机的信息

    参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 1 #-*- coding:utf-8 -*- 2 import ...

  6. 爬虫之爬取淘宝主题市场主要产品信息

    一.爬取主题市场中大分类对应的中分类 1. 分析网页源码,构造中分类的url地址: class ThememarketSpider(scrapy.Spider):name = 'thememarket ...

  7. 【python爬虫】爬取淘宝网商品信息

    相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...

  8. Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误

    代码部分: 下面是正确的: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r ...

  9. Python爬虫+selenium——爬取淘宝商品信息和数据分析

    浏览器驱动 点击下载chromedrive .将下载的浏览器驱动文件chromedriver丢到Chrome浏览器目录中的Application文件夹下,配置Chrome浏览器位置到PATH环境. 需 ...

  10. 【爬虫】爬取淘宝网的商品信息

    文章目录 一.思路 1.根据关键词搜索 2.数据提取 3.数据保存 二.结果 三.源代码 一.思路 首先,从命令行参数列表中,提取出要爬取商品的关键词,根据关键词拼接URL,请求相应的URL,然后利用 ...

最新文章

  1. LeetCode简单题之二叉搜索树中的众数
  2. Extreme 交换机基础配置命令
  3. Linux 下的动态链接库问题
  4. 学习小技巧---javascript中获取服务器端控件生成的页面ID
  5. HTTP代理原理以及HTTP隧道技术
  6. 用Java模仿简单的Ping命令
  7. 数据之路 - Python爬虫 - 正则表达式
  8. pip和pip3 换源
  9. Ubuntu 命令手册
  10. 面板和型材切割优化软件Boole.OptiCut.Pro-PP.v5.20b
  11. 用户故事 | 李兆龙:博观而约取,厚积而薄发
  12. html背景图片被白色覆盖,html – CSS背景图片淡出白色
  13. matlab 三角函数 和差化积,三角函数的和差化积公式
  14. 移动支付服务商加盟/微信支付宝扫码支付代理加盟
  15. 第二章 zio 入门
  16. Unity 调用C# Speech类将文字转换为语音
  17. 双软企业的税收优惠政策
  18. Phonics 自然拼读法 ai ay ee ea ey ie igh oa ow ui ue 元音字母组合 Teacher:Lamb
  19. 计算机中分类汇总的列子,EXCEL函数大全(含详细例子)-excel函数大全详细.pdf
  20. 外链代发,外链优化,高质量外链怎么做?

热门文章

  1. 矩阵分解之奇异值分解
  2. AIO 开始不定时的抛异常: java.io.IOException: 指定的网络名不再可用
  3. [SAP ABAP开发技术总结]选择屏幕——各种屏幕元素演示
  4. ArchLinux安装配置
  5. 很好的开源UI框架Chico UI
  6. php中echo和print的区别
  7. 阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果
  8. 新的任务范式:Program-guided Tasks
  9. XLM-RoBERTa: 一种多语言预训练模型
  10. 【每日算法Day 75】字节跳动面试题:手撕困难题,看过我Day 71的人都会做了!...