在淘宝网中搜索某种商品之后会跳转到新的网页,网页的底部有可以进行换页,爬虫之前我们需要找出不同页码之间是否存在某种规律。

https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44

https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=88

可以发现,第一页的url中是没有s=?的,从第二页开始s=44,第三页s=88,找到规律之后可以通过循环进行跨页爬取了

import urllib.request
import re
keyname='短裙'
keyname=urllib.request.quote(keyname)
headers=('User-Agent',"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(0,2):url='https://s.taobao.com/search?q='+keyname+'&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s='+str(i*44)data=urllib.request.urlopen(url).read().decode('utf-8','ignore')pat='pic_url":"//(.*?)"'imagelist=re.compile(pat).findall(data)for j in range(0,len(imagelist)):thisimage=imagelist[j]thisurl='http://'+thisimagefile='D:/1python/淘宝/'+str(i)+str(j)+'.jpg'urllib.request.urlretrieve(thisurl,file)

爬虫案例——淘宝图片爬虫相关推荐

  1. python爬虫:淘宝图片爬虫

    1.淘宝网址规律 https: //s.taobao.com /list?spm=a21bo.2017. 201867-links-0.6.5af911d9OXqjyt&q=搜索词&c ...

  2. 中国大学排名定向爬虫以及淘宝商品爬虫参考嵩天老师Python爬虫课程遇到的问题及解决

    首先附上课程中程序,无法正常运行 把2016年的url更改为今年的url:http://www.shanghairanking.cn/rankings/bcur/2020 代码如下: import r ...

  3. Python数据爬虫学习笔记(10)淘宝图片爬虫实战

    所谓图片爬虫,即是从互联网中自动把对方服务器上的图片爬下来的爬虫程序. 一.图片爬虫前的网页链接分析 1.首先打开淘宝首页,在搜索框中输入关键词,如"神舟",在搜索结果界面中点击下 ...

  4. 爬虫python创意_爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  5. 值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章

    文章目录 案例 29:手机 APP 数据采集 案例 30:高考派大学数据采集 案例 31:36 氪(36kr)数据抓取 scrapy 案例 32:B 站博人传评论数据抓取 scrapy 案例 33:& ...

  6. 爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  7. python入门爬虫案例_10个python爬虫入门实例(小结)

    昨天带伙伴萌学习python爬虫,准备了几个简单的入门实例 涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件 ...

  8. 数据分析与爬虫实战视频——学习笔记(一)(python基础、urllib、超时设置、自动模拟HTTP请求、异常处理、浏览器伪装、代理服务器、新闻爬虫、淘宝登陆和图片爬取)

    未经允许,请勿转载. 连载未完成状态 网址: [数据挖掘]2019年最新python3 数据分析与爬虫实战_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili ...

  9. 爬虫学习:基础爬虫案例实战

    爬虫学习:基础爬虫案例实战 文章目录 爬虫学习:基础爬虫案例实战 一.前言 二.案例实战 任务一:爬取列表页 任务二:爬取详细页 任务三:保存爬取数据 任务四:利用多进程提高效率 三.补充一点 四.最 ...

最新文章

  1. 【翻译】为什么 goroutine 的栈内存无穷大?
  2. 徒手撸一个简单的 IOC
  3. 工作总结18:Vuex处理思路
  4. jquery获得指定元素坐标的方法
  5. 信息学奥赛C++语言: 数字三角形
  6. 漫步最优化四十二——Partan法
  7. OC开发_Storyboard——绘制和视图
  8. android 刷新标题栏,Android 自定义标题栏的实例详解
  9. prim算法详解java_Prim算法(三)之 Java详解
  10. 免费snmp oid下载
  11. 云计算:大数据时代的系统工程
  12. Calvin: Fast Distributed Transactions for Partitioned Database Systems研读
  13. Sass--占位符 %placeholder
  14. 谷歌的下一个×××烦
  15. ESP32学习笔记(46)——MQTT客户端
  16. (JAVA)基于Socket的TCP和UDP编程(第一章)
  17. Element ui 组件库 使用技巧。
  18. mathematica中同时判断多个函数——可变动参数的情况
  19. 编解码base64、对称加密aes和非对称加密rsa
  20. C++高级搜索算法迭代加深—————骑士精神

热门文章

  1. 编写使用systemctl管理的service服务
  2. python周报第十五周
  3. Android : Resource is not a Drawable (color or path)
  4. 数据结构 - 图 (图的深度优先和广度优先)
  5. SpringBoot 基于Shiro + Jwt + Redis的用户权限管理 (三) 鉴权
  6. 去掉图片黑背景输出为透明背景
  7. RK3399平台开发系列讲解(SPI子系统)4.16、SPI子系统之spidev驱动分析
  8. 项目上线 期初库存导入经验总结
  9. python第三方包
  10. OriginPro 2015下载(含激活工具)