目的:获取京东手机页面的图片
1、打开京东首页(www.jd.com),选择对应的”手机/运营商/数码”分类,并进入“手机”子分类


链接地址:https://list.jd.com/list.html?cat=9987,653,655&page=1
分析网页源码:找到对应的图片代码段:

思路:

1、爬取网页
2、然后根据正则爬取出 关键内容
3、根据关键内容 再用正则匹配出 图片地址
4、存到服务器将图片

源代码:

import urllib.request
import re
import urllib.error
def craw(url, page):html1 = urllib.request.urlopen(url).read()html1 = str(html1)  # 如果不转为str 则会报TypeError: cannot use a string pattern on a bytes-like object# 先把所有图片部分的数据全部取出pat1 = '<div id="plist".+?<div class="clr"'  # 注意单双引号  result1 = re.compile(pat1).findall(html1)if result1:result1 = result1[0]# 京东图片加载时首先加载8张,然后的图片为懒加载所以要获取两次图片# 根据源码写出对应图片链接地址的正则表达式pat2 = '<img width="220" height="220" data-img="1" src="//(.+?\.jpg)"' pat3 = '<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)"'  # 懒加载图片正则imagelist = re.compile(pat2).findall(result1) # 常加载的图片imagelist1 = re.compile(pat3).findall(result1)  # 懒加载的图片imagelist = imagelist + imagelist1  # 数组合并 将所有图片合并x = 1for imageurl in imagelist:# 对所存的图片进行命名imagename = "/home/zyb/crawler/myweb/part6/img1/"+str(page)+str(x)+".jpg" # 图片地址imageurl = "http://"+imageurltry:# 获取图片并保存urllib.request.urlretrieve(imageurl, filename=imagename)except urllib.error.URLError as e:if hasattr(e, "code"):  # 使用hasattr函数判断是否有这些属性x += 1if hasattr(e, "reason"):x += 1x += 1print("爬取成功")else:print("爬取失败,未获取内容")
for i in range(1, 2):url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)craw(url, i)

最终结果:

09Python爬虫---爬虫实战之京东图片相关推荐

  1. python爬虫实践----爬取京东图片

    爬虫思路: 1.分析url: http://list.jd.com/list.html?cat=9987,653,655&page=1# url只有page变化,而page代表了页数 提取ur ...

  2. python学爬虫书籍_Python3实战爬虫之爬取京东图书的图文详解

    最近在学习python3,下面这篇文章主要给大家介绍了关于Python3实战爬虫之爬取京东图书图片的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下 ...

  3. 010:图片类爬虫项目实战

    之间我们学习了使用Urllib模块手写图片爬虫,在本章内容中,我们会以图片类爬虫为例,为大家讲解如何通过Scrapy框架实现图片爬虫项目. 利用Urllib手写爬虫回顾: 之前在实战的时候使用Urll ...

  4. python爬虫实例手机_Python爬虫实现爬取京东手机页面的图片(实例代码)

    实例如下所示: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...

  5. python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例

    本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...

  6. python爬虫爬取京东图片(python小白笔记七)

    有时候需要统计,图片参考等,用python爬虫.爬下来的图片再存储到本地,同时把文件的名称取出一下.同时,python真是个有趣的东西,欢迎一起交流学习. 代码如下: 我的只是提取第一页,同时把图片保 ...

  7. python爬虫项目-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  8. python爬虫知网实例-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  9. 【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo

    简单记录 - Jsoup爬虫入门实战 数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网 ...

最新文章

  1. 刻意练习:LeetCode实战 -- Task19. 相同的树
  2. Angular component的职责
  3. 考研数学(180°为什么等于π)
  4. 不安装cudnn可不可以_关于CUDA和cuDNN的安装
  5. Python sys模块参考手册
  6. Javascript中for循环别名
  7. 非常详细的机器学习知识点汇总(二)之SVM23问
  8. 在url中传递参数(方法二)
  9. win10系统word2019显示目录只显示部分一级二级解决办法
  10. 2012,当我们谈论移动互联网创业时,我们在谈论些什么?
  11. python八卦阴阳_GitHub - meetingFuture/godwill: 周易八卦,占一卦,知来世,肖今生。...
  12. androidの读取短信内容
  13. 【Unity】Obi插件系列(五)—— 约束
  14. 修改系统默认的音频设备
  15. 数据结构作业之输出树的每一条从根节点到叶节点的路径
  16. 大学计算机打开文件过程演示实验记录表,操作系统进程与文件管理 实验报告表 作业 5.doc...
  17. [RFC6023] 互联网密钥交换版本 2 (IKEv2) 安全协会 (SA) 的Childless 初始化 (翻译)
  18. linux如何添加360网站卫士ip,使用加速乐、360网站卫士PHP无法获取用户IP的解决方法...
  19. JAVA序列化标准格式(XML、JSON)
  20. 1135 mysql_mysql中一个普通ERROR 1135 (HY000)错误引发的血案_MySQL

热门文章

  1. Android集成环信easeui,设置圆形头像,修改气泡和扩展栏,跳过打包冲突
  2. cube-ui—安装
  3. css 滚动条样式修改
  4. 网上商城——在线支付
  5. 交货单 增强 VL01N:LE_SHP_DELIVERY_PROC自动增加批次号
  6. 国产操作系统使用经历:红旗,深度,优麒麟
  7. 教你手写DMA传输数据(看完这篇你就会手动写啦,保姆级讲解)---- 2020.3.31
  8. 基于单片机电动自行车太阳能充电系统设计-protues电路仿真资料
  9. 尴尬的央视大楼(大裤衩) --- 转载
  10. 使用Matlab2019b实现最小均方误差算法(LMS)