爬虫入门小项目,爬取京东的图片。还不会处理动态加载,只是简单的爬取图片和名称。

#-*- coding: utf-8 -*-
from urllib import request
from urllib import error
import  chardet
import redef crawler(urladdr,page,img_id):urladdr = urladdr + str(page)print(urladdr)html1 = request.urlopen(urladdr).read()htmlfile = open("jd.html",'wb')htmlfile.write(html1)html1 = str(html1,'utf-8')#html1 = str(html1)# chardit1 = chardet.detect(html1)# html1 = html1.decode(chardit1['encoding']).encode('utf-8')# html1 = str(html1)pattern1 = '<div id="plist" class="goods-list-v2 J-goods-list gl-type-1 ">(.+?)<div class="clr"></div>\n</div>'res1 = re.compile(pattern1,re.S).findall(html1)res1 = res1[0]pattern2 = u'<li class="gl-item">.+?</li>'res2 = re.compile(pattern2,re.S).findall(res1)file = open("resList.txt","w")x=1for m in res2:pattern3 = u'<img width=".+?" height=".+?" data-+?img=".+?" data-lazy-img="//(.+?)"'imgurl = re.compile(pattern3,re.S).findall(m)if imgurl == []:pattern3 = u'<img width=".+?" height=".+?" data-+?img=".+?" src="//(.+?)"'imgurl = re.compile(pattern3, re.S).findall(m)print(x)x = x + 1if imgurl != []:imgurl = "http://" + imgurl[0]# pattern4 = '<strong class="J_price"><em>¥</em>(.+?)</i>'# price = re.compile(pattern4,re.S).findall(m)[0]pattern5 = u'<a target="_blank" title=.+?>\n.+?<em>\n.+?(\S.+?)</em>'imgname = re.compile(pattern5,re.S,).findall(m)imgname = imgname[0]# imgname = imgname.encode('raw_unicode_escape')# imgname = imgname.decode()try:form = imgurl[-4:]request.urlretrieve(imgurl,"img/"+str(img_id)+form)except error.URLError as e:if(hasattr(e,"code")):img_id = img_id + 1if(hasattr(e,"reason")):img_id = img_id + 1write_str = str(img_id)+" "+imgname +'\n'img_id = img_id + 1print(write_str)file.write(write_str)file.close()return img_id
#urladdr = "https://search.jd.com/search?keyword=%E5%8D%95%E5%8F%8D%E5%85%A5%E9%97%A8%E7%9B%B8%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&spm=2.1.1&vt=2&page="
urladdr = "http://list.jd.com/list.html?cat=652,654,832&page="
img_id = 1
s=1
for i in range(1,205):img_id = crawler(urladdr,i,img_id)


爬虫练习一,爬取京东图片相关推荐

  1. layui获取input信息_python爬虫—用selenium爬取京东商品信息

    python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...

  2. python爬虫爬图片教程_python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  3. 爬虫实战:爬取京东手机图片并保存到本地

    先看一下效果: 这个爬虫的功能是将京东上的手机图片爬取并保存下来,其思路和我上一篇博客爬取豆瓣大致相同,只是代码实现不太一样.主要分为三步:获取网页信息, 解析数据, 保存数据.只是这一次保存的是图片 ...

  4. Python3爬虫实战之爬取京东图书图片

    假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网络爬虫实现,这类爬虫称为图片爬虫,接下来,我们将实现该爬虫. 首先,打开要爬 ...

  5. 超详细解析python爬虫爬取京东图片

    超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...

  6. python爬虫完整实例-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  7. 爬虫python的爬取步骤-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  8. python爬虫爬取教程_python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  9. go爬虫和python爬虫哪个好_python 爬虫实战项目--爬取京东商品信息(价格、优惠、排名、好评率等)-Go语言中文社区...

    利用splash爬取京东商品信息 一.环境 window7 python3.5 pycharm scrapy scrapy-splash MySQL 二.简介 为了体验scrapy-splash 的动 ...

最新文章

  1. 中国女博士的「水淹食堂」大法:单目视频完美重建3D场景,画面毫无违和感...
  2. 安卓之页面跳转与传值和按钮事件
  3. PyTorch 入门实战
  4. XCTF-Web-高手区-shrine
  5. python多进程和多线程使用场景_Python36 多线程、多进程的使用场景
  6. 哈佛博士后入职街道办引关注,官方最新回应
  7. c#事件Unity与.Net对比
  8. liunx中如何查看软件的安装目录
  9. 程序员累了怎么办-兄弟连IT教育
  10. 大量监控视频如何存储?
  11. 丁向荣单片机pdf_STC系列增强型8051单片机原理与应用
  12. 交通信号灯规范国家标准出台
  13. scratch编程体感游戏
  14. 数据传输速率与带宽之间的关系
  15. 天津天狮学院关于2021年天狮专升本新生入学缴费有关事项的通知
  16. 22年QQ号被盗,好友协助验证却申诉无效
  17. hadoop+HBase+ZooKeeper+Hive完全分布式集群部署安装
  18. Protein-protein interaction site prediction through combining local and global features 文章梳理
  19. CAE软件安装包(百度网盘)
  20. KETTLE8.2在linux(rehl)6.6中安装部署并配置公共数据库链接

热门文章

  1. Netbeans8.1 IDE开发工具
  2. Python零基础之爬取王者荣耀官方网站高清壁纸(普通版)
  3. cube-ui中create-api模块的使用
  4. ExpandableListView实现商品列表折叠
  5. Maxtang 大唐J6412四网口迷你主机安装NAS黑群晖教程
  6. 全栈技术经理——团队管理:指导中层管理者日常行动指南
  7. Redis 的作用以及怎么用redis的详细的分析
  8. 【Apollo】bazel中的python规则
  9. java时间间隔_java 计算两个 日期时间 相间隔多少天小时分钟 等
  10. 我与代理模式不得不说的故事