爬虫第二弹:千图网电商淘宝模板图片下载
 一、功能分析:
1、下载千图网电商淘宝的所有模板图片要求是高清版本;
2、并按照主页面将图片归类文件夹。
 
二、思路分析:
1、利用scrapy构建scrapy startproject qtpjt,搭建项目,并通过scrapy genspider -t basic qtspd 58pic.com构建基本的爬虫文件;
2、通过item.py构建所有数据项;
3、setting.py将爬虫协议关闭,打开ITEM_PIPELINES的组件
4、通过爬虫文件qtspd.py 做到提取需要录入数据库所有数据项的信息;
5、通过pipelines工具对数据项进行进一步的处理后下载图片到相应文件夹;

三、具体实现:
1、文件夹的实现:
1.1、通过在item建立picfolder数据项,并通过在主页面item["picfolder"]=response.xpath("//em[@class='text-green-b']/text()").extract()获取文件夹名称信息。
1.2、并通过以下语句构建文件夹
folder = os.path.exists(

'C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' '\\+ item["picfolder"][0])
if not folder:
os.mkdir('C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' '\\+ item["picfolder"][0])
2、遍历的实现
2.1主页面遍历
for in range(2,3):
#构造出下一页图片列表页的网址
nexturl="http://www.58pic.com/piccate/3-0-0-default-0_2_0_0_default_0-"+str(i)+".html"
yield Request(nexturl, callback=self.parse)
2.2对图片的链接的爬取:

首先通过item["link"]=response.xpath("//a[@class='thumb-box']/@href").extract() 获取每个图片主题的子链接;
然后通过该链接,顺利爬取高清模板图片的链接
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")opener = urllib.request.build_opener()
opener.addheaders = [headers]
# 将opener安装为全局
urllib.request.install_opener(opener)
for in range(0, len(item["link"])):
    data = urllib.request.urlopen(item["link"][m]).read()
    paturl = '<img src="(http.*?)".*?show-area-pic'
    item["picurl"] = re.compile(paturl).findall(str(data))
    yield item 
3、图片的下载工作,该工作主要在pipelines.py下完成,主要利用urllib.request.urlretrieve()完成
class QtpjtPipeline(object):
    def process_item(self, item,spider):
        for jin range(0,len(item["picurl"])):
            picurl = item["picurl"][j]
            trueurl=picurl
            patlocal ="http://pic.qiantucdn.com/58pic/.*?/.*?/.*?/(.*?).jpg"
            picid=re.compile(patlocal).findall(str(trueurl))[0] +"-" +str(j)
            localpath="C:/Users/leishen/Documents/anaconda3/scrapy/master python scrapy/chapter 19/pic/" +item["picfolder"][0]+"/"+str(picid)+".jpg"
            urllib.request.urlretrieve(trueurl,filename=localpath)
        return item
四、项目总结
本项目主要学习两点,1图片的下载方法,2通过python语言自动构建文件夹。

爬虫第二弹:千图网电商淘宝模板图片下载相关推荐

  1. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一1.3 选择创业的行业...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第1章,第1.3节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  2. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.3 B2C电子商务模式...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.3节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  3. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.1 电子商务的发展历史...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.1节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  4. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.6 常见电商平台...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.6节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  5. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.7 电子商务运营的关键点...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.7节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  6. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.4 C2C电子商务模式...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.4节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  7. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.2 B2B电子商务模式...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.2节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  8. 电商淘宝补单系统源码程序的开发与部署

    一.电商淘宝补单的定义 电商平台业界人士常谈到补单一词,那么什么是他们常说的电商淘宝补单呢?作为一个入门级别的电商小白需要看一看了解了解. 电商补单是指根据平台算法和每日订单计划,根据基数触发流量推荐 ...

  9. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》导读

    前言 大众创业做电商--淘宝与微店 开店 运营 推广 一册通 中国互联网络信息中心第36次<中国互联网络发展状况统计报告>显示,截至2015年6月,我国网民规模达6.68亿人.近几年,我国 ...

最新文章

  1. jquery获取手机验证码按钮计时插件getVerifyCode.js
  2. SAP应用有可能改造成Serverless架构么?
  3. 六年级计算机应用计划,2016年小学六年级信息技术教学计划 (800字)
  4. 在ASP.NET Core 2.0中使用MemoryCache
  5. xampp mysql访问拒绝_liunx Centos7 安装xampp
  6. Windows Terminal Preview 1909 发布
  7. 【译】技能测试解决方案:Python中的数据科学(一)
  8. KL散度、JS散度、Wasserstein距离
  9. QQ用户文件夹下即(user文件夹) 各个文件都是干什么的
  10. Oracle客户端安装简易教程
  11. 获取计算机显示屏高度,CSS 使用calc()获取当前可视屏幕高度
  12. ubuntu16.04系统安装nvidia显卡驱动
  13. yxy小蒟蒻的201119总结
  14. 解决Win 7安装Power Shell报错问题
  15. 淘宝天猫店招空白间隔去除
  16. HTML5期末大作业:美妆网页主题网站设计——清新的手工肥皂网站展示(4页)HTML+CSS+JavaScript...
  17. 结合脚本跳过网盘限速,带宽拉满
  18. C#接口与继承的区别
  19. 集美大学计算机工程学院转专业,集美大学本科学生转专业管理办法(试行)
  20. 开发时加载页面出现404,505等错误状态码的含义

热门文章

  1. 做鼻子测试软件,深度解析鼻子类型,测试你属于哪种鼻子?
  2. 墨者靶场-SQL手工注入漏洞测试(MySQL数据库-字符型)
  3. 【总结】1361- package.json 与 package-lock.json 的关系
  4. android 字体倒影,Android实现图片的倒影效果
  5. PaddleOCR体检报告识别
  6. 第四章css总结,第四章CSS层叠样式表分析.doc
  7. 浅谈JavaScript、ES5、ES6 ,,转自http://www.cnblogs.com/lovesong/p/4908871.html
  8. java模仿滴滴的程序_小程序模仿滴滴打车
  9. Python中的变量
  10. vue中使用layui实现树形菜单增删改查功能