爬虫第二弹:千图网电商淘宝模板图片下载
1、下载千图网电商淘宝的所有模板图片要求是高清版本;
2、并按照主页面将图片归类文件夹。
二、思路分析:
1、利用scrapy构建scrapy startproject qtpjt,搭建项目,并通过scrapy genspider -t basic qtspd 58pic.com构建基本的爬虫文件;
2、通过item.py构建所有数据项;
3、setting.py将爬虫协议关闭,打开ITEM_PIPELINES的组件
4、通过爬虫文件qtspd.py 做到提取需要录入数据库所有数据项的信息;
5、通过pipelines工具对数据项进行进一步的处理后下载图片到相应文件夹;
三、具体实现:
1、文件夹的实现:
1.1、通过在item建立picfolder数据项,并通过在主页面item["picfolder"]=response.xpath("//em[@class='text-green-b']/text()").extract()获取文件夹名称信息。
1.2、并通过以下语句构建文件夹
folder = os.path.exists(
'C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' + '\\' + item["picfolder"][0])
if not folder:
os.mkdir('C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' + '\\' + item["picfolder"][0])
2、遍历的实现
2.1主页面遍历
for i in range(2,3):
#构造出下一页图片列表页的网址
nexturl="http://www.58pic.com/piccate/3-0-0-default-0_2_0_0_default_0-"+str(i)+".html"
yield Request(nexturl, callback=self.parse)
2.2对图片的链接的爬取:
opener.addheaders = [headers]
# 将opener安装为全局
urllib.request.install_opener(opener)
for m in range(0, len(item["link"])):
data = urllib.request.urlopen(item["link"][m]).read()
paturl = '<img src="(http.*?)".*?show-area-pic'
item["picurl"] = re.compile(paturl).findall(str(data))
yield item
def process_item(self, item,spider):
for jin range(0,len(item["picurl"])):
本项目主要学习两点,1图片的下载方法,2通过python语言自动构建文件夹。
爬虫第二弹:千图网电商淘宝模板图片下载相关推荐
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一1.3 选择创业的行业...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第1章,第1.3节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.3 B2C电子商务模式...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.3节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.1 电子商务的发展历史...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.1节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.6 常见电商平台...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.6节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.7 电子商务运营的关键点...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.7节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.4 C2C电子商务模式...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.4节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.2 B2B电子商务模式...
本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.2节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...
- 电商淘宝补单系统源码程序的开发与部署
一.电商淘宝补单的定义 电商平台业界人士常谈到补单一词,那么什么是他们常说的电商淘宝补单呢?作为一个入门级别的电商小白需要看一看了解了解. 电商补单是指根据平台算法和每日订单计划,根据基数触发流量推荐 ...
- 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》导读
前言 大众创业做电商--淘宝与微店 开店 运营 推广 一册通 中国互联网络信息中心第36次<中国互联网络发展状况统计报告>显示,截至2015年6月,我国网民规模达6.68亿人.近几年,我国 ...
最新文章
- jquery获取手机验证码按钮计时插件getVerifyCode.js
- SAP应用有可能改造成Serverless架构么?
- 六年级计算机应用计划,2016年小学六年级信息技术教学计划
(800字)
- 在ASP.NET Core 2.0中使用MemoryCache
- xampp mysql访问拒绝_liunx Centos7 安装xampp
- Windows Terminal Preview 1909 发布
- 【译】技能测试解决方案:Python中的数据科学(一)
- KL散度、JS散度、Wasserstein距离
- QQ用户文件夹下即(user文件夹) 各个文件都是干什么的
- Oracle客户端安装简易教程
- 获取计算机显示屏高度,CSS 使用calc()获取当前可视屏幕高度
- ubuntu16.04系统安装nvidia显卡驱动
- yxy小蒟蒻的201119总结
- 解决Win 7安装Power Shell报错问题
- 淘宝天猫店招空白间隔去除
- HTML5期末大作业:美妆网页主题网站设计——清新的手工肥皂网站展示(4页)HTML+CSS+JavaScript...
- 结合脚本跳过网盘限速,带宽拉满
- C#接口与继承的区别
- 集美大学计算机工程学院转专业,集美大学本科学生转专业管理办法(试行)
- 开发时加载页面出现404,505等错误状态码的含义
热门文章
- 做鼻子测试软件,深度解析鼻子类型,测试你属于哪种鼻子?
- 墨者靶场-SQL手工注入漏洞测试(MySQL数据库-字符型)
- 【总结】1361- package.json 与 package-lock.json 的关系
- android 字体倒影,Android实现图片的倒影效果
- PaddleOCR体检报告识别
- 第四章css总结,第四章CSS层叠样式表分析.doc
- 浅谈JavaScript、ES5、ES6 ,,转自http://www.cnblogs.com/lovesong/p/4908871.html
- java模仿滴滴的程序_小程序模仿滴滴打车
- Python中的变量
- vue中使用layui实现树形菜单增删改查功能