四 开始爬取

1.首先分析淘宝排行榜的设置。在这里,商品被分为服饰,数码家电,化妆品,母婴,食品,文体,家具,车|玩具|宠物。而点开每个大类,又可以看到商品被分为很多小类。点开任意小类,往下拉就可以看到该类商品的排行信息,包括销售上升榜,销售热门榜等等。这里我只爬取销售热门榜的内容,所以继续点击销售热门榜的标签。可以看到在这里列出了该类前二十的商品。信息包括:排名,关键词,参考价,成交指数,升降位次。这里,我只爬取前四项内容,另外加上大类的分类id和小类的分类id。大类的id和小类的id可以从淘宝的url中看出:

https://top.taobao.com/index.php?spm=a1z5i.1.2.2.5KF9iq&topId=TR_FS&leafId=50010850

如上,topId=后面的就是大类的分类id,其他的大类id还有TR_SM,TR_HZP,TR_MY,TR_SP,TR_WT,TR_JJ,TR_ZH。小类id就来源自leafId=后面的数字,所以我定义的item.py中如下:

rank=Field()title=Field()price=Field()turnover_index=Field()top_id=Field()type_id=Field()

2.设置完成items.py后,接下来就是处理item所需要用到的pipeline了。在这里我用到了三个pipeline,分别检查每个item的所有属性是否都存在,如果不存在就丢掉这个item并报错;第二个pipeline就是对每个item中的属性进行utf8编码;第三个pipeline就是数据库的写入。这里介绍下第三个pipeline.
第三个pipeline内容
其中,每个pipeline都必须实现process_item方法,在当前pipeline的process_item,我就是进行了数据库的写入。同时,还可以实现open_spider以及close_spider。在open_spider 我们就连接数据库,同时创建一个table,用来存入数据。在close_spider 我们就flush table,同时关闭数据库连接。
3.另外table的创建可以参考这里:
table的创建
实现了insert,flush等方法。
下一篇介绍spider的内容
Scrapy-Splash爬取淘宝排行榜(三)

Scrapy-Splash爬取淘宝排行榜(二)相关推荐

  1. Scrapy-Splash爬取淘宝排行榜(一)

    一 引言 日前,自己因项目需要需要爬取淘宝排行榜,而淘宝因为用了很多的AJAX技术,不能用普通的爬虫爬取,于是我这里就想用如一些集成了PhantomJS或类似的python爬虫框架.一开始自己尝试了p ...

  2. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  3. Scrapy-Splash爬取淘宝排行榜(三)

    五 写spider 1.知道了要爬取的内容,所以,我们首先在start_urls中设置如下: start_urls=['https://top.taobao.com/index.php?topId=T ...

  4. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  5. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  6. 用Python爬取淘宝2000款套套,我发现了一个重要秘密

    点击上方"码农突围",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 一.淘宝商品信息爬取 这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇.之所以分开是因为爬取淘宝遇 ...

  7. 爬虫案例 --- Python 爬取淘宝数据存到数据库

    可以做爬虫的语言有很多,如 PHP.Java.C/C++.Python等等... 1)PHP语言 虽然是世界上最好的语言,但是他天生不是干这个的,而且对多线程.异步支持不够好,并发处理能力很弱.爬虫是 ...

  8. 自动化爬取淘宝数据--(保存到文本中)

    普通版本的爬取淘宝网页 #淘宝商品信息 #从selenium中引入webdriver from selenium import webdriver import time #输入查询关键词 keywo ...

  9. 2021-11-16爬取淘宝商品信息时如何获取cookie

    爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...

最新文章

  1. 2019年上半年收集到的人工智能Python编程干货文章
  2. 怎样做网络推广浅析怎样优化网站的导航栏?
  3. 设计模式:单例模式之静态内部类
  4. php基类是什么意思,php中的方法重写是什么意思?
  5. Python/Anaconda-python2.x代码转为python3.x代码
  6. 1、虚拟机内存管理、运行时数据区、线程共享区、Java堆、新生代、老年代、Eden区域分配、方法区、线程独占区、虚拟机栈
  7. OpenCL 第6课:矩阵转置
  8. git 常用命令思维导图
  9. cannot mount database in EXCLUSIVE mode
  10. iphone11系列的尺寸_揭秘iPhone12日常使用的2大隐患:还不如iPhone11?|iphone11|iphone12|电池|手机|电池容量|iphone...
  11. eclipse注释中插入当前时间
  12. pptx库ppt演示 python_详解 Python 操作 PPT 的各种骚操作!
  13. Java 详解(JVM) 垃圾回收机制原理
  14. android 数独实训报告,数独实验报告范文
  15. 浅谈 光学字符识别(OCR识别)技术的前世今生...
  16. vue.js基础 之 过滤器分类及使用
  17. C语言中表示温度符号,摄氏度符号怎么打(SCI论文中摄氏度°C符号的正确输法)...
  18. 因为一个MySQL权限问题引发的填坑之一(ERROR1045:Access Denied for user 'root'@'localhost' (using password:YES))
  19. 树与二叉树基本概念与性质
  20. python批量下载bilibili视频_关于bilibili视频下载的一些小思路

热门文章

  1. Java程序员:真是会服了面试官,不就要个40k嘛硬是把Spring问烂
  2. LC-3学习记录(一)
  3. python里感叹号是什么意思_感叹号!代表什么意思?(标点符号的用法之感叹号)...
  4. 短线炒股技巧 短线绝招全攻略
  5. 中英离线翻译mac_Translatium for mac(翻译工具)
  6. 炉石传说iPad版抢鲜玩 最全国服登录教程
  7. 换了工作城市,社保和公积金的转移
  8. Life feelings--11--护眼贴士-如何让心灵的窗口锃光发亮?-程序员工程师生活必备
  9. MySQL 5.7 OCP考试大纲
  10. 武汉mysql ocp考点_MySQL OCP考试复习系列–开篇:了解MySQL考试