2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》

背景:

2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都暂停了,这种机会难得,岂能不爬?

之前没有爬过天猫/京东这些电商平台,对他们网站的结构和防爬机制也不是很清楚,反正就是一时兴起 操刀便爬。首先是了解各个会场的网页结构、加载数据的方式,然后写程序抓取,最后解析。天猫双11总共35个会场,不同会场加载数据的方式会有些许不同,想要抓取尽量完整的商品数据,程序需要分几个步骤去抓取,并且需要不断地测试、完善。在半天不到的时间里要写好程序并把数据都爬下来,真是争分夺秒呀,到了晚上十二点才松了一口气。原本想把京东也爬了的,早几个小时动手就好了。

Anyway,天猫的数据还是有了。本文不详述爬虫的细节和代码,主要目的是发放数据福利!!

数据说明:

天猫双11商品原始数据\color{red}{天猫双11商品原始数据} 链接: https://pan.baidu.com/s/1gf9Lc8j 密码: hcq7
天猫双11商品活动数据\color{red}{天猫双11商品活动数据} 链接: https://pan.baidu.com/s/1mhOUeNY 密码: 5yb8
天猫双11商品参数数据\color{red}{天猫双11商品参数数据} 链接: https://pan.baidu.com/s/1c1U9DEK 密码: uvar
天猫双11商品图片数据\color{red}{天猫双11商品图片数据} 链接: https://pan.baidu.com/s/1i4IopLz 密码: 7md7

天猫双11商品原始数据:
里面包含两份json文件:source1.json(185374条) 和 source2.json(181491条)。这是从网页中解析出来的初始数据,信息最全,但也包含许多无用字段。source1.json主要是商品分类信息(例如一个手机商品,有内存、颜色、套餐等分类),source2.json主要是双11活动的数据(例如内存A+颜色B+套餐C的手机,原价、现价、双11优惠信息等)。两个文件的每一条json都有个_id,它是商品ID,可以对照着网页上显示的数据查看各字段代表的意义。(商品链接形如:https://detail.tmall.com/item.htm?id=538420191509)

从这两份原始数据筛选出比较关键的字段,便得到下面的这三份数据。


天猫双11商品活动数据:
大小:2126817条。
说明:我爬下来的商品ID总共是18万条,但是每一个商品,例如手机,它有内存、颜色、套餐等分类,选择不同的内存或者颜色,它们的价格和优惠活动都可能不同,它们可以作为一个独立商品数据。所以一个商品ID可能会生成几条商品活动数据(例如https://detail.tmall.com/item.htm?id=538420191509&skuId=3217583088470  和  https://detail.tmall.com/item.htm?id=538420191509&skuId=3217583088471,它们的商品ID都是538420191509,但它们是两条不同的商品活动数据)。

字段说明:_id即为该商品的URL。


天猫双11商品参数数据:
大小:183673条。
说明:每个商品ID有一条参数数据。


天猫双11商品图片数据:
大小:2500838条。
说明:商品用到的图片URL,下载下来总共有600G上下,三两天能下载完,如果有需要的可以联系我。

字段说明:_id为图片URL,商品链接为用到该URL的商品链接。

结语:

需要再爬一份双11过后一个星期的数据吗?或者双12的数据?来来来,留言留言。。

转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/53181015)

天猫双11爬虫(福利:212万条商品数据免费下载)相关推荐

  1. 天猫双12爬虫(福利:266万条商品数据免费下载)

    前言: 继:<天猫双11爬虫(福利:212万条商品数据免费下载)>. 天猫双12商品原始数据\color{red}{天猫双12商品原始数据} 链接:http://pan.baidu.com ...

  2. 揭秘天猫双11背后:20万商家600万张海报,背后只有一个鹿班

    还记得去年双11,秋裤厂商带着"五彩斑斓的黑"需求找设计师的故事吗? 现在,已经有超过20万客户把这个AI设计师鹿班带回家. 今年,鹿班除了为天猫淘宝平台提供服务之外,还通过阿里云 ...

  3. Java多线程B站爬虫与45万条视频数据,mysql批量写入性能对比,附代码

    恩,萌新刚来,听学长说写博客可以总结梳理自己的知识,所以来试试,自娱自乐,不喜莫喷.目前还是大二狗,学Java半年多,错误很多,望大神指正. 本文涉及:Java多线程,单例模式,爬虫相关技术,MySQ ...

  4. 嘉兴 机器人仓库 菜鸟_“199”机器人火了,天猫双11,有1亿人次“云监工”物流发货...

    从"尾款人"变"监工人",2020天猫双11让大家过了一把监工瘾. 11月1日0点开始,全球首次双11快递直播上线.阿里菜鸟联合物流企业,把镜头对准物流仓库的机 ...

  5. 从“光棍节”到“双节棍”:今年的天猫双11大不一样

    十二是一个非常特殊的数字,代表着一个轮回.从十二生肖,到十二星座,莫不如是. 2020年11月11日,天猫双11也迎来了自己的第十二个年头. 从"光棍节"变成"双节棍&q ...

  6. 今年的天猫双11,和往年有什么不一样?

    2009年11月11日,第一个"双11"大促横空出世. 在随后的12年里,"双11"这场中国电商行业一年一度的盛宴,逐渐演变成为了全球消费者的购物狂欢季. 经历 ...

  7. 今年淘宝天猫双11新品牌现象级爆发了?

    今年天猫双11有两个重要变化: 第一个大家都知道,就是从"光棍节"变"双节棍",不仅消费者买买买的时间多了3天,商家也可以更从容地补货备货. 目前第一个销售高峰 ...

  8. 全国产业带“回血”之战,为什么天猫双11是最佳主场?

    全国产业带打响"回血之战"! 外界看得见的是数以亿万计的包裹从四面八方被递送到海内外,看不见的是数字化的无形之手在背后推动着从研发.生产到交易的每个环节. 今年天猫"双1 ...

  9. 天猫“双11”狂欢节背后:阿里巴巴加速新技术演变

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 2017年天猫"双11" 不仅是全民购物狂欢节,更是阿里巴巴的新技术狂欢秀.机器人"鲁班".智能客 ...

最新文章

  1. 网络访问:本地账号的共享和安全模式设置身份验证后自动更改其他验证的处理方法 ...
  2. Django后台定制
  3. delphi中採用bpl共享模塊的幾點釋疑
  4. 别了,Docker Swarm !你好,K8s !
  5. .NET短信接口验证
  6. 2017.4.20 火星人 思考记录
  7. flash 4K扇区写入函数
  8. mysql启动提示 access denied for user root@localhost(using password:YES) 解决办法总结
  9. 【报告分享】二次元衍生创作行业报告.pdf(附下载链接)
  10. 前端实践(4)——表单验证(密码重复输入检查)
  11. 17-05-25模拟赛
  12. 黑马vue实战项目-(二)用户列表开发
  13. 加油吧!数字化转型@网络电视台拿了个“云第一”
  14. 私有云和服务器虚拟化的区别,私有云和服务器有什么区别
  15. java实现阿里云邮箱发送邮件
  16. 概率论-小记录(矩估计)
  17. 百分比计算机公式,百分比的计算公式怎么算的(免费教你计算百分比)
  18. 智慧城市同城小程序V4_1.0.86后端+双前端源码
  19. 蒲公英 · JELLY技术周刊 Vol.29: 前端智能化在阿里的那些事
  20. 音频剪辑合成 php,教你如何剪辑多个视频合并成一个 视频剪辑合并软件

热门文章

  1. 让你的网站拥有微博(weibo.com)关注图标
  2. 老中医的偏方(看了不白看)
  3. 六大设计原则SOLID
  4. linux-mysql 允许远程连接
  5. Python爬虫实战一 | 抓取取校花网的所有妹子
  6. RocketMQ Streams 1.1.0: 轻量级流处理再出发
  7. 归并排序时间、空间复杂度
  8. Selenium自动化之鼠标双击操作
  9. IDEA设置注释(已亲测)
  10. git reset --hard --soft 与 git revert 的作用