前言:

继:《天猫双11爬虫(福利:212万条商品数据免费下载)》。

天猫双12商品原始数据\color{red}{天猫双12商品原始数据} 链接:http://pan.baidu.com/s/1bPV2u6 密码:t803
天猫双12商品活动数据\color{red}{天猫双12商品活动数据} 链接:http://pan.baidu.com/s/1gf5IOlt 密码:gs50
天猫双12商品参数数据\color{red}{天猫双12商品参数数据} 链接:http://pan.baidu.com/s/1qXWo9Zm 密码:hfwt
天猫双12商品图片数据\color{red}{天猫双12商品图片数据} 链接:http://pan.baidu.com/s/1eS82C9c 密码:r9me
程序:Github-Tmall1212。

本爬虫主要抓取参与天猫双12的商品数据,之前已经抓过双11的数据了,有兴趣做分析等研究用途的,可以拿去用。
本来这种活动数据时效性是比较高的,今天早上也已经把数据抓取完毕,但双12恰逢公司新品发布会。白天一直没空,晚上吃完饭回来就赶紧整理数据了。另外京东的数据不像天猫,参与活动的商品和未参与活动的商品是混在一起的,所以京东就没有抓了,望见谅。

数据说明:

数据和双11那份数据类似,也是主要有原始数据、活动数据、参数数据和图片数据。

天猫双12商品原始数据:
数据量:230801条、227356条。
说明:里面包括两份原始数据,是从网页中初步解析下来后的json文件,它是接下来三份数据的原始数据,信息最全,但也包含的很多无用字段。商品原始数据1.json主要是商品分类信息(例如一个手机商品,有内存、颜色、套餐等分类),商品原始数据2.json主要是双12活动的数据(例如内存A+颜色B+套餐C的手机,原价、现价、双12优惠信息等)。两个文件的每一条json都有个_id,它是商品ID,可以对照着网页上显示的数据查看各字段代表的意义。(商品链接形如:https://detail.tmall.com/item.htm?id=538420191509)

天猫双12商品活动数据:
数据量:2660485条。
说明:爬下来的商品ID总共是23万条,但是每一个商品,例如手机,它有内存、颜色、套餐等分类,选择不同的内存或者颜色,它们的价格和优惠活动都可能不同。所以选择不同的套餐,都会产生一条独立的活动数据。

天猫双12商品参数数据:
数据量:230154条。
说明:在天猫或淘宝商品页面中,套餐和详细介绍之间,有一个“商品参数”,此为该参数数据。

天猫双12商品图片数据:
数据量:3182177条。
说明:在商品介绍中有各种图片,此为该图片数据。

代码说明:

上面给出的是双12爬虫的代码,双11的爬虫代码大部分类似,可能平时也照样能够抓取数据。下面逐步解释:

  1. 程序主要分为两个步骤:从活动主页面入手,抓取到所有商品ID;根据商品ID抓取并解析商品信息。
  2. 双12活动主页面,里面有35个分会场,将链接解析放在 urldict.py。程序从分会场开始抓。
  3. 分会场的页面中,有些可点击进入商品详情页,有些可点击进入商店主页。进入商店主页以后可点击进入商品详情页。所以我们从分会场的主页可解析到部分商品ID,以及部分商店URL,进入商店URL再获取其他商品ID。汇总起来就是所有商品ID了。
  4. 但是天猫加载数据的方式有几种,一个是直接放在html中,一个是通过json加载,或者两者都用。所以在解析各分会场主页也好,解析商店住而已也好,几种情况都要做解析。
  5. step1.py解析各个分会场,step2.py解析appids(appids可构造json的请求URL,即处理step1.py里面的json调用),step3.py解析商店数据(从里面解析出商品ID,或json的url),step4.py处理商店中的json调用。4个步骤获取完所有商品ID。
  6. crawl_detail.py根据商品ID抓取商品页面,未解析。crawl_property根据商品ID抓取商品的参数数据,带解析。
  7. parser.py解析crawl_detail.py拿到的页面。至此,任务完成。
  8. crawl_img.py可根据图片数据去下载图片,一般人都不需要下这些图片吧。

代码时效性比较高,未作特别详细的介绍,有兴趣的可以跑一下,有疑问请留言。

注:我的CSDN博客正在评选“CSDN2016博客之星”,希望可以投我一票,谢谢!(投票链接:http://blog.csdn.net/vote/candidate.html?username=Bone_ACE)

天猫双12爬虫(福利:266万条商品数据免费下载)相关推荐

  1. 天猫双11爬虫(福利:212万条商品数据免费下载)

    2016年12月12日更新:<天猫双12爬虫(福利:266万条商品数据免费下载)> 背景: 2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来. ...

  2. Java多线程B站爬虫与45万条视频数据,mysql批量写入性能对比,附代码

    恩,萌新刚来,听学长说写博客可以总结梳理自己的知识,所以来试试,自娱自乐,不喜莫喷.目前还是大二狗,学Java半年多,错误很多,望大神指正. 本文涉及:Java多线程,单例模式,爬虫相关技术,MySQ ...

  3. python房价数据分析统计服_Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?...

    原标题:Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房? 作者 | 月小水长 责编 | 伍杏玲通过分页.线程池.代理池等技术,快速爬取链家网近4万条在售二手房信息,速度可 ...

  4. 2000万条直播数据,揭秘斗鱼主播生存现状

    作者 | 朱小五 来源 | 凹凸玩数据(ID:alltodata) 2019年7月17日游戏直播平台斗鱼在美国纳斯达克股票交易所成功上市,成为继虎牙直播之后第二家赴美上市的国内直播平台. 7月底斗鱼因 ...

  5. 500万条微博数据来源分析

    最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析.下载地址是:http://www. ...

  6. LLM-2023:Alpaca(羊驼)【Stanford】【性能与GPT3.5相当比GPT4逊色,训练成本不到100美元,基于LLaMA和指令微调,仅使用约5万条训练数据就能达到类似GPT-3.5】

    斯坦福的 Alpaca 模型基于 LLaMA-7B 和指令微调,仅使用约 5 万条训练数据,就能达到类似 GPT-3.5 的效果. 斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现​mp ...

  7. 详细讲解如何用爬虫工具批量采集阿里巴巴商品数据

    阿里巴巴是全球最大的B2B电子商务平台之一,它提供了海量的商品信息,为采购商和供应商间牵线搭桥.然而,要想在如此庞大的商品库中找到适合自己的商品,需要耗费大量的时间和精力.为了提高工作效率,我们可以使 ...

  8. Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据

    本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称"镇站之宝"的视频,拥有着数量极其恐怖的评论和 ...

  9. Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?

    作者 | 月小水长 责编 | 伍杏玲 2019程序员转型学什么? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw 通过分页.线程池.代理池等技术, ...

最新文章

  1. 大连理工计算机专业导师,大连理工大学计算机科学与技术学院研究生导师简介-申彦明...
  2. python两道简单的面试题
  3. FileInputStream、FileReader、FileWriter和File
  4. jdbc oracle添加数据库连接,JDBC与Oracle数据库连接最常用方法
  5. 1.18.2.5.Table APISQL(查询表、Table API、SQL、混用Table API和SQL、输出表、翻译与执行查询、Blink planner、Old planner)等
  6. 如何用java实现使用电子邮件控制你的电脑
  7. C++作用域、局部变量、全局变量、传引用传值对比的一个例子
  8. Java程序员的日常—— IOUtils总结
  9. 篮球弹起问题(for循环)
  10. 利用计算机解决的生活问题,利用计算机解决经典动力学问题
  11. 一周水题集锦 2017 9.4
  12. php将开始日期与结束日期组成数组,php根据开始日期和结束日期得到时间数组
  13. 2021 年 五一数学建模比赛 B 题(第四问至第六问)
  14. cad横断面图转文本
  15. 自学php多久可以工作_PHP语言自学要多久才能工作
  16. arm linux alsa驱动使用 usb 声卡
  17. 简历中的项目经历怎么写?
  18. 数据库系统概论(第十章数据库恢复技术)
  19. linux点亮硬盘灯命令 简书,1.4linux 命令-文件、磁盘管理
  20. 关于贝叶斯网络算法(Bayesian networks)

热门文章

  1. electron另存为图片
  2. 跨境电商的痛点有哪些?
  3. 2021年中国跨境电商行业发展现状及5G技术在中国跨境电商的应用分析:交易规模达142000亿元,同比增长13.6%[图]
  4. 安卓手机连接不上电脑的解决方法 adb devices 找不到设备
  5. ALLEGRO PCB design GXL软件的菜单解释
  6. Git push基础用法
  7. SEO优化 网站结构优化
  8. anacnda 子环境管理
  9. 扫码登录的原理和实现
  10. PCB吉米哥:如何阅读电路原理图及PCB设计