淘宝爬虫实战（附代码和数据集）—

作者：数据不吹牛

来源：数据不吹牛

本文通过淘宝“防脱发洗发水”爬取和分析，来提供爬取海量淘宝商品信息的思路，除了基础爬虫外，还应该思考拿到类似的商品数据之后如何清洗，以及作为一个分析者可以从什么维度去分析。

完整代码和数据放在文末，如果单纯需要数据集练手的同学可以在底部下载（4400条产品数据）

其实，这篇文章灵感源自一个赌局：

程序员朋友小A又在和小Z抱怨脱发问题。

小A：“以这样的掉发速度，我的发际线1年后将退化到后脑勺”。

“我听到身边80%的人都在抱怨自己的脱发问题”小Z摸了摸自己的发际线心如止水。

小A：”有危机就有商机，防脱发洗发水最近真的是卖爆了，特别在线上，绝对占了洗发水整个行业的半壁江山以上！”

小Z总能GET到奇怪的点：“你这样的说法不严谨，我觉得没有50%”。

小A被奇葩的问题点给气到了：“WOC！你的点怎么那么怪！不然咱们打个赌好吗，我赌防脱发占了50%以上，谁输谁是孙子（zei）！”

只用了3分钟，小Z就拟定好分析思路，并得到了小A的认可：

以淘宝入手，爬到最近30天洗发水关键词的销售情况，再筛选出防脱发洗发水，看一看占比多少。（顺便还可以分析分析其他的数据）

说干就干，打开淘宝，搜索“洗发水”，出来的是自然排序的结果（综合了销量、价格、搜索权重等等），但我们想要相关商品按销量来排序，点击“按销量排序”。

一、数据爬取

PART1 观察并定位数据：

我们想要哪些数据呢？

商品的价格、月收货（销售）人数、产品名称、店铺名称、店铺地址这几个比较直观的字段我们爬取哪几个呢？

小孩子才做选择，成年人必须全要！

虽然现在很多网址都是动态加载，需要审查元素来找相关地址，但我们在找之前，养成“先右键，选择查看源代码，看一看想要的数据有没有在静态网页”的习惯是极好的。

结果淘宝诚不欺我，所有我们想要的数据，都在源代码中，也就是说，我们用PYTHON直接访问浏览器中的网址就可以得到目标数据。

认真看看源代码，找到更准确的定位

所有想要的数据都在一个类JSON（可以先理解为字典）的字符串中，而前面还有几十行杂乱无章的字符，很乱，但不要紧，数据在总有办法找到他们的。

PART2 请求尝试

这里引用上一篇文章的一段话来比喻PYTHON访问前的伪装

“你住在高档小区，小P这个坏小伙想伪装你进去做不可描述的事情。

他知道，门卫会根据身份象征来模糊判断是否是小区业主，所以小P先租了一套上档次的衣服和一辆称得上身份的豪车（可以理解为伪装headers），果然混过了门卫。但是呢，小P进进出出太频繁，而且每次停车区域都不一样，引起了门卫的严重怀疑，在一个星期后，门卫升级检验系统，通过人脸识别来验证，小P被拒绝在外，但很快，小P就通过毁容级别的化妆术（伪装cookies），完全伪装成你，竟然混过了人脸识别系统，随意出入，为所欲为。”

导入相关的PYTHON库

养成先修改headers的好习惯再访问：

看看状态码（200表示正常访问）：

目前来说，还算正常，但堂堂的淘宝这么简单的一个伪装就可以爬了？？？不科学！！不过先继续吧，精确定位到我们需要的数据字段。

上一步，我们发现所有的数据都在一个类JSON的字符串中，理应先精确定位他首尾的大括号（｛｝），尝试用JSON来高效解析。

首：

尾：

通过严密的排查（同学们这一步真的需要耐心去找），我们发现所有目标数据都被包裹在以pageName开头，shopcardOff的字符中，如果能够完整截取这个大括号和里面的内容，就可以解析了：

结果。。。报错啊报错。。。

我们没有通过字符串定位拿到想要的数据，通过系统排查，发现问题出在访问，第一次访问虽然状态码是200，但并没有返回源代码看到的数据，喏：

到这里，是时候祭出万能的cookies了，操作方式，右键——审查元素——刷新网页——按照下面红框点选：

代码中进行伪装：

再次按照刚才的步骤来定位和解析数据：

一样的操作，没有报错，看来大功告半成！

PART3 精确定位目标数据：

经过前面两步的铺垫，我们已经拿到了目标数据并解析成JSON格式，现在直接可以按照访问字典的方式来精确定位数据，非常暴力（至于内部的层级结构，需要大家耐心细致的自我寻找规律）：

PART4 循环爬取：

循环爬取的关键就在于找到网址规律，构建多个网页，用上面的代码来循环访问。

我们在网页上点击下一页，再下一页，再下下一页，很容易发现，网站变化规律的核心就是最后面

s的值，第一页是0，第二页是44，第三页是88，SO EASY~

构造一个自定义爬取页数的函数，只需要输入基础网址和要爬取的页数，要多灵活有多灵活：

接上一步的访问获取数据操作进行逐页访问，即实现了多页面爬取，部分结果预览如下：

至此，商品标题，价格，店铺名称，店铺地址，收货人数，商品的URL全部拿下，基于“防脱发洗发水”的基本数据爬取宣告完成。（完整代码在文章最后）

二、数据清洗

清洗之前，最好先明确分析的目的，小Z最核心的诉求是要知道脱发洗发水销售占整个洗发水大盘的比重，其次，想要进行一些其他分析，比如渠道（旗舰店、专营店、猫超等等分别占比）分布。

1、数字相关字段规整：

爬取数据非常规整，并没有缺失数据。

价格也是OK的，付款人数由于包含“人收货”这个后缀，需要规整为数字格式，一行代码就OK：

2、标注出脱发相关的产品：

很明显，如果主打甚至仅仅包含防脱发功效的产品几乎都会在标题注明“脱发”字样（防字其实不用加），我们需要插入一个辅助列，根据“产品标题”来判断是不是防脱发洗发水。

PYTHON的pandas做起来是在是太高效了，还是一行代码：

注：等于-1表示在标题中没有找到“脱发”字样

“是否包含脱发字样”结果为TRUE则包含，FALSE则不包含。

3、引入一个销售指标

目前拿到的数字相关数据是“价格”、“收货人数”，用“价格” * “收货人数”引入一个“收货额”来衡量销售情况，依然是一行代码：

4、区分店铺类别：

大家都有多年购买经验，对于淘宝店铺分类其实不陌生，不外乎是“旗舰店”、“专卖店”、“专营店”、“天猫超市”、“C店”（其他淘宝店铺），这里需要对店铺关键字进行检索分类，先定义一个判断函数：

然后，life is short,and i use Python~

亦然是一行代码搞定：

数据清洗基本完成。

三、数据分析：

1、核心目标：

言归正传，目前“洗发水”类目体量巨大，(近30天)收货额达到了1.49亿元，其中防脱发洗发水以5.43%的数量占比实现1118.04万销售额，占比7.50%，离半壁江山相差甚远，赌局胜负已定，恭喜小Z喜提孩子。

“孩子，在数据面前可不能吹牛啊”小Z看着小A涨红了的脸语重心长道。

2、价格分布

价格深度探究应该结合产品的数量、规格等特征，这里只是给到一个简单的思路抛砖引玉：

两款产品呈现出不同的分布形态，防脱发洗发水在价格上显得些许傲娇，产品在50-100元的价格段数量最多（占比51.88%），其次是0-50元的平价款。

其他洗发水则随着价格升高而数量减少，0-50元的产品占比最高，紧随其后的是50-100元的产品。

3、渠道分布：

不同类型洗发水（防脱发与非防脱发）渠道策略有明显的差异（肯定跟品牌战略有关），其他洗发水渠道分布相对均衡，以“旗舰店”的41%为主，“天猫超市”为辅（29%），“C店”和“专卖店”分一小杯羹。

防脱发洗发水则高举旗舰店利剑（占比高达77%+），其次则是各类C店（11%），而在其他洗发水渠道表现优异的猫超在这里折戟，仅占比3%。

看来，防脱发类功能产品高销售背后离不开品牌的背书支撑。（一般品牌才会开设旗舰店）

最后，附上数据集地址和完整代码：

https://pan.baidu.com/s/1BoxzD26Q46xCM0eRYU6-7g

密码：s3ve

#构造循环爬取的函数def format_url(base_url,num):        urls = []    for i in range(0,num * 44,44):        urls.append(base_url[:-1] + str(i))    return urls#解析和爬取单个网页def parse_page(url,cookies,headers):    result = pd.DataFrame()    html = requests.get(url,headers = headers,cookies = cookies)    bs = html.text    #获取头部索引地址    start = bs.find('g_page_config = ') + len('g_page_config = ')    #获取尾部索引地址    end = bs.find('"shopcardOff":true}') + len('"shopcardOff":true}')    js = json.loads(bs[start:end + 1])    #所有数据都在这个auctions中    for i in js['mods']['itemlist']['data']['auctions']:        #产品标题        product = i['raw_title']         #店铺名称        market = i['nick']        #店铺地址        place = i['item_loc']        #价格        price = i['view_price']        #收货人数        sales = i['view_sales']        url = 'https:' + i['detail_url']        r = pd.DataFrame({'店铺':[market],'店铺地址':[place],'价格':[price],                     '收货人数':[sales],'网址':[url],'产品标题':[product]})        result = pd.concat([result,r])    time.sleep(5.20)    return result#汇总def main():    #爬取的基准网页（s = 0）    base_url = 'https://s.taobao.com/search?q=%E6%B4%97%E5%8F%91%E6%B0%B4&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&sort=sale-desc&bcoffset=0&p4ppushleft=%2C44&s=0'    #定义好headers和cookies    cookies = {'cookie':'输入自己的COOKIES'}    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}    #设置好存储结果的变量    final_result = pd.DataFrame()    #循环爬取5页    for url in format_url(base_url,5):        final_result = pd.concat([final_result,parse_page(url,cookies = cookies,headers = headers)])    return final_result    if __name__ == "__main__":    final_result = main()

◆ ◆ ◆ ◆ ◆

长按二维码关注我们

数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。

管理员二维码：

猜你喜欢

● 笑死人不偿命的知乎沙雕问题排行榜

● 我用Python纪念了那些被烂片收割的智商税！

● 互联网大佬学历&背景大揭秘，看看是你的老乡还是校友

● 上万条数据撕开微博热搜的真相！

● 你相信逛B站也能学编程吗？

淘宝爬虫实战（附代码和数据集）——今天你脱发了吗？相关推荐

淘宝爬虫实战---requests库实现模拟登陆模块
淘宝网---爬虫 (一).requests库实现淘宝网模拟登陆最近想要写一个淘宝网的爬虫,具备模拟登陆.代理IP池.根据关键词爬取搜索页面商品数据,第一个目标就是淘宝的模拟登陆,不得不说,淘宝的用户 ...
python爬虫学习实践(一)：requests库和正则表达式之淘宝爬虫实战
使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项 ...
python爬虫中requests库和正则表达式之淘宝爬虫实战
#python版本基于2.7 使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正 ...
python爬虫实例，一小时上手爬取淘宝评论（附代码）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
selenium实现淘宝爬虫
准备工作安装好selenium和浏览器驱动chromedriver. 淘宝爬虫过程分析加代码 1.页面请求分析首先请求淘宝页面,然后输入要爬取的数据的关键词,没有登陆,此时会弹出登陆的窗口,采取模 ...
python爬虫淘宝视频_识别假货有绝招，就用python爬淘宝评论（附视频教程）
之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据, 优点是可见容易且不宜被淘宝公司封锁:缺点是速度太慢. 经 ...
python爬虫笔记（六）网络爬虫之实战（1）——淘宝商品比价定向爬虫（解决淘宝爬虫限制：使用cookies）...
1. 淘宝商品信息定向爬虫链接: https://www.taobao.com/ 2. 实例编写 2.1 整体框架 # -*- coding: utf-8 -*-import requests i ...
python爬虫文件代码大全-Python网络爬虫实战项目代码大全（长期更新，欢迎补充）...
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
python代码大全p-Python网络爬虫实战项目代码大全（长期更新，欢迎补充）
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

淘宝爬虫实战（附代码和数据集）——今天你脱发了吗？

淘宝爬虫实战（附代码和数据集）——今天你脱发了吗？相关推荐

最新文章

热门文章