距离国庆中秋8天的假期没几天了,朋友圈各家大厂都开始秀自家定制的中秋月饼礼盒,假期要走亲访友的手里也少不了要提一盒月饼。

每年中秋节到,总会去姥姥那里送中秋,并买上各种各样的月饼,那个时候科技并不怎么发达,不仅没有这么多形形色色的月饼,也不知道哪些月饼卖得好? 月饼的价格分布是怎样的呢? 什么地方的月饼销量最高呢? 简直有十万个为什么,希望别人给我们解答。

随着科技的飞速发展,互联网沟通了你我他。通过淘宝上月饼的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了淘宝上4000多条月饼的销售数据,为大家展示了一幅漂亮的可视化分析仪表板,解决大家心目中的问题。

可视化大屏效果展示

数据采集

这次爬取淘宝,采用的是最简单的方式:Selenium控制Chrome浏览器进行自动化操作,中途只需要扫码登陆一次,即可完成整个数据的爬取。

这种方法极其好用,不会出现封IP、封号的情况,大家放心使用!

大家运行这个代码之前,唯一要做的就是下载与谷歌版本相对应的chromedriver驱动,然后进行相关配置即可。其实关于淘宝整个数据爬取的过程,我之前为大家写了一篇很详细的文章,供大家参考。

部分爬虫代码如下:

from selenium import webdriver

# 搜索商品,获取商品页码def search_product(key_word): # 定位输入框 browser.find_element_by_id("q").send_keys(key_word)

# 定义点击按钮,并点击 browser.find_element_by_class_name('btn-search').click()

# 最大化窗口:为了方便我们扫码 browser.maximize_window() # 等待15秒,给足时间我们扫码

time.sleep(15)

# 定位这个“页码”,获取“共100页这个文本”

page_info = browser.find_element_by_xpath('//div[@class="total"]').text

# 需要注意的是:findall()返回的是一个列表,虽然此时只有一个元素它也是一个列表。 page = re.findall("(\d+)",page_info)[0]

return page

数据清洗

数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。

爬取到的原始数据如下:

原始数据

整个数据看上去算是比较干净,但是还是有几个地方值得我们处理一下。

1. 爬取到的原始数据没有列名,我们需要添加一个新列名;

2. 整个爬虫过程中,会出现重复数据,我们需要提前去重处理;

3. 将购买人数为空的记录,替换成0人付款;

4. 将购买人数转换为销量(注意部分单位为万);

5. 删除无发货地址的商品,并提取其中的省份;

数据清洗部分代码如下:

# 提取数值

df['num'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值

df['num'] = df['num'].astype('float') # 转化数值型

# 提取单位(万)df['unit'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)

df['unit'] = df['unit'].apply(lambda x:10000 if x=='万' else 1)

# 计算销量df['销量'] = df['num'] * df['unit']

现在来看看,清洗后的数据是啥样的?

数据清洗后的数据

可视化展示

可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化分析我们基于以下五个问题开展而来。

1. 月饼销量Top10的柱形图;

2. 店铺月饼销量Top10的柱形图;

3. 全国月饼销量的地域分布地图;

4. 不同价格区间的月饼销量圆环图;

5. 月饼销售关键字的词云图;

鉴于整个文章排版,本文可视化部分的代码均可在本文末尾获取。

1、月饼销量Top10的柱形图

结论分析:销量Top10的月饼,其实对于我们选购月饼还是挺有指导意义的。从图中可以看到这个稻香村月饼,卖的还是极其好的,销量排名前10的产品中,稻香村月饼占据了3个位置。还有一个名字特别熟悉:五芳斋,只知道他家的粽子做的好,原来月饼也做的不错,所以说品牌效应还是很好的。那么你是否可以再看看,这些店里面是否有其他更好吃的点心呢?

2、店铺月饼销量Top10的柱形图

结论分析:这里图中显示的结果,和第一张图显示的结果不谋而合,就不再过多的解释了。唯独感兴趣的还是这个稻香村,为啥销量如此好?百度一下得知原来是一家百年老店,附带一张图如下。

3、全国月饼销量的地域分布地图

结论分析:从图中可以看出,广东、浙江、山东、福建、北京的月饼销量,在全国都是遥遥领先的。查阅资料可以发现,它们几乎都有自己的品牌,像广东的广式月饼、浙江的衢式月饼、山东的鲁式月饼等。广式月饼重油重糖、京式月饼重油轻糖、鲁式月饼口味清淡、苏式月饼重甜。大家可以根据自己的需求,给亲戚长辈们合理挑选符合口味的月饼哦。

4、不同价格区间的月饼销量圆环图

结论分析:当然价格才是大家关注的焦点。观察上图可以发现,月饼的价格几乎是处在中间的、能被大家接受的范围(22-115),再稍微贵一点的就是115-633这个区间(还可以接受),而处在633元以上的月饼几乎为0。毕竟中秋节是一个传统节日,适中的价格才能被大家接受,利润就这么几天,薄利多销才是王道。

5、月饼销售关键字的词云图

结论分析:从图中可以看出,传统的四大月饼(京式月饼、广式月饼、滇式月饼、苏式月饼)中广式月饼极其受欢迎(PS:我还没吃过),月饼口味上,小时候经常吃的五仁月饼的王者地位不可动摇,豆沙月饼提及率也很高,一直是很多孩子的最爱!还有现在出来的各种各样的新鲜口味,像美心、酥皮、心奶、燕窝、白莲等等,你到底喜欢哪一个呢?

python数据可视化案例 淘宝粽子_Python分析淘宝月饼销售数据,哪种最受欢迎?排第一的你想不到...相关推荐

  1. python数据可视化之美源码_Python数据可视化之美-专业图

    Python数据可视化之美 专业图表绘制指南 作  者:张杰 著 定  价:129 出 版 社:电子工业出版社 出版日期:2020年03月01日 页  数:303 装  帧:平装 ISBN:97871 ...

  2. python数据可视化案例 淘宝粽子_Python可视化对比分析淘宝低价人群和匿名用户的淘宝连衣裙数据...

    1.我是一个低价人群用户 上周发表文章<一个匿名用户的淘宝"连衣裙"大观>后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出 ...

  3. Python数据可视化案例三:使用Slider组件调整曲线参数

    首先更正一个地方,昨天的文章Pythonic:递归.回溯等5种方法生成不重复数字整数中最后一段代码的注释中不小心把"排列"写成了"组合",抱歉抱歉! 今天的内容 ...

  4. Python数据可视化案例二:动态更新数据

    在开发与数据监测和数据可视化有关的系统时,我们会需要根据最新的数据对图形进行更新.下面的代码模拟了这种情况,单击Start按钮时会更新数据并重新绘制图形使得曲线看上去在移动一样,单击Stop按钮则停止 ...

  5. python数据可视化案例销售数据_3-5 用python进行数据可视化 朝阳医院销售案例

    本篇是3-2-2数据分析文章的扩展版.spoonhead:3-3-2 Python数据分析实战第一步​zhuanlan.zhihu.com 本文在原文章的基础上提出了问题4-问题8的5个新问题,并用m ...

  6. python数据可视化——英雄联盟人物战力分析(条形图)

    案例数据文件下载: https://download.csdn.net/download/weixin_44940488/19129617 实例代码: from pyecharts.charts im ...

  7. python数据可视化案例销售数据_Python数据可视化教程之Matplotlib实现各种图表实例...

    前言 数据分析就是将数据以各种图表的形式展现给领导,供领导做决策用,因此熟练掌握饼图.柱状图.线图等图表制作是一个数据分析师必备的技能.Python有两个比较出色的图表制作框架,分别是Matplotl ...

  8. Python数据可视化案例一:自定义曲线频率、颜色与线型

    下面的代码运行后,可以通过左侧的三组单选钮来设置正弦曲线的频率.颜色和线型,并根据新的设置来绘制正弦曲线,每次单击图形下方的按钮,由系统随机设置频率.颜色和线型并绘制新图形,同时根据随机选择的值来设置 ...

  9. python数据可视化案例2017年6省gdp_吴裕雄 数据挖掘与分析案例实战(5)——python数据可视化...

    # 饼图的绘制 # 导入第三方模块 import matplotlib import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']= ...

最新文章

  1. COM如何区分套间线程(apartment thread)和自由线程(free thread)
  2. Myisamchk小工具使用手册
  3. 在windows7下安装CentOS
  4. python画椭圆-Python易学就会(五)turtle绘制椭圆与递归
  5. STL链式存储结构——————list链表
  6. oracle 备份格式dmp解析,Oracle 数据导入备份(dmp格式)
  7. linux的11186端口,linux – CentOS – semanage – 删除端口范围
  8. 吉林省计算机二级证书用英语怎么说,吉林省全国高等学校计算机水平考试二级...
  9. Sublime优美设置(待续)
  10. axure弹窗关闭_干货来袭,Axure插入图标的几种办法
  11. java调用android打包_Android Gradle打包基础
  12. 3dmax如何显示参考图_3d效果图渲染丢材质、丢贴图该如何解决?
  13. 学习笔记(3):PS教程-【和东东一起学PS】Photoshop 2020小白到高手(任务驱动式基础+实战教学)-【免费试看】PS软件的必要首选项设置
  14. 精益创业实战 - 第14章 评估产品和市场的匹配程度
  15. Leetcode 32 最长合法括号子序列
  16. Word2007插入目录、更新目录后大纲乱掉和无法保存大纲的解决办法
  17. Flappy Bird背后的故事
  18. 网络安全学习记录-9
  19. Windows重启显卡驱动热键说明
  20. Mac常见问题|Safari下载文件没有反应的解决方法

热门文章

  1. 实景三维系列1 | 倾斜摄影发展历程
  2. 我们该如何设计数据库:“普通——文艺——二逼”的区别
  3. 还在收集资料?我这里有个github汇总
  4. 运维笔记之调用163邮箱发送邮件
  5. 使用lnmp安装zabbix3.4.4并设置163邮箱报警(超详细)
  6. elasticsearch.client.transport.TransportClientNodesService[420] - node {#transport#-1}
  7. 我叫mt4 服务器维护,我叫mt4服务器之间互通吗
  8. TensorFlow 学习指南:深度学习系统构建详解
  9. Linux用户和用户组的管理
  10. 考研语法整理(简洁版)