本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于CDA数据分析师 ,作者:CDA数据分析师

前言

如果说冬天对北方人来说只是一个季节,而对南方人来说是一场“渡劫”。北方的冷是干冷,物理攻击,多穿一点就好了。而且室内有暖气,在室内可以穿着短袖吃冰棍。

而南方的冷是湿冷,魔法攻击,穿再多没有用。而且室内还没暖气,各种段子也是层出不穷:

“你在北方的暖气里四季如春,我在南方的寒冬下冻成冰棍儿”

“北方人过冬靠的是暖气,南方人过冬靠的是一身正气”

“我是一只来自北方的狼,来到南方却被冻成了狗”

一到冬天南方人除了靠一身浩然正气,空调、电热毯、油汀、电暖气等各类花式取暖电器都得安排上。

内贸批发平台1688上获取的数据显示,进入11月以来,暖气片在南方城市的销量比去年同期增长了300%,平台上取暖小家电品类整体营业额同比增幅达到200%,其中发热垫的同比增速甚至高达600%。

据显示,暖气片和暖气设备销量贡献最大的国内客户,主要都是来自长江沿线城市,以江浙沪、安徽、湖南、湖北、重庆、四川等地居多,一时间“南方取暖设备被买爆”话题登上了微博热搜,让人不禁感叹南方人过个冬天实在是太难了。

用Python分析全网取暖器数据

我们使用Python获取了淘宝网搜索关键词暖气片、取暖器、壁挂炉的商品数据,并进行了数据分析。

读取数据

首先导入获取的数据。

# 导入工具包
import numpy as np
import pandas as pd from pyecharts.charts import Bar, Pie, Map, Page
from pyecharts import options as optsimport jieba # 读取数据
df_all = pd.read_csv('../data/导出数据.csv')
df_all.head() 

df_all.shape
(13212, 7)

数据清洗和整理

此处我们需要对数据集进行数据清洗以便后续分析和可视化,主要工作内容如下:

  • 删除记录的重复值
  • goods_price列处理:提取数值
  • purchase_num列处理:提取数值
  • 计算销售额sales_volume = goods_price*purchase_num
  • 删除多余的列

代码实现如下:

df = df_all.copy()
# 去除重复值
df.drop_duplicates(inplace=True)
df.shape
(6849, 7)# 筛选记录
df = df[df['purchase_num'].str.contains('人付款')]# goods_price列处理
df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)')
df['goods_price'] = df['goods_price'].astype('float')# purchase_num列处理
df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')
df['num'] = df['num'].astype('float')
df['unit'] = [10000 if '万' in i else 1 for i in df['purchase_num']]# 计算销量
df['purchase_num'] = df['num'] * df['unit']# 计算销售额
df['sales_volume'] = df['goods_price'] * df['purchase_num']# 提取省份字段
df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) # 删除多余的列
df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True)# 重置索引
df = df.reset_index(drop=True)
df.head() 

数据可视化

此处我们对店铺销量、产地分布、商品价格等方面进行可视化分析:

市场上的取暖器种类较多,有暖风机、小太阳、电热膜、油汀、快热炉、踢脚线等取暖设备,我们首先看到这些取暖器的标题词云。

商品标题词云图

可以看到"取暖器" "暖风机" "暖气片"都是出现的高频词。在特征方面"家用" "节能" "速热"都十分常见。

接着,看到店铺月销量排名Top10。

店铺月销量排名Top10

可以看到店铺销量前十,凯瑞莱旗舰店位居第一。其后春尚电器专营店和苏宁易购分别是第二第三名。排在前十的还有美的、tcl等品牌。

# 计算top10店铺
shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)

全国各省份产地销量排名Top10

这些取暖器的产地都在哪儿呢?经过分析发现,浙江是生产取暖器的头号大省,在产地销量排名中一骑绝尘位居第一。之后排在第二位的是广东。湖南、江苏、山东分别位居第三第四第五名。

# 计算销量top10
province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)

不同价格区间的商品数量占比

取暖器都卖多少钱呢?经过分析发现,100元以下的商品是最多占比高达34.76%。其次是200-500元的商品,占比22.09%。

不同价格区间的销量占比

与此同时,在销量方面,价格在100元以下和100-200元之间的取暖产品也是销量最好的,全网销售量分别占比37.49%和35.92%。

结语

有了各式各样的取暖器,南方冬天就好过了吗?并不,空调开久了干,踢脚线耗电高,油汀等电暖气更适合局部取暖,大空间制热效果差。

虽然近年来也有很多南方家庭选择全房装地暖的,然而电暖用起来一个月电费就高达2、3千,这可能就是北方一个冬天的暖气费用了。这么对比起来,似乎还是开空调和取暖器实在啊。

南方人过冬靠的是一身正气?用Python分析全网取暖器数据相关推荐

  1. 南方人过冬有多难?用Python带你分析全网取暖器销量数据

    ​ CDA数据分析师 出品 作者:Mika数据:真达 如果说冬天对北方人来说只是一个季节,而对南方人来说是一场"渡劫".北方的冷是干冷,物理攻击,多穿一点就好了.而且室内有暖气,在 ...

  2. 浙江海盐已经试行“核供暖”,南方到底该不该供暖?南方人顶起~

    北方,在一些供暖非常好的地方,甚至出现了外面零下20多摄氏度,屋内零上30多摄氏度,热得需要开窗户.穿短袖.吃冷饮的情况,不得不说,这实在是令南方人羡慕了,毕竟南方的冬天可怕的"湿冷&quo ...

  3. 南方人,在北京,夏秋冬

    故宫博物院 | zhang kaiyv 前言 昨天,一个学弟问我:北京的生活怎么样?他在考虑是来北京实习,还是去上海. 这篇文章记录了我去年七月来北京大半年生活的变化,希望给有意来北京的同学们一些参考 ...

  4. python做数据和大数据区别_不懂Python,不懂大数据的人,和咸鱼有什么区别?

    原标题:不懂Python,不懂大数据的人,和咸鱼有什么区别? 在这个处处充斥着大数据影响的时代之下,不懂Python,不懂大数据,你就可能轻易地错过身边的黄金. 我们生活在数据密布的环境中,就像< ...

  5. 32岁了学python来的及吗_为什么每个人都应该在2020年学习Python?

    如今每个人都在谈论 Python,包括那些曾经对 Python 嗤之以鼻的人.本文作者 Javinpaul 原是一名 Java 狂热粉,他以前还曾号召大家学习 Java 而不是 Python.如今他的 ...

  6. 大数据好还是不好_学python好还是大数据好?想学IT,但有点搞不清方向的人可以看看...

    这是我在某平台上看到的一个问题,学IT的话,是学python好还是学大数据好? 首先这个问题不太对,因为大数据和python,从根源上来说是两码事,就像你问我,是学做湘菜好,还是学做打铁好. 所以,学 ...

  7. Python 分析国庆热门旅游景点,告诉你哪些地方好玩、便宜、人又少!

    作者 | 裸睡的猪 责编 | 屠敏 2019年国庆马上就要到来, 今年来点新花样吧, 玩肯定是要去玩的, 不然怎么给祖国庆生? 那去哪里玩?人少档次还高呢? 咱不是程序员嘛, 那就用数据分析下, 看看 ...

  8. 用Python分析国庆旅游景点,告诉你哪些地方好玩、便宜、人又少

    点击上方"码农进阶之路",选择"设为星标" 回复"面经"获取面试资料 2019年国庆马上就要到来 猪哥今年想着来点新花样吧 玩肯定是要去玩的 ...

  9. 南方人第一次到北方过冬是一种什么样的体验?

最新文章

  1. Writing a FilterUnloadCallback Routine for a Minifilter Driver 为一个微过滤驱动写一个过滤器卸载回调例程...
  2. 语音识别:市场前景可观,但核心技术仍需突破
  3. Git Gui for Windows的建库、克隆(clone)、上传(push)、下载(pull)、合并(转)
  4. 2019年北航OO第四单元(UML任务)及学期总结
  5. phpstudy php日志,phpstudy开启网站Apache日志并且按照日期划分创建
  6. Linux rpm 命令参数使用详解[介绍和应用]
  7. android avd 使用方法,Android中Android Virtual Device(AVD)使用教程
  8. error: passing ‘const xxx’ as ‘this’ argument discards qualifiers c++primer 5th文本查询程序一个错误请各位指教(已解决)
  9. Mac OS使用技巧之八:Dock栏使用技巧
  10. package.json相关疑惑总结
  11. Spring教程 - Spring核心框架教程
  12. java泛型编程_Java编程泛型限定代码分享
  13. 代码行数、查杀 bug 数笑笑就好,技术团队的 KPI 到底怎么定?
  14. 知乎python小项目_python进阶知乎
  15. 卫星通信中信关站、关口站、地面终端的区分
  16. win2003服务器360修复漏洞打不开网页,win7电脑使用360浏览器打不开网页的有效恢复方法...
  17. 一步一步理解Docker
  18. html仿网易云网站,GitHub - Hdoove/music-webapp: 仿网易云webapp
  19. -bash: lsb_release: 未找到命令
  20. 双逻辑非(!!)操作符

热门文章

  1. 基于php115课程辅助教学系统
  2. 什么叫新零售系统 新零售的特点是什么?
  3. java集合 — — Map集合
  4. vot2016 toolkit工具箱配置
  5. 将搜狗浏览器导出的html书签导入safari
  6. 世界上污染最严重的5片海洋
  7. 第2讲如何打造属于自己的工程师文化
  8. 项目管理类证书有哪些?
  9. VC++中如何获取GB2312字符集中汉字拼音首字母
  10. 黑马程序员----JAVASE之交通灯管理系统