图片来源:互联网

众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额。

智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果为阳性,在这种情况下,你还敢大呼“车厘子自由”吗?

01 数据获取

本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:

def main:browser.get('https://www.taobao.com/')page = search_product(key_word)print(page)get_datapage_num = 70while int(page) != page_num:print("-" * 100)print("正在爬取第{}页数据".format(page_num + 1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))browser.implicitly_wait(10)get_datapage_num += 1print("数据抓取完成")if __name__ == '__main__':key_word = "车厘子"browser = webdriver.Chrome("./chromedriver")main

02 数据处理

1.数据读取并预览

import pandas as pdimport numpy as npdf = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称df.sample(5)

2.查看数据信息

df.info
<class 'pandas.core.frame.DataFrame'>Int64Index: 1595 entries, 0 to 1674Data columns (total 5 columns):# Column Non- Count Dtype--- ------ -------------- -----0 商品名称 1595 non- object1 商品价格 1595 non- float642 付款人数 1595 non- object3 店铺名称 1595 non- object4 发货地址 1585 non- objectdtypes: float64(1), object(4)memory usage: 74.8+ KB

发现数据存在以下几个问题:

(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序

3.数据清洗

#剔除缺失记录df.dropna(axis=0, how='any', inplace=True)#从发货地址字段中切分出省份和城市df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充#用正则表达式从付款人数中提取数字import redf['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值df['数字'] = df['数字'].astype('float') # 转化数值型df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列#按商品价格降序并重置索引df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序df = df.reset_index(drop=True) #重置索引

清洗后,数据预览如下:

03 数据可视化

在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!

1.国内哪些地方车厘子卖的最火?

利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。

车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。

2.车厘子到底有多贵?

由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:

3.哪些店铺卖的最好?

从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。

4.在售的车厘子具有哪些特点?

为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:

那么问题来了,特殊时期,我们打工人能不能剁手买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。

结语

1.本数据分析只做学习研究之用途,提供的结论仅供参考,还请独立思考。

福利

入门Python的最强三件套《ThinkPython》、《简明Python教程》、《Python进阶》的PDF电子版已打包提供给大家。

关注公众号/Python小白集训营/回复/电子书/即可自动获取。

我用Python分析了1500家电商的销售数据,竟发现了进口车厘子的秘密相关推荐

  1. 车厘子为何这么贵?还这么多人喜欢吃?Python分析了1500家店铺数据,发现了这些秘密!

    前言 一直以来我都是以大小来区分樱桃和车厘子的区别,那么他们的价格就是天差地别,现在我在水果店基本很少有看到卖樱桃的,但是车厘子一般情况下都有!车厘子这么贵为何还这么多人买?比樱桃好吃吗?车厘子的价格 ...

  2. 年终盘点 | 用Python分析了上千个基金,终于发现了赚钱的秘密!

    时间过得真快,2021年差不多还有10天就要和大家说再见了,大家今年过得怎么样?有什么收获或者遗憾呢? 今天我们来分析一下2021年的基金市场,分析一下今年表现最好的那些基金有什么特征?作为理财小白的 ...

  3. 使用Python分析网易云歌曲评论信息,我发现了这些有趣的规律

    前几天有个学生娃子找我帮忙做点可视化的作业,作业内容包括采集网易云音乐热评评论内容,数据量1W作业足够,然后就是做点数据分析相关的工作即可.这份大作业里边有网络爬虫,有数据分析和数据处理,还有可视化, ...

  4. 我用Python分析1585家电商车厘子销售数据,发现这些秘密!

    图片来源:互联网 大家好,我是菜鸟哥~ 众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额. 智利驻华大使馆商务参赞娜塔曾表示:"2020-2021产季车厘子实现了丰收,预 ...

  5. python 分析大数据日志_大数据Web日志分析 用Hadoop统计KPI指标实例

    可以带着下面问题来阅读文章 问题: 1.MapReduce在日志分析的作用 思考: 该如何架构kpi系统,需要考虑什么问题. kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点 ...

  6. 盛夏海边,用Python分析青岛哪些景点性价比高

    作者 | 志斌 来源 | 志斌的python笔记 头图 | 付费下载于 IC Photo 在经过几年的热潮之后,人工智能AI算法已经在各行各业广泛使用了.例如在工业制造中,利用人工智能监测仪器仪表.人 ...

  7. 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!

    微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广 概述 前言 假设 游戏对战数据获取 分析和训练数据 游戏对战胜负预测 期望研究的问题 结论 阿广说 推荐阅读 前言 如今,只 ...

  8. 用 Python 分析了 1982 场英雄联盟数据,开局前预测游戏对局胜负!

    前言 如今,只要随便进入一个网吧,都会发现玩<英雄联盟>的人是最多的,可以这么说,<英雄联盟>已经是当之无愧的端游一哥.而在拥有如此基数玩家的<英雄联盟>,已经不仅 ...

  9. 用python分析拼多多_利用Python分析拼多多上卖的最热的产品, 结果出乎大多数人意料!...

    一.缘起 当然,我们先走第一步,开个头.现在,我们就从一个切面来窥探下. 二.我们获取了多少商品条目? 三.这些商品总共卖出了多少钱? 四.销售额前十的品类是哪些? 拼多多的主打品类是什么呢? 一级类 ...

  10. Python 分析Nginx 日志并存入MySQL数据库(单线程)

    使用Python 分析Nginx access 日志,根据Nginx日志格式进行分割并存入MySQL数据库.(参考网上一些文章) Nginx access日志格式如下: #使用的nginx默认日志格式 ...

最新文章

  1. YOLOP ONNXRuntime C++工程化记录
  2. 五分钟了解Mysql的行级锁——《深究Mysql锁》
  3. URG与PSH的联系和区别
  4. MySQL 常用运算符
  5. 【期望】选书问题(金牌导航 期望-7)
  6. C语言“fread”函数的用法?
  7. 李宏毅《机器学习》完整版笔记发布
  8. 全球首富贝索斯离婚第二天 出轨对象女主播宣布离婚...
  9. 自己的父母,能把钱交给他们存吗?
  10. [Linux]Red Hat Linux 9.0环境下架设Web服务器[2]
  11. Python tkinter库之Canvas正方形旋转
  12. 微信卡包系列-核销微信卡券优惠券
  13. 也谈正方形不是长方形
  14. (已解决)spring-boot maven报错Project 'org.springframework.boot:spring-boot-starter-parent:2.2.0.RELEAS
  15. testNG - 无法访问org.testng.Assert
  16. Event-emitter (理解篇)
  17. python编写游戏测试机器人客户端(一)
  18. 线程死锁 导致 服务器cpu负载过高
  19. 【论文笔记】Revisiting graph based collaborative Filtering:一种线性残差图图卷积网络方法
  20. 唯一登录、联合登录、单点登录——唯一登录

热门文章

  1. javacv 人脸追踪_基于JavaCV的人脸识别程序
  2. php file get contents 总是超时,file_get_contents超时问题及解决方案
  3. c语言中while(a)、if(a)、while(!a)、if(!a)、if(%a)是什么意思?
  4. 论如何设计博客分类标签系统
  5. Java及依赖和Maven
  6. 国内手机号码11位的原因
  7. 华为mate7android版本,华为Mate7升级安卓6.0(EMUI4.0)M版本详细图文教程
  8. 第2周 Storm概念详解和工作原理,topology、spout、bolt的细节和API讲解之2
  9. Microsemi Libero系列教程(二)——新建点灯工程
  10. echarts使用rich设置显示数据label颜色