图片来源:互联网

大家好,我是菜鸟哥~

众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额。

智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果为阳性,在这种情况下,你还敢大呼“车厘子自由”吗?

01

数据获取

本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:

def main():browser.get('https://www.taobao.com/')page = search_product(key_word)print(page)get_data()page_num = 70while int(page) != page_num:print("-" * 100)print("正在爬取第{}页数据".format(page_num + 1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))browser.implicitly_wait(10)get_data()page_num += 1print("数据抓取完成")if __name__ == '__main__':key_word = "车厘子"browser = webdriver.Chrome("./chromedriver")main()

02

数据处理

1.数据读取并预览

import pandas as pd
import numpy as np
df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称df.sample(5)

2.查看数据信息

df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):#   Column  Non-Null Count  Dtype
---  ------  --------------  -----  0   商品名称    1595 non-null   object 1   商品价格    1595 non-null   float642   付款人数    1595 non-null   object 3   店铺名称    1595 non-null   object 4   发货地址    1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

发现数据存在以下几个问题:

(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序

3.数据清洗

#剔除缺失记录
df.dropna(axis=0, how='any', inplace=True)#从发货地址字段中切分出省份和城市
df["省份"] = df["发货地址"].str.split(' ',expand=True)[0]  #expand=True可以把用分割的内容直接分列
df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市
df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充#用正则表达式从付款人数中提取数字
import re
df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']]  # 提取数值
df['数字'] = df['数字'].astype('float')  # 转化数值型
df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']]  # 提取单位(万)
df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)
df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数
df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列#按商品价格降序并重置索引
df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序
df = df.reset_index(drop=True) #重置索引

清洗后,数据预览如下:

03

数据可视化

在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!

1.国内哪些地方车厘子卖的最火?

利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。

车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。

2.车厘子到底有多贵?

由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:

3.哪些店铺卖的最好?

从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。

4.在售的车厘子具有哪些特点?

为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:

那么问题来了,特殊时期,我们打工人能不能剁手买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。

结语

1.本数据分析只做学习研究之用途,提供的结论仅供参考,还请独立思考。

2.公众号后台回复「车厘子」可自动获取本文数据集。

我们开了一个“菜鸟玩转服务器”星球

最近搞了一个阿里云的白领服务器的活动,很多同学拿了服务器之后不知道怎么玩。好比你买了一台车,但是不会开只能停在停车场太浪费了。

于是我们开了教大家玩转云服务器,主要教大家玩Linux,安装Python,安装数据库,用Django+uwsigi+nginx web服务搭建网站,求职简历网站搭建,写脚本部署股票基金机器人,还可以搭建个人网盘!

星球的价格是一年88元,算下来每个月7块钱,连半杯奶茶的钱都不到,一天才2毛多钱,非常划算。

推荐阅读:
入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|

年度爆款文案

  • 1).卧槽!Pdf转Word用Python轻松搞定!

  • 2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃

  • 3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密

  • 4).80行代码!用Python做一个哆来A梦分身

  • 5).你必须掌握的20个python代码,短小精悍,用处无穷

  • 6).30个Python奇淫技巧集

  • 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货

  • 8).再见Python!我要学Go了!2500字深度分析!

  • 9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片

点击阅读原文,加入我们的星球!

我用Python分析1585家电商车厘子销售数据,发现这些秘密!相关推荐

  1. python分析销量10w+的车厘子,发现了一个秘密

    又到了吃车厘子的季节. 冬季,中国市面上的车厘子主要来自南半球的智利.新西兰和澳大利亚等地,其中中国更是智利最大的车厘子出口国,出国占比达百分之90以上.. 远隔重洋.长途跋涉而来的车厘子的消费价格里 ...

  2. 用 Python 分析了所有微信好友,发现了一个秘密...

    点击上方"何俊林",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 Illustrations by Evgenij Kungur 文/ Python攻城狮 最近研究了一下 ...

  3. 什么花可以代表父爱哪?用python分析百句父爱名言竟发现!!!

    1.石1.石斛 父爱无声,我们对父亲的爱往往也是如此,父亲是我们每个人这辈子最应该感谢和报答的人.抽出一点时间给父亲视频一下吧,或者用python生成一张意味深长的图片送给他.让父亲不在担心我们的生活 ...

  4. 车厘子为何这么贵?还这么多人喜欢吃?Python分析了1500家店铺数据,发现了这些秘密!

    前言 一直以来我都是以大小来区分樱桃和车厘子的区别,那么他们的价格就是天差地别,现在我在水果店基本很少有看到卖樱桃的,但是车厘子一般情况下都有!车厘子这么贵为何还这么多人买?比樱桃好吃吗?车厘子的价格 ...

  5. Python分析电商销售数据

    python数据分析作业记录 本文原文件通过百度网盘分享 链接:https://pan.baidu.com/s/1XeBiANMxgLxQu7Qf9ejomg 提取码:evzt 作业要求 1.读取da ...

  6. python 分析大数据日志_大数据Web日志分析 用Hadoop统计KPI指标实例

    可以带着下面问题来阅读文章 问题: 1.MapReduce在日志分析的作用 思考: 该如何架构kpi系统,需要考虑什么问题. kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点 ...

  7. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  8. 用python分析拼多多_利用Python分析拼多多上卖的最热的产品, 结果出乎大多数人意料!...

    一.缘起 当然,我们先走第一步,开个头.现在,我们就从一个切面来窥探下. 二.我们获取了多少商品条目? 三.这些商品总共卖出了多少钱? 四.销售额前十的品类是哪些? 拼多多的主打品类是什么呢? 一级类 ...

  9. 电商 竞品分析_电商平台竞品分析报告.docx

    Planning scheme 电商平台竞品分析报告 电商平台竞品分析报告 电商平台竞品分析报告 V1.0 2018-3-18 状态 : [ √ ] 草稿 [ ] 修改中 [ ] 定稿 文件标签: 竞 ...

最新文章

  1. 基于互联网云脑架构分析百度的现状与未来
  2. Notepad++免费开源文本编辑器
  3. OSI七层模型中每层的协议及网络设备—Vecloud微云
  4. 【堆】堆的基本操作总结
  5. android 百度地图 在线建议查询,Android 百度地图 SDK v3_3_0 (五) ---POI搜索和在线建议查询功能...
  6. Leetcode-997 Find the Town Judge(找到小镇的法官)
  7. 概率潜在语义分析(pLSA) 相关知识
  8. java 三个点_Java,参数中的3个点
  9. Juniper大中国区于肇烈
  10. springboot Hello World探究
  11. 基于STEP7 V5.xWinCC V7.x快速开发项目
  12. SpringBoot日志的相关知识
  13. 信号数据EMD分解+IMF时序数据LSTM预测建模实践
  14. jetty的安装,优化
  15. Oracle RAC命令
  16. cvpr 注意力机制_计算机视觉中的注意力机制
  17. c语言答案-贾宗璞 许合利,c语言程序设计答案贾宗璞许合利
  18. 计算机里的MAC,怎么在mac苹果电脑中查看电脑开机运行的时长
  19. ubuntu之拼音输入法
  20. android的WebView加载html内容图片超出屏幕范围

热门文章

  1. ev3编程 越野机器人_Lego ev3机器人怎么编程
  2. Java in Tarena_Spring Note04
  3. python对mp3格式文件标题专辑封面等信息修改
  4. Redis缓存击穿,穿透,雪崩等问题
  5. arista eos系统从零开始研究(1)
  6. mysql时间格式秒微秒_mysql 时间类型精确到毫秒、微秒及其处理
  7. 在家也能查sci--漫游登陆web of science
  8. Benchmark和Baseline的含义与区别
  9. 量化交易入门阶段:布林带调整参数又如何?
  10. 推荐一款latex公式OCR识别软件