前言

一直以来我都是以大小来区分樱桃和车厘子的区别,那么他们的价格就是天差地别,现在我在水果店基本很少有看到卖樱桃的,但是车厘子一般情况下都有!车厘子这么贵为何还这么多人买?比樱桃好吃吗?车厘子的价格一般都在60左右一斤,今天我们来抓取整个某宝上面的车厘子商家,看看如何他会让这么多人喜欢吧!

看着感觉很好吃的样子!

第一步获取数据

这篇用Python采集1500多家商家的销售数据,获取车厘子的名称,价格,付款人数,店铺名字,发货地段等信息。

函数:

def main():browser.get('https://www.taobao.com/')page = search_product(key_word)print(page)get_data()page_num = 70while int(page) != page_num:print("-" * 100)print("正在爬取第{}页数据".format(page_num + 1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))browser.implicitly_wait(10)get_data()page_num += 1print("数据抓取完成")if __name__ == '__main__':key_word = "车厘子"browser = webdriver.Chrome("./chromedriver")main()

第二步数据处理

既然采集到数据了,那就把这些数据整理一下!

数据读取并预览

import pandas as pd
import numpy as np
df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称df.sample(5)

​怎么查看数据信息呢

df.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0   商品名称 1595 non-null   object 1   商品价格 1595 non-null   float642   付款人数 1595 non-null   object 3   店铺名称 1595 non-null   object 4   发货地址 1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

发现数据存在以下几个问题:

①发货地址有缺失值

②付款人数需做提取

③发货地址需做分割

④自定义索引并降序

数据清洗

#剔除缺失记录
df.dropna(axis=0, how='any', inplace=True)#从发货地址字段中切分出省份和城市
df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列
df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市
df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充#用正则表达式从付款人数中提取数字
import re
df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值
df['数字'] = df['数字'].astype('float') # 转化数值型
df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)
df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)
df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数
df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列#按商品价格降序并重置索引
df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序
df = df.reset_index(drop=True) #重置索引

清洗后,数据预览如下:

​第三步数据可视化

数据都清洗整理好了,那接下来就是可视化了!

在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!

国内哪些地方车厘子卖的最火?

利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。

车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。

车厘子到底有多贵?

由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:

哪些店铺卖的最好?

从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。

在售的车厘子具有哪些特点?

为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:

那么问题来了,特殊时期,我们打工人能不能剁手买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。

04

结语

1.本数据分析只做学习研究之用途,提供的结论仅供参考,还请独立思考。

​2.需要完整项目代码的:点击这里获取

车厘子为何这么贵?还这么多人喜欢吃?Python分析了1500家店铺数据,发现了这些秘密!相关推荐

  1. 苹果那么贵为什么还那么多人买

    苹果那么贵为什么还那么多人买 因为对很多人来说,电脑是生产力工具,不是小孩玩具. 对于生产力工具来说,"皮实抗造".在需要的时候从不出故障是刚需. 因此,对行内人来说,买台式机当然 ...

  2. python对财务人员的帮助-还不熟练VBA的财务人,让Python带你弯道超车!

    原标题:还不熟练VBA的财务人,让Python带你弯道超车! 相信做财务的同学肯定对VBA这门编程语言并不感到陌生. VBA可以帮助我们快速的处理大量的数据,一些复杂的逻辑或需要重复操作的处理也可以用 ...

  3. 【正一专栏】巴萨和曼城都那么强了还在买人续约

    巴萨和曼城都那么强了还在买人续约 原创2018-01-30九天九天时空 目前欧洲最火的三支球队分别是巴萨.曼城和大巴黎,分别在各自联赛中遥遥领先不说,在杯赛中也是高歌猛进,欧冠也是夺冠的热门,更重要的 ...

  4. 知识关联的价值还无法与人的关联的价值相比

    在google的可怕之处一文中得到weidagang2046的指点,顿时惊出一身冷汗. 只研究计算机如何理解人是不够的,实际上,在人和计算机共存的系统中,有四方面的关系要研究: 人->机,机-& ...

  5. 程序员工作压力大,为什么还这么多人想做程序员?是因为喜欢吗?

    最近过年遇到很多亲戚和朋友,不知道大家的身边是怎样的,阿粉身边的亲戚朋友从事计算机相关的还是挺少的,很多还是从事一些传统行业. 最近跟一个亲戚聊天的时候就聊到网上对程序员的一些刻板影响,什么格子衫呀, ...

  6. 设计超萌的机械键盘,超有手感还不吵人,雷柏MT510PRO键盘上手

    平时工作的时候,还真少不了一把打字爽快的键盘,这样不仅手感更好,而且工作效率通常也会大大提升.我在家比较喜欢使用机械键盘,嘀嘀哒哒的节奏让人感觉非常舒服,但是在办公室.咖啡厅之类的公共场所就不行了,最 ...

  7. 那些三十几岁还转行的人,到底是怎么想的?

    如果非要给跳槽的不同"姿势"定个难度系数,那小编觉得应该是这个不等式:骑驴找马<裸辞<转行<大龄转行.          大龄转行难度最大,那究竟是什么原因促使那 ...

  8. RPA技术这么强,为什么机器人还会让人失望呢?

    响应"停课不停学"号召,RPA修炼营也开学啦!还是熟悉的配方,每周一.三.五发布有关RPA的行业分析.应用场景和应用案例,让你宅在家也能学习RPA. RPA真的有那么好? RPA技 ...

  9. 我用Python分析1585家电商车厘子销售数据,发现这些秘密!

    图片来源:互联网 大家好,我是菜鸟哥~ 众所周知,中国是智利车厘子最主要的出口对象,占据了其95%的市场份额. 智利驻华大使馆商务参赞娜塔曾表示:"2020-2021产季车厘子实现了丰收,预 ...

最新文章

  1. ubuntu ibus谷歌输入法安装
  2. nopi 的使用记录
  3. 我们距离AI编程还有多远?
  4. 简单谈谈5G/C-V2X技术与自动驾驶的关系
  5. 14 代码分割之lazy:Suspense与路由懒加载
  6. 项目中通用的顶部标题和返回的TitleBar
  7. python需要配置环境变量吗_python为什么会环境变量设置不成功
  8. 查询Oracle正在执行的sql语句,锁表,解锁
  9. 黑客攻防技术宝典Web实战篇第2版—第3章 Web应用程序技术
  10. python列表append()函数
  11. java 多线程 int_java多线程问题
  12. Android游戏辅助开发流程,安卓辅助脚本开发游戏化编
  13. 听音室-HIFI入门之10张公认的经典发烧碟
  14. cad老是弹出命令中发生异常_CAD为什么会异常退出?遇到CAD异常退出怎么办-百度经验...
  15. ubuntu16 下安装 dnw 给开发板传输文件,出现的问题以及解决方法
  16. SAP ABAP BDC录屏 数据导入和检验-实例
  17. Ubuntu 如何直接回到桌面
  18. 剪切文件丢失如何恢复
  19. 8月英语——知耻而后勇
  20. Nature综述:人类微生物培养及培养组学culturomics

热门文章

  1. 最新全开源的个人主页源码/原创拟态UI3.0版
  2. DPS学习心得(一)
  3. 斗鱼扩展--快捷短语(十一)
  4. 钉钉群机器人定时发送消息并@所有人
  5. 使用知行之桥EDI系统进行OFTP连接需要准备什么?
  6. C语言设计模式(继承、封装、多态)
  7. 宝宝树CEO王怀南上市前夕内部信:市场需要有价值的好公司
  8. Web Storm 20203.3详解安装汉化
  9. D:/Vitis/export/RF47DR/RF47DRxpfm‘ is invalid. please choose a valid platform.
  10. Android App运行时签名校验