智利驻华大使馆商务参赞娜塔曾表示:“2020-2021产季车厘子实现了丰收,预计今年有50万吨左右的车厘子进入中国市场。”自2020年12月中旬开始,智利海运车厘子陆续到达中国,运输成本较此前空运方式大幅下滑。这意味着,国内消费者将能以更低的价格买到车厘子。然而,近日国内已有多地进口车厘子核酸检测结果为阳性,在这种情况下,你还敢大呼“车厘子自由”吗?

数据获取
本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:

def main():browser.get('https://www.taobao.com/')page = search_product(key_word)print(page)get_data()page_num = 70while int(page) != page_num:print("-" * 100)print("正在爬取第{}页数据".format(page_num + 1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))browser.implicitly_wait(10)get_data()page_num += 1print("数据抓取完成")if __name__ == '__main__':key_word = "车厘子"browser = webdriver.Chrome("./chromedriver")main()

数据处理
数据读取并预览

df.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- -----0   商品名称 1595 non-null   object1   商品价格 1595 non-null   float642   付款人数 1595 non-null   object3   店铺名称 1595 non-null   object4   发货地址 1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

查看数据信息

df.info()<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):# Column Non-Null Count Dtype
--- ------ -------------- -----0   商品名称 1595 non-null   object1   商品价格 1595 non-null   float642   付款人数 1595 non-null   object3   店铺名称 1595 non-null   object4   发货地址 1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

发现数据存在以下几个问题:

(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序

数据清洗

复制代码
#剔除缺失记录
df.dropna(axis=0, how=‘any’, inplace=True)

#从发货地址字段中切分出省份和城市
df[“省份”] = df[“发货地址”].str.split(’ ‘,expand=True)[0] #expand=True可以把用分割的内容直接分列
df[“城市”] = df[“发货地址”].str.split(’ ',expand=True)[1] #提取城市
df[“城市”].fillna(df[“省份”], inplace=True) #城市字段空值用省份非空值填充

#用正则表达式从付款人数中提取数字
import re
df[‘数字’] = [re.findall(r’(\d+.{0,1}\d*)’, i)[0] for i in df[‘付款人数’]] # 提取数值
df[‘数字’] = df[‘数字’].astype(‘float’) # 转化数值型
df[‘单位’] = [’’.join(re.findall(r’(万)’, i)) for i in df[‘付款人数’]] # 提取单位(万)
df[‘单位’] = df[‘单位’].apply(lambda x:10000 if x==‘万’ else 1)
df[‘付款人数’] = df[‘数字’] * df[‘单位’] # 计算付款人数
df.drop([‘发货地址’, ‘数字’, ‘单位’], axis=1, inplace=True) # 删除多余的列

#按商品价格降序并重置索引
df = df.sort_values(by=“商品价格”, axis=0, ascending=False) #降序
df = df.reset_index(drop=True) #重置索引
复制代码

清洗后,数据预览如下:

数据可视化
在以往的数据可视化中,常常以Python可视化库作图。而本文将尝试用Excel进行车厘子数据可视化,因为在绘图方面,Excel完全不输Python!

国内哪些地方车厘子卖的最火?

利用省份和付款人数字段数据制作地图,发现上海、浙江和广东等地车厘子销售量最大,西藏、青海和内蒙古销量较小。沿海地区的经济和人口优势,成为车厘子主要的消费市场。

车厘子作为“明星水果”,不菲的价格常常让打工人望而却步。根据国家统计总局发布的最新数据,上海人均可支配收入居首,超过7万元,自然更容易实现“车厘子自由”。北京虽然收入较高,但可能受疫情影响较大,车厘子销量并不多。

车厘子到底有多贵?

由上图可知,40%的车厘子价格在201-500元之间(淘宝挂牌价,非每斤价格),50元以下的车厘子占比不到4%,我表示有被贵到,你呢?如果你不嫌贵,那我帮你找到一家,可能符合你的需求,如下:

哪些店铺卖的最好?

从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌度关注较多。福瑞达旗舰店月销量超6万,名副其实车厘子销冠,百果园紧随其后。

在售的车厘子具有哪些特点?

为了了解车厘子的特点,对商品名称字段做了文本分析,以果篮为背景绘制了车厘子词云图。主要的特点还是可以看出来的,新鲜、智利、当季、特大等词都是水果店家推销的点。至于孕妇提及频率这么高,有点纳闷,于是百度之:

那么问题来了,特殊时期,我们打工人能不能剁手python基础教程买车厘子?截至目前,根据中国疾控中心公布的消息,目前并没有发现因为食用进口冷链食品而感染新冠肺炎的病例。因此对于普通消费者来说,无须过于恐慌。当然如果你确实非常焦虑的话,疫情期间也可以多选择国内生产的食品。

Python采集淘宝1585个商家车厘子数据,看看到底有多贵相关推荐

  1. API工具栏教你如何采集淘宝拼多多商品详情数据

    item_get-根据ID取商品详情 API工具 名称 类型 必须 描述 key String 是 调用key(必须以GET方式拼接在URL中)注册Key和secret测试 secret String ...

  2. 用Python分析淘宝2000款避孕套,得出这些有趣的结论

    我们在上一篇的时候已经将淘宝数据爬取下来了,但是并没有做数据分析.所以今天这篇文章就是教大家如何去分析数据,得出一些有用的结论! Python语言相比其他语言的优势在哪里?猪哥认为是数据分析和人工智能 ...

  3. 采集淘宝网的10个经典方法

    采集淘宝官网的10个经典方法 采集淘宝数据分析.商品详细信息.竞店数据.品牌数据.全网搜索.网页爬虫.采集网站数据.网页数据采集软件.python爬虫.HTM网页提取.APP数据抓包.APP数据采集. ...

  4. PHP实现采集淘宝商品信息

    http://daigou.dayusheji.com/demo.php# http://lang.xp3.biz/index.php/60/s/ 一个采集淘宝商品信息的采集 一个采集淘宝商品信息的采 ...

  5. 如何秒下单?python的淘宝秒杀抢购下单源码参考

    如何秒下单?python的淘宝秒杀抢购下单源码参考 疫情如期,隔离还在继续,何时工作是一个头大的问题,最近在看口罩,不少电商平台都有放出口罩,当然,手残党将会也会是一直难以下手,你可能很难抢得到,故找 ...

  6. 用爬虫批量采集淘宝宝贝评论

    2019独角兽企业重金招聘Python工程师标准>>> 采集字段: 用户.图片1.图片2 .图片3. 评论内容. 颜色及尺码. 最新评论时间 采集工具: 后羿采集软件 采集结果预览: ...

  7. Python采集某宝数据,轻松解决这个价值千元的外包项目

    前言 今天分享做的一个外包项目,是用Python采集某宝的数据,资金诱人所以立马接了,嘿嘿 selenium Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,就像玩 ...

  8. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  9. 用Python分析淘宝数千款款避孕套,得出这些有趣的结论

    到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是: Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端. 淘宝自动登录2.0,新增Cookies序列化,教大家如何将co ...

  10. 利用python从网页查找数据_利用Python模拟淘宝的搜索过程并对数据进行可视化分析...

    数据挖掘入门与实战 公众号: datadw 本文讲述如何利用Python模拟淘宝的搜索过程并对搜索结果进行初步的数据可视化分析. 搜索过程的模拟:淘宝的搜索页面有两种形式, 一种形式是, 2019/2 ...

最新文章

  1. angular.forEach
  2. 调试JavaScript/VB Script脚本程序(IE篇)
  3. Java求最小数用哪个函数_在Java中使用小数进行计算的函数
  4. char数组拷贝wchar数组
  5. 九宫格抽奖V1.3.26正版
  6. 95-140-116-源码-transform-算子union
  7. SpringCloud工作笔记037---spring cloud-zuul的Filter详解
  8. Python常见问题解决记录1-Non-ASCII character ‘\xe7‘错误
  9. mpacc和计算机硕士,考MPAcc还是工作?读研三年VS工作三年对比!
  10. 数据库课程设计报告——员工工资管理系统
  11. GPIO 模拟SPI
  12. 《关键对话》:高效沟通与数据分析的意义不言而喻
  13. SIM卡无法识别经验案例
  14. Sentry 前端日志上报使用
  15. VTK 学习----3D基础知识-着色器和图形管道
  16. 关于配眼镜的一点认识
  17. Python实现ARCGIS栅格计算器con函数功能
  18. Runtime error go fuck yourself
  19. ESP32-C3 LVGL(未完成)
  20. C语言 | 三天打鱼两天晒网(源码)

热门文章

  1. 【Java安全技术探索之路系列:Java可扩展安全架构】之八:JCP(一):JCP架构介绍
  2. 为中国的孩子制造安全的校车
  3. 基础知识(HTML + CSS)整理
  4. WVS与Arachni漏扫工具对比实验
  5. Python中使用wxpy定时机器人给微信好友发送每日一文
  6. [SSL_CHX][2021-08-20]幸运数字们
  7. 华为HCNA中vlan笔记
  8. Failed to read artifact descriptor for
  9. Android仿芝麻信用分雷达分布图
  10. matlab中主程序如何调用其它子程序,主程序怎样调用子程序