前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
python免费学习资料以及群交流解答点击即可加入

一、分析目标

数据分析之前我们需要清楚的知道自己想要分析什么东西,也就是先搞清楚我们的目标。在公司可能是公司财报、用户增量变化、产品受欢迎程度、一些报表等等。

那我们今天的目标有哪些呢?我们来看看:

分析避孕套标题高频关键字
分析避孕套标题高频关键字 与 商品数量关系
分析避孕套标题高频关键字 与 平均销量关系
分析避孕套标题高频关键字 与 平均售价关系
分析避孕套商品价格区间分布关系
分析避孕套商品销量区间分布关系
分析避孕套商品价格区间 与 平均销量关系
分析避孕套商家数量全国分布关系
分析避孕套商家全国平均销量关系
注意: 以上数据分析全部基于上次爬取的2500款淘宝商品(默认排序),并不代表淘宝所有避孕套商品!

二、分析实现

有了明确的目标之后,我们就要开始技术选型。

首先数据处理的库这个很好确定,基本就是numpy和pandas这两个必备的库,所以大家首先确保已经安装了这两个库。

然后数据可视化库呢?这么多可视化库该怎么选?如果你不知道怎么选,那猪哥给你推荐:pyecharts 这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。

中文文档:https://pyecharts.org/#/zh-cn/intro
源码地址:https://github.com/pyecharts/pyecharts
最后技术选型完毕,我们就可以开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)

0.数据清洗

在我们数据分析之前,我们需要对数据进行清洗。因为从淘宝爬取下来的数据并不是标准的数据,比如:商品销量,爬取下来的数据是:2.5万+人付款,我们需要将它转为:25000(整型),这样才方面后面的处理!

我们先来看看从淘宝爬取的原始数据,看看那些数据需要清洗

根据使用库的经验认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!

大家可以看到最后又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!

1.分析避孕套标题高频关键字

数据清洗完毕之后,我们就可以开始分析了。

分析标题高频关键字这都是老生常谈的一个流程,也就是使用jieba分词,然后统计词频,最后生成一个词云图,这种小功能闭着眼睛都会了


十几行代码就搞定了,我们来看看效果图吧

分析结论:

  • 从整体看商家取名偏爱情趣二字
  • 从材质看尿酸的最多
  • 从功能看颗粒、螺纹的较多

2.分析避孕套标题高频关键字 与 商品数量关系

上面我们只看到大概哪些功能受欢迎,如果需要看具体的数据怎么办呢?

我们就来统计一下包含这些高频关键词的商品数据数量吧,代码讲解在图片下方,下同!

我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就+1。来看看生成的柱状图效果吧!

分析结论:

  • 包含情趣二字的商品有1150款,占到总数(2500款+)的46%。
  • 前三甲是:情趣、尿酸、颗粒

有个疑问想请教各位老司机:这个 免洗 是咋玩的?

3.分析避孕套标题高频关键字 与 平均销量关系

这个分析有意思了,就相当于用户更喜欢哪种功能或者材质的套套。


高频关键字与平均销量分析数据的实现方法是,同样遍历所有数据的标题,如果包含某个关键字,则把该项数据的销量放在关键字的value中(一个list),统计完后再对每个关键字的value进行求平均值,最后再根据平均销量排序。来看看效果吧!

分析结论:

  • 螺纹功能平均销量最高,大家的最爱
  • 功能平均销量前三分别是:螺纹、颗粒、狼牙
  • 小号竟然上榜,哈哈

ps:有很多同学问:为什么不是超薄?超薄自己是爽了,可女朋友呢?

4.分析避孕套标题高频关键字 与 平均售价关系

分析完大家喜欢的功能,再来分析下这些功能的价格如何?哪些功能的避孕套比较贵呢?


高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!
分析结果:

  • 可以看到前排几个基本都是关于材质的
  • 凝胶、透明质、免洗这三项均价最贵,超过100大洋

ps:类似凝胶、透明质、免洗的哪位老司机用过,和一般的有啥区别?

5.分析避孕套商品价格区间分布关系

商品的标题和功能差不多分析完了,我们来分析下价格吧!


人为的对价格进行了划分,一共分为:‘0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, '200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。


分析结论:

  • 价格区间在21-40的商品最多为778款,大约占比31%。
  • 价格在一百以内与超过一百的商品比大概为7:1

ps:没想到还有这么多超过100块的,我想问下200块价格的套套是啥感觉?

6.分析避孕套商品销量区间分布关系

分析完价格当然是分析销量区间了


销量区间分布分析实现原理:认为为销量分区,大概分为:‘一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。


分析结论:

  • 销量在1000以内的最多,大概占比90%
  • 销量过万的一共也才10款,说明爆款真的很少
  • 有一款套套销量竟然超过10万

7.分析避孕套商品价格区间 与 平均销量关系

假如你是一个避孕套卖家,新推出一款避孕套,你想知道价格定为多少销量才会比较高呢?

这时候我们就可以通过分析价格与商品的销量关系,用实际的数据来定价,这也正是数据分析的价值之一。

商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。

分析结论:

  • 定价在31.9-39这个区间平均销量最高,为893
  • 定价在10元以内的销量竟然高居第二

ps:谁用过10以内一盒的套套,出来走走

8.分析避孕套商家数量全国分布关系

标题、价格、销量都分析过了,最后我们还分析下商家位置的数据。

分析的目标是统计全国各省避孕套商家数量,然后做成热力图和柱状图。


统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以的到想要的数据,看看效果如何!

分析结论:

  • 避孕套商家前三甲:广东、上海、浙江

ps:贵州四周都有卖套套的,为何就它没有?难道和地理有关?

9.分析避孕套商家全国平均销量关系

分析完商家数后,我们来看看各省的平均销量吧。

商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。


分析结论:

  • 出乎意料的是山西39个商家平均销量竟然是第一为1535。

ps:为何山西平均销量是第一?原因是啥真想不通

三、总结

通过上面的数据分析,我们得到了一些有趣的结论:

  • 用户偏爱螺纹、颗粒、狼牙等功能
  • 凝胶、透明质、免洗这三项均价最贵,超过100大洋
  • 价格区间在21-40的商品最多为778款,大约占比31%
  • 销量在1000以内的最多,大概占比90%
  • 定价在31.9-39这个区间平均销量最高,为893
  • 避孕套商家数量前三甲:广东、上海、浙江
  • 山西省平均销量最高为山西

通过上述分析结果,如果作为一个避孕套商家,想要推出一款产品,设置标题带螺纹、颗粒、狼牙,价格设置在31.9-39元,这样可能会更畅销一些。

数据分析作为一把利刃,能让你看见别人看不见的事物,如果使用得当完全可以作为你创业的一个重要支点!

用Python分析2000款避孕套,得出这些有趣的结论相关推荐

  1. python爬虫实例电商_Python案例:先爬虫爬取,再分析2000款避孕套,最后得出这个结论...

    在学过了Python爬虫.数据分析之后,曾几何时,这样一个问题一直缠绕着我. Python爬虫能用来干点什么?Python数据分析能不能让这剪不断理还乱的数据变得更有意义? 也许,想来想去,只有用来干 ...

  2. 用Python分析淘宝2000款避孕套,得出这些有趣的结论

    我们在上一篇的时候已经将淘宝数据爬取下来了,但是并没有做数据分析.所以今天这篇文章就是教大家如何去分析数据,得出一些有用的结论! Python语言相比其他语言的优势在哪里?猪哥认为是数据分析和人工智能 ...

  3. 【数据分析】系列-Python分析淘宝4200款Bra(没错,就是文胸)后,发现最好卖的款式居然是。。。

    此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉. 本着娱乐的态度,着手分析一下淘宝的前4200+款bra(文胸),看看有什么有趣的地方. 项目背景 起因:近日, ...

  4. 用Python分析淘宝数千款款避孕套,得出这些有趣的结论

    到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是: Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端. 淘宝自动登录2.0,新增Cookies序列化,教大家如何将co ...

  5. 用Python分析完6000 款 App,得出这些结论

    ♚ 作者:苏克,零基础.转行python爬虫与数据分析 博客:https://www.makcyun.top 摘要: 如今移动互联网越来越发达,各式各样的 App 层出不穷,也就产生了优劣之分,相比于 ...

  6. 用 Python 分析了 6000 款 App,看看哪些神器你还没用过?

    摘要: 如今移动互联网越来越发达,各式各样的 App 层出不穷,也就产生了优劣之分,相比于普通 App,我们肯定愿意去使用那些良心佳软,但去发现这些 App 并不太容易,本文使用 Scrapy 框架爬 ...

  7. python分类信息_用Python分析了 7 万款 App后,我们发现...

    原标题:用Python分析了 7 万款 App后,我们发现... 本文中使用 Scrapy 爬取了豌豆荚全网 70,000+ App ,并进行探索性分析. 写在前面:若对数据抓取部分不感兴趣,可以直接 ...

  8. 开店必看!带你用Python分析闲鱼的爆款商品

    开店必看!带你用Python分析闲鱼的爆款商品 分享 Python 自动化及爬虫.数据分析实战干货,欢迎关注. 1 目 标 场 景 经常看到有朋友在闲鱼卖些小东西又或是自己擅长的一些技能,都能为他们带 ...

  9. 用Python分析了1w场吃鸡数据,原来吃鸡要这么玩!

    微信改版,加星标不迷路! 用Python分析如何才能高效吃鸡? 作者:阿广 概述 前言 获取数据 观察数据 数据处理 吃鸡到底和哪个数据相关性最强? 分析热度图 期望研究的问题 结论 阿广说 推荐阅读 ...

最新文章

  1. 使用Windows Mobile Device Center进行手机的同步
  2. 智源“高能对撞粒子分类挑战赛”开启,品鉴宇宙粒子的独特“味道”
  3. thinkphp mysql save_新增Save · ThinkPHP5+数据库和模型 · 看云
  4. C# Process.Kill() 拒绝访问(Access Denied) 的解决方案
  5. shell编程基础(三): 位置参数与shell脚本的输入输出
  6. win10 搭建php服务器搭建,Win10平台下安装并配置php
  7. 查看计算机硬盘序列号的软件,硬盘序列号,手把手教你怎么查看硬盘序列号
  8. Java中的命名规范总结
  9. Linux入门基础命令教程
  10. 中国共用计算机网,《中国公用计算机互联网国际联网管理办法》
  11. 正则表达式匹配原则和常用检验表达式
  12. Windows如何查看IIS访问IP记录
  13. 2021ICPC网络赛第一场【A Busiest Computing Nodes】【D Edge of Taixuan】
  14. 华为的王炸黑科技鸿蒙系统,华为黑科技“cyberverse”发布,“鸿蒙系统”在其面前都不值一提...
  15. intellij idea 工具栏的隐藏和显示
  16. 命令行快速删除当前行_在命令行中快速有效地工作
  17. windows常用CMD命令大全总结
  18. IOST 项目更新:BB ,展望正面 | TokenInsight
  19. Socket编程之地址之间转换、字节序转换
  20. mac上MAMP的各种坑

热门文章

  1. rabbitMQ pika demo
  2. 软件测试方法划分等价类,软件测试基础-软件测试方法之等价类划分.ppt
  3. mysql数据库表结构对比_mysqldiff工具对比mysql数据库表结构差异
  4. R语言使用pf函数生成F分布累积分布函数数据、使用plot函数可视化F分布累积分布函数数据(F Distribution)
  5. Win7下的MapGIS 6.7
  6. 吉首大学计算机专业宿舍,2021年吉首大学新生宿舍条件和宿舍环境图片
  7. IAT HOOK DEMO win32/win64
  8. 备案接口 php,PHP网站备案查询API接口代码
  9. 「开发者说」自动化设备管理上钉钉,“源创食堂“小程序开发实践
  10. linux 命令设置ip,linux下配置ip地址四种方法(图文方法)