用Python分析淘宝2000款避孕套,得出这些有趣的结论
一、分析目标
- 分析避孕套标题高频关键字
- 分析避孕套标题高频关键字 与 商品数量关系
- 分析避孕套标题高频关键字 与 平均销量关系
- 分析避孕套标题高频关键字 与 平均售价关系
- 分析避孕套商品价格区间分布关系
- 分析避孕套商品销量区间分布关系
- 分析避孕套商品价格区间 与 平均销量关系
- 分析避孕套商家数量全国分布关系
- 分析避孕套商家全国平均销量关系
二、分析实现
中文文档:https://pyecharts.org/#/zh-cn/intro
源码地址:https://github.com/pyecharts/pyecharts
0.数据清洗
根据使用库的经验猪哥认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!
大家可以看到最后猪哥又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!
1.分析避孕套标题高频关键字
十几行代码就搞定了,我们来看看效果图吧
分析结论:
- 从整体看商家取名偏爱情趣二字
- 从材质看尿酸的最多
- 从功能看颗粒、螺纹的较多
2.分析避孕套标题高频关键字 与 商品数量关系
我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就+1。来看看生成的柱状图效果吧!
- 包含情趣二字的商品有1150款,占到总数(2500款+)的46%。
- 前三甲是:情趣、尿酸、颗粒
3.分析避孕套标题高频关键字 与 平均销量关系
分析结论:
- 螺纹功能平均销量最高,大家的最爱
- 功能平均销量前三分别是:螺纹、颗粒、狼牙
- 小号竟然上榜,哈哈
4.分析避孕套标题高频关键字 与 平均售价关系
高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!
分析结论:
- 可以看到前排几个基本都是关于材质的
- 凝胶、透明质、免洗这三项均价最贵,超过100大洋
5.分析避孕套商品价格区间分布关系
猪哥人为的对价格进行了划分,一共分为:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。
分析结论:
- 价格区间在21-40的商品最多为778款,大约占比31%。
- 价格在一百以内与超过一百的商品比大概为7:1
6.分析避孕套商品销量区间分布关系
销量区间分布分析实现原理:认为为销量分区,大概分为:’一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。
分析结论:
- 销量在1000以内的最多,大概占比90%
- 销量过万的一共也才10款,说明爆款真的很少
- 有一款套套销量竟然超过10万
7.分析避孕套商品价格区间 与 平均销量关系
商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。
分析结论:
- 定价在31.9-39这个区间平均销量最高,为893
- 定价在10元以内的销量竟然高居第二
8.分析避孕套商家数量全国分布关系
统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以得到想要的数据,看看效果如何!
分析结论:
- 避孕套商家前三甲:广东、上海、浙江
9.分析避孕套商家全国平均销量关系
商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。
- 出乎意料的是山西39个商家平均销量竟然是第一为1535。
三、总结
- 用户偏爱螺纹、颗粒、狼牙等功能
- 凝胶、透明质、免洗这三项均价最贵,超过100大洋
- 价格区间在21-40的商品最多为778款,大约占比31%
- 销量在1000以内的最多,大概占比90%
- 定价在31.9-39这个区间平均销量最高,为893
- 避孕套商家数量前三甲:广东、上海、浙江
- 山西省平均销量最高为山西
用Python分析淘宝2000款避孕套,得出这些有趣的结论相关推荐
- 【数据分析】系列-Python分析淘宝4200款Bra(没错,就是文胸)后,发现最好卖的款式居然是。。。
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉. 本着娱乐的态度,着手分析一下淘宝的前4200+款bra(文胸),看看有什么有趣的地方. 项目背景 起因:近日, ...
- 用Python分析淘宝数千款款避孕套,得出这些有趣的结论
到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是: Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端. 淘宝自动登录2.0,新增Cookies序列化,教大家如何将co ...
- 用Python爬取淘宝2000款套套,我发现了一个重要秘密
点击上方"码农突围",马上关注,每天早上8:50准时推送 真爱,请置顶或星标 一.淘宝商品信息爬取 这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇.之所以分开是因为爬取淘宝遇 ...
- 用Python分析淘宝用户行为
数据来源: 阿里云 天池数据集https://tianchi.aliyun.com/dataset/dataDetail?dataId=46 阿里巴巴提供的移动端淘宝用户的行为数据集,包含2014-1 ...
- Python分析淘宝月饼销售数据,五仁月饼王者地位不可动摇
距离国庆中秋8天的假期没几天了,朋友圈各家大厂都开始秀自家定制的中秋月饼礼盒,假期要走亲访友的手里也少不了要提一盒月饼. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语 ...
- python开发跟淘宝有关联微_使用Python分析淘宝用户行为
一.项目背景 本数据分析报告以手机淘宝app订单数据作为数据集,通过行业常见指标对淘宝用户行为数据进行分析,并给出优化建议.本数据集包含了2014年11月18日至2014年12月18日之间,约八十万随 ...
- 我用Python分析淘宝低价人群和匿名人群的连衣裙数据后,发现了这些秘密!
1.我是一个低价人群用户 小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出的数百.数千的搜索"连衣裙"结果价格,很显然,我低价人群无疑了.以下是州的先生在淘宝上搜索&q ...
- python开发跟淘宝有关联微_利用Python分析淘宝用户行为
目录 1.提出问题 2.理解数据 3.清理数据 4.建模分析 5.提出建议 1. 提出问题 每天淘宝都有大量的用户访问量,但最终完成交易的用户只是其中极少数: 为改善整个购物流程中的流失率,将通过研究 ...
- Python分析淘宝月饼销售数据,五仁月饼王者地位不可动摇!
距离国庆中秋8天的假期没几天了,朋友圈各家大厂都开始秀自家定制的中秋月饼礼盒,假期要走亲访友的手里也少不了要提一盒月饼. 每年中秋节到,总会去姥姥那里送中秋,并买上各种各样的月饼,那个时候科技并不怎么 ...
最新文章
- 模式的秘密-观察者模式(四)
- snort源码的详细分析
- SQL Server执行计划的理解
- java学习与总结:MySQL和数据库基础知识
- android studio socket编程实例
- rust怎么传送到队友_对阵时遇到中二病怎么办?还能怎么办,溜TA就对了!
- Linux如何产看系统信息
- 《大数据技术原理与应用》 期末复习
- 吉比特无源光纤说明书_光纤上网是如何实现的?
- 二进制搜索树(BSTs) 和AVL 树
- 虚拟机不能清空回收站_回收站不能清空怎么办?清空回收站无反应的解决方法...
- 双屏怎么快速切换鼠标_Win7系统如何设置一键快速切换双屏显示(图文)
- 弱水三千,只取一瓢饮
- 工业设计算计算机类专业吗,北大工学院工业设计工程数一计算机方向经验贴
- 讯飞语义相似度baseline
- 日语文章,每天一篇 第1章 青春 第1篇 まだまだ先(さき)があります
- Android——腾讯QQ的Tab按钮动画效果完美实现
- 怎样设计完整的交易系统(主观交易和程序化交易均可借鉴)
- 【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(14):向量范数及其性质
- 对于VS2012的位图无法加载到资源视图“Bitmap”中的解决方案
热门文章
- php 魔术方法 多继承,day23:单继承多继承菱形继承__init__魔术方法
- 手把手教你如何制作可视化大屏!
- 成为人工智能视觉应用工程师需要多久?我用了45天!
- 港科大谢丹阳教授问诊未来,预测长远趋势与转折点
- 轻松应对Java试题,这是一份大数据分析工程师面试指南
- 专访博世王红星:大数据和AI将是中国制造业升级新动力
- 登陆成功率 99%,云知声携手平安好医生推声纹登录系统
- 腾讯 AI Lab 开源业内最大规模多标签图像数据集
- Google宣布5.5亿美元投资京东
- 科技公司开始重视AI伦理,他们都是怎么做的?