最近正值“618活动”,阿里、拼多多、京东等都在发力,商品的价格也下降了不少。我打开某宝首页,顿时想对某些商品的评论进行一次爬取分析。

一提到爬取,我们肯定先想到python,那可真的是利器,不过我提醒一句,不允许爬的千万不要碰。python虽然爬取简单,但是做可视化分析需要费不少力气,虽然有 Matplotlib 和 Seaborn 两个包就足够了。

如果只调用基本的函数可能做出来的图会比较简陋,要达到好看的效果还是需要很多的精力和代码的,不适用于零基础小白。

所以我想到了当下最火的BI分析工具,有了数据,直接拖拽就能得到可视化分析,完全就是零代码,python+BI在手,打遍无敌手。原理也很简单,数据获取是通过Python进行的,然后得到Excel表,BI可以直接连接数据源,负责最后应用层的数据处理、加工和可视化。

那分析什么呢?想来想去,我选择了女性的内衣。

不要想歪,不要怀疑,这就是一个数据可视化项目,纯属娱乐,大家看看就行,重要是我分析的过程,如果能学到东西我就更开心了,我只用了13分钟。

话不多说,进入主题。

一、数据获取

数据来自python爬虫获取,淘宝约50个文胸商品的20W条评论数据,原始数据是txt格式,为了方便处理,这边转为Dataframe~

由于篇幅的限制,这里只放部分代码,感兴趣的可以到文末。

二、分析目的

这里先给大家做一个科普,对于很多只知道A/B/C的绅士们,我们在看数据之前可能先得了解点知识,内衣是有上围和下围的区分的。

通过上围与下围的差值,我们就可以确定大小了。

虽然我没买过,但是对分析维度还是了解的:

  • 颜色与肤色的对比
  • 款式
  • 尺码大小
  • 评价分析

三、数据可视化

虽然获取到的数据数量不是很大,才20W,但是Excel分析这个体量,肯定是会卡死的,而且Excel的可视化图表简直一言难尽,还需要各种函数...

上面说到BI工具,那市面上这么多BI工具,怎么去挑选呢?市面上知名的有Tableau、FineBI等,这两个也是在知乎最受好评的工具,我从下面几个方面简单给你们讲一下。

  • 部署安装:都是基于浏览器端即可使用的工具
  • 学习教程:FineBI更全面
  • 使用体验(上手难度)和需求符合度:FineBI更适合小白
  • 产品功能:Tableau更占优一点,但有些功能并不是国内企业所看重的,FineBI能做复杂报表
  • 报价和服务:FineBI的性价比很高,Tableau很贵

所以我选择FineBI进行这次可视化分析,先通过下面这个来了解一下:

可视化超强,超级容易上手的BI工具来了

不要单纯的以为它只是个可视化工具,它的本质是数据分析工具,能通过数据对业务产生指导:

1、评论里出现最多的关键词

可以看见,内衣的颜色和肤色还是有很大关系的,不过据数据统计,妹子喜欢黑色占大多数,因为在人的印象里,好像粉色、紫色都有点怪怪的?

知道给自己女朋友/老婆买什么颜色了吗?不对,你们不一定有....

2、哪个尺寸的妹子最多?

D的数量很少,符合我们的认知。B的数量等于A+C的总和,这数据应该是准确的,穿B不代表就是B,就像你买衣服也喜欢宽松的,自己体会。

3、具体大小受什么影响?

我从上下围两个角度来分析A/B/C/D的分布,这个应该是迄今为止最全面的内衣分析了,想说的都在图里。

4、她们喜欢什么时候买内衣?

高峰期在上午和晚上,这也可以理解,大家都在玩手机,但是夜里3点买的人,我想问问,你图啥?

5、内衣的评价如何?

图片来自于网络

这是词云图,字越大,代表占的比重就越大,FineBI也能做,方法也是一样,有了数据直接拖拽,然后选择合适的图表类型即可。

内衣毕竟是衣服,女性关注的点肯定是效果与舒适度,男性的话我就不知道了。

关于代码和数据可视化工具,关注我,并转发该文章,回复“内衣”即可获得!!!

各位绅士,你们怎么看?

13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣相关推荐

  1. python粉色_13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    最近正值"618活动",阿里.拼多多.京东等都在发力,商品的价格也下降了不少.我打开某宝首页,顿时想对某些商品的评论进行一次爬取分析. 一提到爬取,我们肯定先想到python,那可 ...

  2. 大数据总监python可视化分析30W数据后,找到了抹黑我们的原因

    真利益相关,人在国内,刚下...算了,在办公室. 我不知道是谁在推特上抹黑我们,我也不想知道他们为什么这么对待我们,作为大数据行业的一员,我觉得什么东西都得有数据来证明对吧,如果靠嘴的话,那对面早就赢 ...

  3. Python可视化分析疫情数据

    前言 开发环境 python 3.8: 解释器 pycharm: 代码编辑器 requests 发送请求 pyecharts 绘制图表 pandas 读取数据 爬虫案例思路流程: 一. 数据来源分析: ...

  4. [转载] python可视化分析(matplotlib、seaborn、ggplot2)

    参考链接: Python Matplotlib数据可视化2 python可视化分析总结(matplotlib.seaborn.ggplot) 一.matplotlib库1.基本绘图命令3.图形参数设置 ...

  5. python程序加密_三分钟教你python自动化加密Word

    还在忧虑周五下班前,老板吩咐要给客户加密200个文件吗?工作到凌晨2点,还要把当日完成的10个文件加密,让人很发狂啊.想到一份份的文档要挨个打开并加密,就让人有一种想要die掉的996即视感. 三分钟 ...

  6. python可视化分析(matplotlib、seaborn、ggplot2)

    python可视化分析总结(matplotlib.seaborn.ggplot) 一.matplotlib库 1.基本绘图命令 3.图形参数设置 4.特殊统计图的绘制 4.1 数学函数图 4.2 气泡 ...

  7. 数据可视化分析票房数据报告_票房收入分析和可视化

    数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...

  8. Python股票分析系列——数据整理和绘制.p2

    Python股票分析系列--数据整理和绘制.p2 欢迎来到Python for Finance教程系列的第2部分. 在本教程中,我们将利用我们的股票数据进一步分解一些基本的数据操作和可视化. 我们将要 ...

  9. python爬取资料怎么样_手把手教你Python爬取新房数据

    原标题:手把手教你Python爬取新房数据 项目背景 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. ...

最新文章

  1. MPB:扬州大学王梦芝组-​​反刍动物瘤胃原虫的分离培养与形态学分析
  2. python常见错误-新手常见Python错误及异常解决处理方案
  3. 机器学习Sklearn实战——极限森林、梯度提升树算法
  4. Tomcat 配置 Context
  5. [HNOI 2011]卡农
  6. stylus之关键字参数(Keyword Arguments)
  7. 《软件项目管理(第二版)》第 2 章——项目准备和启动 重点部分总结
  8. Asp.net MVC应用在IIS7上部署后403错误解决方案
  9. Nginx 如何开启gzip 来提高页面加载速度
  10. begintrans返回值_BeginTransaction() 方法
  11. 到底多大并发才算高并发?一文带你全面认识高并发!
  12. 前端面试八股文(详细版)—上
  13. 【数学】第二型曲线积分
  14. 新唐M480系列单片机写入dataflash数据
  15. 硬盘为raw格式后的修复
  16. 算法题---leetcode-1
  17. 微博应用 php源码,新版微测试应用平台|微博应用|微趣源码,有后台+2套模版
  18. 大数据风控怎么做?新网银行的做法是......
  19. 如何快速转载别人的CSDN博客文章并附带格式与图片
  20. edit类型 layui_Layer types described(图层类型描述)

热门文章

  1. 最小化安装 linux 安装图形化界面,那些最小化centos7安装图形化界面的坑
  2. INSERT INTO SELECT语句概述和示例
  3. sql查询初学者指南_适用于初学者SQL Server查询优化技巧与实际示例
  4. 转:C#调用C++的DLL搜集整理的所有数据类型转换方式
  5. TreeView和Menu
  6. 【案例】保健品行业如何优化供应链管理?APS系统来帮忙
  7. 阿里云服务器linux系统上安装git版本控制系统
  8. 关于maven项install时报找不到符号的错误
  9. 【微软黑科技一周概览】
  10. PAT L2-003. 月饼