前言

送女生礼物,口红永远是最好的选择。这一点只要看过李佳琪的直播间就能明白。唯一的问题是送什么色号。

所以本文爬取了京东商城上部分口红数据,希望对你选择口红有所帮助。

PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

可以免费领取源码项目实战视频PDF文件

一、数据爬虫

工具:PyCharm

Python版本:3.7.3

用到的库:pandas、jieba等

1、京东有部分数据是异步加载的,所以需要寻找到合适的链接。

2、爬取部分数据后卡住了,发现是京东国际的页面必须要登陆的原因。可以引入开源的DecryptLogin模块进行模拟登陆,具体代码如下:

from DecryptLogin import login
def login(self):  lg = login.Login()  info, session = lg.jingdong()  return session

3、之前有报道说某程序员爬的人家服务器都崩了。所以谨慎起见,我设置的间隔时间较长,在服务器上跑了一夜。最终数据如下:

部分商品数据截图

二、数据分析

1、价格分布

最便宜的是9.9元的口红,这效果也是谁用谁知道了,哈哈哈。

如果你男朋友给你送这种价位一支的口红,果断分手吧。别问我为什么,你心里应该很清楚了。

嗯?还有1万多的口红?

我偷偷瞅了一下,是阿玛尼的口红套装。

75%的点是329,而平均值是407,果然贫富差距在哪都存在。所以为了绘图好看,这里只采用小于500元的数据画直方图。

可以看到:价格基本在30~350的区间,占了总爬虫数据的2/3左右。

2、品牌分布

品牌数据共有2020条,可以看到:迪奥品牌的商品数量最多。

3、店铺销量情况

由于京东上面没有销量这一信息,我们姑且将评论数当成是销量。

可以看到销量Top10全是官方旗舰店或者京东自营店,毕竟大多数男生都是分不清真假的铁憨憨,只能找最靠谱的店铺了。

哈哈哈,也不排除有故意买假货的情况,那这男朋友可以扔了…

接下来以这款Mac口红来研究下评价情况、色号分布等。

啥?笔记本电脑咋还卖口红呢?

4、Mac评价情况

哆啦A梦说,显白、好看,买它就对了。

5、Mac色号分布

可以看出:

chili小辣椒完全碾压其他色号,最美砖红色实至名归了。可能是因为它比较万能,毕竟偏橘调对黄皮妹纸狠友好。

另外,黑色的色号就如同在这一堆英文字母中的汉字一样特立独行。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

转载于作者:星行者

口红送什么色号,这是一个难题,爬取口红数据,希望对你有所帮助相关推荐

  1. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  2. 爬去图片插件_学不会你打我,一个插件爬取亚马逊数据!

    这是一个简单的插件使用教程.从入门到精通大概需要5分钟. 很多亚马逊运营小伙伴在运营过程中需要对市场进行分析,包含但不限于: 竞争对手review,分析消费者痛点,分析好评差评点. QA,分析消费者心 ...

  3. python公众号推荐 知乎_爬取公众号及知乎专栏文章的标题链接的方法汇总

    记一次最近的工作内容(奇怪的任务增加了)因为Python是去年接触并且没有过爬虫的实际学习操作,所以在出现"要收集文章标题链接"的任务是还是有点难以下手的.虽然有了解过爬虫可以方便 ...

  4. 不会Python爬虫?教你一个通用爬虫思路轻松爬取网页数据,赶紧收藏!!

    前言 其实爬虫的思路很简单,但是对于很多初学者而言,看得懂,但是自己写的时候就不知道怎么去分析了!说实话还是写少了,自己不要老是抄代码,多动手! 其实一个爬虫无非就三步:下载数据.解析数据.保存数据. ...

  5. node爬取app数据_从零开始写一个node爬虫(上)—— 数据采集篇

    爬虫相信大家都知道,这里我们从一个空的文件夹开始,也来写一写我们自己的爬虫程序吧. github入口 下一篇--数据分析篇入口 爬虫毕竟涉及到数据的爬取,所以其实有一个道德的约束,那就是Robots协 ...

  6. 土拨鼠网站日记管理(分析推送二合一)】宝塔插件之自动爬取全站URL推送说明书

    自动爬取全站URL推送说明书: 此功能将会针对爬取的站点进行全站URL爬取并且进行推送,爬取的每一条URL都会只推送一次,不会重复推送. 1.设置爬取的URL尽量是本服务器的站点,如果要推送别的站点可 ...

  7. 不会Python爬虫?教你一个通用爬虫思路轻松爬取网页数据

    前言 其实爬虫的思路很简单,但是对于很多初学者而言,看得懂,但是自己写的时候就不知道怎么去分析了!说实话还是写少了,自己不要老是抄代码,多动手! 本人对于Python学习创建了一个小小的学习圈子,为各 ...

  8. 如何用python爬取公众号文章_Python+fiddler:爬取微信公众号的文章

    这几天师父有个小项目,挺有意思,如何使用python爬微信公众号中的新闻信息.大体流程如下.图1:流程 其实我们看到,这里并没有想象中的"智能"--依然需要手动刷公众号文章,然后才 ...

  9. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

最新文章

  1. const的用法,特别是用在函数前面与后面的区别!
  2. WINCE 自绘位图按钮
  3. Spring学习7之自动装配Bean03
  4. js数组对象的常用方法
  5. Java生鲜电商平台-订单中心服务架构与异常订单逻辑
  6. centos升级之共享文件夹
  7. 前端学习(2887):如何短时间内实现v-for createApp解决方案
  8. LibreOffice去重复数据
  9. php文件通常包含和一些,php函数导入与文件包含:include() 和 require() 语句的区别...
  10. 疫情加速中国服务器采购 数字化转型成为增长“新引擎”
  11. VScode设置console.log('')快捷键
  12. F5入口IP依据不同的端口实现转发到不同的POOL
  13. Django 结构及处理流程分析
  14. python编译安装没有c扩展_pybind11—python C/C++扩展编译
  15. matlab:图像的余弦变换(DCT)
  16. Qt播放多路视频的理解
  17. Jmeter 接口测试post请求数据失败
  18. 51单片机的室内环境监测系统,MQ-2烟雾传感器和DHT11温湿度传感器,原理图,C编程和仿真
  19. 怎么实现ZBrush与数位板雕刻模型的结合运用
  20. 说点牛逼的“愿景,使命,目标,战略”

热门文章

  1. com.mysql.cj.jdbc.Driver和serverTimezone=GMT%2B8 数据库的配置
  2. 2023跨年烟花代码HTML5夜景放烟花绽放动画效果
  3. oracle 同义词 synonym 创建与删除表
  4. python形态选股_用Python选一个自己的股票池!堪比资深的炒股选手!
  5. 树莓派局域网文件服务器,树莓派局域网文件共享
  6. 计算机研究热点发展趋势,[精品]计算机科学前沿热点及发展趋势.doc
  7. commons-dbcp数据库连接池基本使用
  8. 全球流媒体新巨头诞生,HBO Max 和 Discovery Plus 完成合并
  9. LPDDR和DDR的个人理解随笔(为什么LPDDR3的BA0-BA3是悬空的?)
  10. 混合云会成为泡影吗?数据中心的高层权衡