程序员爬取 5000+ 口红数据,差点比女朋友更懂口红?
作者 | YaJie
来源 | Giao数据
责编 | 王晓曼
摘要:本文以“口红”为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息。首先,在国际和国内两个层面上对口红发货地进行分析。其次,通过数据分析与可视化手段对口红商品进行价量分析与内容分析。然后,以评论量为指标,遍历与筛选出口红相关商品Top10榜单。最后,对文章进行总结。
提起车表,大多男生们那是滔滔不绝、夸夸其谈、头头是道,对面女生们那是一脸懵X、漫不经心、无言以对;提到口红,双方角色立马互换。
有人说如果“卡姿兰”是车界的“比亚迪”,“迪奥”、“圣罗兰”、“香奈儿”是BBA(宝马、奔驰、奥迪),那么“萝卜丁(Christian Louboutin)”非“兰博基尼”莫属。
不管是否认同上述说法,很多人都已经对口红品牌、价格、热度等产生了兴趣,那接下来一起用电商数据深入了解一下口红产品吧。
口红发货地
如下图,中国是淘宝口红商品最主要的口红发货地,这不难理解。
从代购层面上看,美国是最大的口红代购来源国,这是由于正规的美国代购品种丰富、具备真货保障,物流清关过程更快,能够避免浪费更多时间和金钱,且较高的退税比例更具性价比[2]。
其次,代购来源国是距离较近、成本较低的日本、韩国、泰国。
另外,意大利等国也是代购来源国之一,可能是由于很多著名奢侈品品牌像“阿玛尼”等是意大利本土品牌。
聚焦到国内,如口红发货地热力图所示,可以看到绝大部分口红发货地位于经济较为发达的东部沿海地区。
作为国内口红发货地最大省份,广东一马当先。之后是长三角地区和京津冀地区。
这一现象与各地区经济总量和经济地位相匹配,反映出这些地区商品贸易发达。
根据2018年的《中国电子商务发展指数报告》,广东、浙江、上海和江苏四个省的电子商务发展指数在全国的排名分别第一、第二、第四和第五[3],在这几个地区口红电商大量聚集。
价量分析
1、“发货地-销售量-品牌”
我们筛选出销售量大于10000的口红商品,绘制了口红的“发货地-销售量-品牌”桑基图(Sankey diagram)。
图中延伸分支的宽度对应口红销售量的大小,即分支的宽度越宽,则代表口红的销售量越大。左边的节点表示口红发货地,右边的节点表示口红品牌。
首先,左边节点的宽度显示,口红发货地主要聚集于广东、上海、浙江和江苏等省份,原因不在赘述。
其次,右边节点表明销售量大于10000的口红品牌众多,其中销售量排名前六的口红品牌从高到低依次为完美日记(PERFECT DIARY)、迪奥(Dior)、花西子、珂拉琪(COLOR KEY)、雪玲妃和圣罗兰(YSL)。
第三,从口红发货地与口红品牌之间的关系来看,除迪奥(Dior)口红外,其他各个口红品牌存在明显的地区集聚效应,即特定口红发货省份与特定口红品牌对应。
这很有可能与各个口红品牌(中国分)公司的注册所属地有关。
例如,通过“天眼查”搜寻相关企业注册信息发现,完美日记(PERFECT DIARY)、韩熙贞、卡姿兰品牌的所属地均为广东省;纪梵希上海(Givenchy)、玛丽黛佳、魅可中国(MAC)、雅诗兰黛上海(Estee Lauder)等品牌的所属地均为上海;花西子等品牌的所属地为浙江省。
2、“价格-销量-评论量”
为了清晰地了解口红的价格、销量及评论量之间的关系,我们画出了口红“价格-销量-评论量”气泡图。
图中横轴表示价格,纵轴表示销售量,气泡大小表示评论量的多少。根据气泡图,不难发现:
大致来看,价格在200元以下的口红销售量平均高于价格在200元以上的口红,说明大部分口红消费与交易发生在200元区间内。
口红价格与评论量之间的关系相似,0-200元价格区间内大气泡更多,说明该区间内的口红热度高,受到消费者的广泛关注。
一般而言,销量较高的口红对应的气泡较大。说明在一定程度上,口红的销售量与评论量呈正相关关系。
内容分析
1、评价关键词
我们提取了口红用户评价的关键词,绘制出如下所示词云图。可以发现,口红用户评价主要分为以下几类:
第一类是口红颜色,如“色彩”、“好看”、“效果”、“强颜”等词,说明用户最重视口红的色号。
第二类是口红质地、质感与功效,如“保湿”、“湿润”、“干燥”、“质地”、“气味”、“好闻”等词,口红的细腻感、保湿效果、滋润程度以及气味对用户的体验感至关重要。
第三类是口红外观,如“包装”、“精致”、“颜值”等词,精致漂亮的口红设计往往给我们带来视觉上的冲击和享受,一定程度上刺激了我们的购买欲望。
第四类是口红性价比,如“性价比”、“值”等词,口红性价比代表了用户对口红功效与口红价格之间的比较评价。
第五类是商家的服务,如“在线”、“服务”、“商家”、“物流”等词,商家的服务态度和物流状况也是用户体验组成部分。
2、口红功效
当今,出现在市场上的口红不胜枚举,各类口红的功效各异。
基于此,我们对淘宝上的口红的功效关键词进行了词频统计,绘制出如下柱状图。从图中可以发现口红的功效按照出现频次大致可分为以下几类:
第一类是润唇功效,“滋润”这一关键词出现的次数最多,达到1033次;其次是“保湿”,达761次。
润唇功效之所以如此重要,是因为涂抹干燥的口红,易出现嘴唇干裂、肿胀、发痒、表皮剥落、轻微疼痛等口唇过敏症,还有些人会引起中毒甚至产生癌变,出现“口红病”[4]。
第二类是上色效果,如“上色”、“不脱色”、“自然”等,大多口红的致命的缺点就在于易掉色、不持久,浪费大量时间频繁补妆,因此市场上纷纷推出了各款“持久”、“不脱色”、“不掉色”口红。
第三类是附加属性,如“不沾杯”、“防水”等,偶尔出现的尴尬让一部分用户也关注口红的不沾杯、防水等属性上。
口红相关热门单品
为了找出口红热门单品,我们对所有口红商品评论数进行遍历与排序,取出评论数Top10口红相关产品列示如下。
需要说明的是,反应产品热度的指标有销售量、评论数等,因为销售量作为排序指标淘宝官网已经给出,在此不作分析。
此外,为了不局限于口红单品,唇釉、口红唇膏、唇彩、唇棒等口红相关商品一同筛选。
可以看出,热度前10的口红相关商品有6款为唇釉,其余4款均为口红唇膏。
其中,唇釉和唇膏爆品Top1均出自完美日记(Perfect Diary),它们分别是雾色梦境哑光唇釉和 “小黑钻”倾色慕光唇膏。
雾色梦境哑光唇釉适合亚洲女性,对黑黄皮非常友好,堪称黄皮救星,水光变哑雾的配方使得涂上之后就会雾化,所以有哑雾的妆感[5];
“小黑钻”由朱正廷代言,除了华丽的管体和舒适的手感,强效保湿抗氧化成分能持久保湿锁色,颇受广大粉丝青睐[6]。
总结
本文以“口红”为关键词爬取了淘宝口红相关产品,并进行了价量分析和内容分析,总结如下:
第一,口红发货地国内集中于东部沿海地区,国外代购来源国为美、日、韩等国。
第二,口红价格在一般情况下与销量、评论量成反比,销售量、评论量较大的口红产品大部分落在0-200元价格区间。
第三,口红用户最关注口红颜色(色号)、其次是功效。口红功效中,用户最关注“润唇”功效。
第四,综合来看,完美日记(Perfect Diary)口红相关产品在销量、种类、评论量等方面表现突出。
参考资料:
[1]数据爬取时间截止2020年6月14号。
[2] 美国代购有哪些优势?为何得到众人喜爱?来源于:http://www.haitaohk.com/meiguodaigou/show/1400.html
[3]《中国电子商务发展指数报告2018》,来源于:https://www.sohu.com/a/318216928_100268780
[4]口红产品缺陷与副作用,来源于:https://baike.baidu.com/item/%E5%8F%A3%E7%BA%A2/10068?fr=aladdin#3
[5]黄皮救星!完美日记雾色梦境哑光唇釉试色!来源于:https://www.sohu.com/a/271312038_626111
[6]朱正廷代言的口红品牌,来源于:https://www.ixiumei.com/a/20180907/305722.shtml
更多精彩推荐
☞过半中国人是工具类 App 活跃用户,为什么变现却这么难?
☞赠书 | 如何建设数据中台?看这份企业数据能力测评就够了!
☞世上最杰出程序员,B 语言、Unix 之父嫌计算机发展太慢,让孩子学生物?
☞国内厂商 Onyx 违反 GPL 协议,中国开源何去何从?
☞BERT在美团搜索核心排序的探索和实践
☞以太坊创始人V 神:普通人看见现在,天才看见未来
点分享点点赞点在看
程序员爬取 5000+ 口红数据,差点比女朋友更懂口红?相关推荐
- 程序员爬取 5000+ 口红商品数据,差点比女朋友更懂口红?
作者 | YaJie 来源 | Giao数据 责编 | 王晓曼 摘要:本文以"口红"为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息 ...
- python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家
首先,神枪镇楼 python程序员爬取分析20万场吃鸡数据,带妹吃鸡,终成人生赢家 吃鸡,撩妹神器 吃鸡游戏受到很多年轻人的喜爱,用户量也非常大.有很多地图,场景逼真,技术玩法,增加了游戏可玩性.而且 ...
- 程序员爬取 3 万条评论,《长安十二时辰》槽点大揭秘!
作者 | Alfred Wu 责编 | 伍杏玲 本文经授权转载自Alfred数据室(ID:Alfred_Lab) 最近,悄悄上线的<长安十二时辰>在朋友圈被吹爆了:年度最佳古装剧.服道化精 ...
- python爬虫高级知识分子的风骨_Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事...
相信昨天的Breaking news(爆搜)是本世纪伟大的物理学家霍金辞世,享年76岁.小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识. 作 ...
- python黑客库长安十二时辰 更新_程序员爬取 3 万条评论,《长安十二时辰》槽点大揭秘!...
该剧总体评价如何? 优酷给<长安十二时辰>打出了8.8的高分(首播时为9.0分).该剧在豆瓣.IMDB.时光网等平台分别收获了8.6.8.5.8.4分,这足以说明该剧总体评价还是不错的. ...
- 该买哪家二手手机呢?程序员爬取京东告诉你!
作者 | AJ Gordon 责编 | 李雪敬 出品 | CSDN(ID:CSDNnews) 当你手头有一件闲置的物品时,最好的办法不是放在家里积灰,而是拿到二手网站上进行拍卖,例如淘宝的闲鱼,京东的 ...
- python爬取网页代码-python爬虫爬取网页所有数据详细教程
Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...
- 如何在微信小程序中爬取数据
如何在微信小程序中爬取数据 下载Charles 在Charles中点击Help -> SSL Proxying -> Install Charles Root Certificate 然后 ...
- 用 Python 爬取 4332 条数据,揭秘甜咸肉粽的江湖!
作者 | 朱小五 责编 | 屠敏 来源 | 凹凸数据 端午节快要到了,甜咸粽子之争也快要拉开帷幕. 本文准备用Python爬取淘宝上的粽子数据并进行分析,看看有什么发现. 注:本文仅用于学习交流,禁止 ...
最新文章
- wps右键新建里面没有word和excel_WPS竟然出过这么多实用工具?每个都免费无广告,简直相见恨晚...
- ThinkPhp5 | 模块分析
- 医院设置(信息学奥赛一本通-T1338)
- 漫步线性代数二十——快速傅里叶变换(下)
- 2021北京民营企业百强榜单发布 美团、水滴等公司入选
- 查找某个数据,找到后把符合条件数据的一行复制到另外一个地方
- php 一键wifi,Mac wifi 自动控制脚本
- 开了一个月yunfile的会员,发现没东西可下,做了个软件分享下
- Qt学习之资源文件(qrc)的添加以及使用
- 企业网站建设流程步骤,教你快速建网站
- Landsat系列卫星数据应用介绍
- 《算法导论》 第28章 矩阵运算
- html5怎么导出表格,《网页 导出到 excel表格数据》 如何将网页表格导出到excel
- 蚂蚁区块链第8课 如何创建新的账户,获取私钥和identity标识?
- 你知道小米手机便签如何导入录音和视频文件吗?
- 常见的内存错误及对策
- UE5再次更新!扫描或手动建模面部模型可直接转为绑定好的Metahuman
- 星期几—YYYY-MM-DD,表示一个日期,你知道是星期几吗?
- 省市县结合身份证号6位码的三级联动
- Python3 通过 suds 访问 webservice
热门文章
- python netsnmp与pysnmp
- 15.5.1【Task实现细节】 生成的代码
- innobackupex做MySQL增量备份及恢复
- springmvc 监听器getWriter() has already been called for this response问题
- GPS各种地图坐标系转换(转载)
- 设计模式(一)—单例模式
- BZOJ 1724: [Usaco2006 Nov]Fence Repair 切割木板
- 回车键提交与不提交表单的解决方法
- 将XML文件数据插入到数据库中
- Pytorch torch.manual_seed()的简单用法