作者 | 周志鹏

责编 | maozz

最近,小Q陷入了一个脱发死循环。

照镜子隐隐若现的头皮,洗完头地上乌压压的断发,让他无时无刻不担心自己的发量,一担心怎么办呢?挠头呗!

越脱发,越担忧;越担忧,越挠头;越挠头,越脱发...

“为什么不试试防脱洗发水呢?我有好几个同事在用。”我实在不忍心小Q继续循环下去。

小Q义正言辞:“我听说那些玩意儿没什么用啊!现在产品都喜欢打概念!”

“没有调查就没有发言权,你这样下定论太主观了。要不咱们从数据的角度来论证一下,防脱洗发水是不是个伪命题?”

“有点意思!”小Q来了劲儿。

说干就干。要论证防脱洗发水是不是个伪命题,得先搞清楚谁对防脱洗发水最有发言权。答案显而易见,买过防脱洗发水的朋友,他们对产品的评价,是最简单粗暴的论据。

所以,我们以淘宝为例,爬取5款热销洗发水评价数据,综合分析效果。

数据获取

目前淘宝反爬(尤其是滑块等验证)实在让人头大,但是我发现爬取评价数据并不一定需要和登录滑块硬刚,用selenium是可以绕过的。

部分代码如下,对爬取感兴趣的同学可以在文末链接下载详细代码,不感兴趣的同学直接往下滑:

import pandas as pd
from selenium import webdriver
import random
import os
import timedriver = webdriver.PhantomJS()def get_page(driver):result = pd.DataFrame()for i in driver.find_elements_by_xpath('//div[@class = "rate-grid"]/table/tbody/tr'):try:content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-content"]').text#评价日期date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-date"]').text#购买产品sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text#用户名username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').textappend_time = Noneappend_content = Noneexcept:content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-content"]').text#评价日期date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-tag"]/div[@class = "tm-rate-date"]').text#购买产品sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text#用户名username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').textappend_time = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[1]').textappend_content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[2]').textdf = pd.DataFrame({'用户名':[username],'购买产品':[sku],'评价日期':[date],'初次评价内容':[content],'追评时间':[append_time],'追评内容':[append_content]})result = pd.concat([result,df])return result,driver

 热门关注点

我们爬了5款产品,共计8979条评价,然后把评价中TOP15高频词做成词云图:

很明显,消费者对于防脱洗发水的诉求简单粗暴,效果是第一核心关注点。虽然“没用”也在TOP15高频词中,但整体而言,正面词汇更加集中,消费者并不吝给出不错、好评、好用等评价。

除效果外,味道成了消费者的“论点”,毕竟洗完头之后,洗发水是通过味道来散发魅力。防脱洗发水,营造的防脱希望十分重要,不少消费者在收到货后,都已经开始期待头皮变得浓密。

下面,我们从情感分析的角度来切入。

防脱洗发水情感分析

情感打分,虽然很多人自诩是一个没有感情的杀手,但说出来的每一句话却都洋溢着“感情”。

拿刚爬到的评论数据来说,任何一个消费者在评论时都带着和产品相关的主观情感,要么觉得好,要么觉得烂,只是个体对于好和烂的感知程度不同罢了。

So,这里我们用SnowNLP这个库,为每条评价进行情感打分,通过分值来量化情感倾向。(分值在0-1之间,越靠近0负面倾向越强,越接近1则正面情感越强)

from snownlp import SnowNLPsens = []for text in final_re['初评内容']:s = SnowNLP(text)sens.append(s.sentiments)#final_re是评价数据源
final_re['初评情感评分'] = sens

一个回车,打分完毕!

评分总览

看看5款热销防脱洗发水的平均情感评分:

尴尬,8000多条评论最终平均下来竟然是如此中性的倾向(我们暂且认为0.5是中性)。是大多数客户都无所谓,还是两极分化严重呢?

防脱洗发水的评价两极分化极其严重。28.95%的消费者给出了超0.8分的正向评价,他们极尽吹捧之能事,甚至可以说是“歌颂”防脱洗发水,感谢再“生”之恩。32.81%的消费者评价情感小于0.2,他们恨不得跳脚大骂,觉得智商受到了侮辱。

  品牌情感细分

除章光101外,其他品牌情感评分均值都在0.5之上,情感以积极为主。为什么章光101平均值、中位数如此之低?这么多负面评价品牌都无动于衷吗?

数据分析要敢于直面惨淡的数据,敢于正视打脸的现实。

通过进一步观察评价内容,我们发现问题出在情感评分本身。不少消费者给出好评时,会先诉说自己被脱发折磨的多么苦不堪言,最后话锋一转开始夸洗发水。(章光101此类评价尤多)

很遗憾,snownlp这个库的脑回路转的太慢,它总是沉浸在悲痛的前奏不能自拔,给出了低分。再加上我们并未针对洗发水评价进行训练,会存在一些评分疏漏。

这里是抛砖引玉,给出评价分析,建议大家尝试更多的评分玩法。

最后,小Q开始用肉眼检索评价。许久之后,甩了甩稀薄的刘海,自信的总结:

“如果剔除掉评分误判,消费者对于防脱洗发水的使用情感会更加正向。所以,从评价角度来看,我觉得防脱洗发水并不是一个伪命题,哥已经下单了!”

注:文中爬取评价代码和数据源,已上传至github(https://github.com/seizeeveryday/DA-cases/tree/master/Hair)。

作者:周志鹏,2年数据分析,深切感受到数据分析的有趣和学习过程中缺少案例的无奈,遂新开公众号「数据不吹牛」,定期更新数据分析相关技巧和有趣案例(含实战数据集),欢迎大家关注交流。

声明:本文为作者投稿,版权归作者个人所有。

【End】

还在担忧Python的就业前景?快来看看这些!

https://edu.csdn.net/topic/python115?utm_source=csdn_bw

热 文 推 荐 

☞携号转网移动用户转出最多;微软称 8 万台电脑感染病毒;TensorFlow 2.1 rc0 发布 | 极客头条

☞Java 9 ← 2017,2019 → Java 13 ,Java 两年来都经历了什么?| CSDN 博文精选

☞二十年的编程,教会我的五件事!

☞自学编程、玩 vlog,90 后程序员们的冠军之路

☞警惕!程序员万字揭露被空姐骗到香港做传销的来龙去脉!

☞【经典必看】14个实用的数据库设计技巧

☞贾扬清:为什么说数据智能和云原生之间是“天作之合”?

☞大白话讲解比特币白皮书,十年后它依然是学习区块链的最佳资料,你真的读懂了吗?

击阅读原文,即刻参加调查!

你点的每个“在看”,我都认真当成了喜欢

防脱洗发水是个伪命题?8979 条数据告诉你答案!相关推荐

  1. 复仇者联盟谁才是绝对 C 位?Python分析9万条数据告诉你答案

    作者 | 罗昭成 责编 | 唐小引 <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即:漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁 ...

  2. 8万条数据告诉你:跟着大股东和高管买他家股票,能赚钱吗?【邢不行|量化小讲堂系列60-实战篇】

    引言: 邢不行的系列帖子"量化小讲堂",通过实际案例教初学者使用python进行量化投资,了解行业研究方向,希望能对大家有帮助. [历史文章汇总]请点击此处 [必读文章]EOS期现 ...

  3. Python 分析 9 万条数据告诉你复仇者联盟谁才是绝对 C 位!

    <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁侠.惊奇队长.浩克.索尔等人在维护 ...

  4. Selenium爬取36万条数据告诉你:网易云音乐热评究竟有什么规律?

    网易云音乐火不火我不知道,可是评论很火,之前也见过不少的帖子抓取网易云音乐评论,今天咱们也来试试 这篇文章主要介绍了python selenium爬取网易云音乐热评,文中通过示例代码介绍的非常详细,对 ...

  5. Python分析9万条数据告诉你复仇者联盟谁才是绝对C位

    作者 | 罗昭成 责编 | 唐小引 转载自CSDN(ID:CSDNnews) <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就 ...

  6. 直男不懂女人心?10953 条数据告诉你女王节送什么口红色号!

    "你是个好人,但我绝不会接受一个连热门口红品牌色号都分不清的好直男." 作者 | 周志鹏 责编 | 郭   芮 挑战高薪,进军人工智能领域: https://edu.csdn.ne ...

  7. 网易云音乐热评的规律,44万条数据告诉你

    网易云的每日推荐里藏着你听过的歌,你听过的歌里藏着你的故事. 网易云音乐的评论里,藏着许多人的故事. 我们爬取了网易云音乐中华语歌单中48400首歌的444054条热评,来看看网易云的热门评论里,有怎 ...

  8. 情人节来了,什么甜言蜜语最好!我用Python分析几千条情话告诉你答案

    情人节马上就要到了,对于情侣们来说,刚过完年又迎来了情人的节日,一定非常的开心,而对于有追求目标的有志人士来说,情人节也是"下手"的绝佳机会,情人节自然少不了甜言蜜语的问候,今天我 ...

  9. 2023年疫情开放,国内程序员薪资涨了还是跌了?大数据告诉你答案

    自从疫情开放,国内各个行业都开始有复苏的迹象,尤其是旅游行业更是空前暴涨,那么互联网行业如何? 有人说今年好找工作多了,有人说依然是内卷得一塌糊涂,那么今年开春以来,各个岗位的程序员工资到底如何? 我 ...

最新文章

  1. 在Hue中创建一个Oozie工作流
  2. SQL ORDER BY 两个列
  3. 手游行业洞察:Project Makeover成爆款,中国手游出海如何破局
  4. C#中async/await中的异常处理
  5. Nginx ssl证书部署方法
  6. 实战 Nginx 与 PHP(FastCGI)的安装、配置与优化
  7. android gps 速度,Android 获取GPS速度
  8. 20210412SQL实现全称量词和集合查询
  9. 一周信创舆情观察(2.14~2.20)
  10. pytorch CNN手写字体识别
  11. 论文阅读:基于多模态词向量的语句距离计算方法
  12. 系统架构设计的一点思考
  13. [精简]RuoYi开发实战-搭建开发环境
  14. Java 监控方案_Java 服务端监控方案
  15. 关于IE系列浏览器对URL的兼容性处理
  16. IdentityServer4 获取Token及刷新Token
  17. C#: 星座星盘计算算法
  18. ML之FE:风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选
  19. 5G标准草案公布 改变的不仅是速度
  20. 写给初学者的Python与pip安装教程

热门文章

  1. 一个阿拉伯数字转中文数字的函数
  2. 配置svn支持http协议访问
  3. mysql 视图view
  4. html 将盒子固定浏览器,浏览器默认css样式表 css之左盒子固定,右盒子自适应的一种实现方式...
  5. 力扣--242有效的字母异位词
  6. Linux基于升序链表的定时器
  7. Golang关于channel死锁情况的汇总以及解决方案
  8. eclipse读取mysql数据乱码_eclipse从数据库获取数据时控制台乱码问题
  9. 集中式还是分布式?账务类数据库架构的选型
  10. 华为将正式发布鸿蒙手机操作系统;清华成立量子信息班;美团:外卖是微利业务,直接降低抽成无法持续|极客头条...