泰迪智能科技(数据挖掘平台:TipDM数据挖掘平台)最新推出的数据挖掘实战专栏

专栏将数据挖掘理论与项目案例实践相结合,可以让大家获得真实的数据挖掘学习与实践环境,更快、更好的学习数据挖掘知识与积累职业经验

专栏中每四篇文章为一个完整的数据挖掘案例。案例介绍顺序为:先由数据案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中同时穿插操作训练,把相关的知识点嵌入相应的操作过程中。

为方便读者轻松地获取一个真实的实验环境,本专栏使用大家熟知的Python语言对样本数据进行处理以进行挖掘建模。
————————————————

本篇主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息,了解用户的需求、意见、购买原因,以及产品的优缺点,最终提出改善产品的建议。

网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台上的持续发展,对这部分数据进行分析,依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。

 背景与挖掘目标

随着电子商务的迅速发展和网络购物的流行,人们对于网络购物的需求变得越来越高,也给电商企业带来巨大的发展机遇,与此同时,这种需求也推动了更多电商企业的崛起,引发了激烈的竞争。而在这种激烈竞争的大背景下,除了提高商品质量、压低价格外,了解更多消费者的心声对电商企业来说也变得越来越有必要。其中非常重要的方式就是对消费者的评论文本数据进行内在信息的分析。

评论信息中蕴含着消费者对特定产品和服务的主观感受,反应了人们的态度、立场和意见,具有非常宝贵的研究价值。一方面,对企业来说,企业需要根据海量的评论文本数据去更好的了解用户的个人喜好,从而提高产品质量,改善服务,获取市场上的竞争优势。另一方面,消费者需要在没有看到真正的产品实体、做出购买决策之前,根据其他购物者的评论了解产品的质量、性价比等信息,为购物抉择提供参考依据。

请根据提供的数据实现以下目标。

(1) 对京东商城中美的电热水器的评论进行情感分析。

(2) 从评论文本中挖掘出用户的需求、意见,购买原因以及产品的优缺点。

(3) 根据模型结果给出改善产品的建议。

分析方法与过程

图1为电商产品评论数据情感分析流程,主要步骤如下。

(1) 利用Python对京东商城中美的电热水器的评论进行爬取。

(2) 利用Python爬取到的京东商城中美的电热水器的评论数据,对评论文本数据进行数据清洗、分词、停用词过滤等操作。

(3) 对预处理后的数据进行情感分析,将评论文本数据按照情感倾向分为正面评论数据(好评)和负面评论数据(差评)。

(4) 分别对正、负面评价数据进行LDA主题分析,从对应的结果分析文本评论数据中有价值的内容。

图1  电商产品评论数据情感分析流程

1.评论预处理

对京东商城中美的热水器评论数据进行预处理前,需要先对评论数据进行采集。本案例利用Python网络爬虫技术对京东商城中美的热水器评论数据进行采集。由于本案例的重点是对电商产品评论数据情感分析,且网络数据的爬取具有时效性,因此,本案例不再详细介绍数据的采集过程。以下分析所使用的数据与分析结果,仅作为范例参考。

(1)评论去重

一些电商平台往往为了避免一些客户长时间不进行评论,会设置一道程序,如果用户超过规定的时间仍然没有做出评论,系统会自动替客户做出评论,这类数据显然没有任何分析价值。

由语言的特点可知,在大多数情况下,不同购买者之间的有价值的评论都不会出现完全重复,如果出现了不同购物者的评论完全重复,这些评论一般都是毫无意义的。这种评论显然只有最早的评论才有意义(即只有第一条有作用)。

部分评论相似程度极高,可是在某些词语的运用上存在差异。此类评论可归为重复评论,若是删除文字相近评论,则会出现误删的情况。由于相近的评论也存在不少有用的信息,去除这类评论显然不合适。因此,为了存留更多的有用语料,本节针对完全重复的语料下手,仅删除完全重复部分,以确保尽可能保留有用的文本评论信息。评论去重的代码如代码清单1所示。

代码清单1  评论去重的代码

  • pandas as pdimport reimport jieba.posseg as psgimport numpy as np # 去重,去除完全重复的数据reviews = pd.read_csv("../tmp/reviews.csv")reviews = reviews[['content', 'content_type']].drop_duplicates()content = reviews['content']

运行代码清单1可知,美的热水器的评论共2000条,经过文本去重,共删除重复评论26条,剩余评论1974条。

(2)数据清洗

通过人工观察数据发现,评论中夹杂许多数字与字母,对于本案例挖掘目标而言,这类数据本身没有实质性帮助。另外,由于该评论文本数据主要围绕京东商城中美的电热水器进行评价,其中“京东”“京东商城”“美的”“热水器”“电热水器”等词出现的频数很大,但是对分析目标并没有什么作用,因此可以在分词之前将这些词去除,对数据进行清洗,如代码清单2所示。

代码清单2 数据清洗

# 去除英文、数字等# 由于评论主要为京东美的电热水器的评论,因此去除这些词语strinfo = re.compile('[0-9a-zA-Z]|京东|美的|电热水器|热水器|')content = content.apply(lambda x: strinfo.sub('', x))

下一篇将发布:利用LDA主题模型提取京东评论数据(二)

数据挖掘案例实战:利用LDA主题模型提取京东评论数据(一)相关推荐

  1. 图示LDA主题模型(酒店评论数据演示)

    LDA(Latent Dirichlet Allocation)主题建模是NLP确定文档主题方法,为无监督学习方法,当面对多个文档,能挖掘潜在的主题,类似于聚类方法,但又何聚类实质不一样,LDA从概率 ...

  2. 利用LDA主题模型的生成过程仿真数据

    仿真代码 因为,最近论文,需要基于图模型的过程,仿真数据.因此,找了一些已有的代码和论文.以下,是利用LDA的生成过程仿真数据的过程,这个代码是使用R语言编写的,代码来源于:https://www.r ...

  3. 【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

    说明:这是一个机器学习.数据挖掘实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 视频: Python实现基于LDA模型进行电商产品评论数据情感分析 ...

  4. 基于sklearn实现LDA主题模型(附实战案例)

    目录 LDA主题模型 1.LDA主题模型原理 2.LDA主题模型推演过程 3.sklearn实现LDA主题模型(实战) 3.1数据集介绍 3.2导入数据 3.3分词处理 3.4文本向量化 3.5构建L ...

  5. 毕业论文案例-LDA主题模型实现文本聚类

    本文结构框架 引言 LDA主题模型的预备知识 (1)多项式分布 Multinomial Distribution (2)狄利克雷分布 Dirichlet Distribution (3)共轭分布 Co ...

  6. 【带你玩转主题模型Topic Model】—— 之 利用sklearn 实现Latetnt Dirichlet Allocation(LDA)主题模型

    写在前面的话 9月份的第一篇blog, 正好是开学季,作为一个学生,hahahha, 我还是正正经经的贡献一篇认为比较干货的文章给大家吧. 我自己是花了很多时间去看懂LDA的算法了,当然了这篇文章不涉 ...

  7. lda主题模型困惑度_r语言lda主题模型代码 lda主题模型 案例分析

    r语言做灰色预测模型代码为什么会出错? 我正在MATLAB下编写一个Grey system的函数库, 我想其他的网友也做过类似的工作吧. 灰色模型的MATLAB求解代码应该很容易找到吧.如果不想用MA ...

  8. 【机器学习】基于LDA主题模型的人脸识别专利分析

    作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...

  9. NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

    将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...

  10. lda主题模型的可视化_Gensim LDA主题模型实验

    本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料. 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.z ...

最新文章

  1. C# SQL封装(一)
  2. 2018.3.13 12周2次课
  3. 【Java】JShell工具上手即用
  4. Apache OpenNLP
  5. springMVC 理解大综合
  6. 阿里内部刊物首次公开——《智慧之巅:DT时代的商业革命》出版
  7. simulink的pid参数自整定
  8. mysql从指定条数开始查询_mysql数据库指定条数数据查询的主要方法
  9. 服务(service)管理
  10. 关于项目开发的量化考核。。。
  11. 一个C#开发者学习SpringCloud搭建微服务的心路历程
  12. Flutter 自定义组件实战之Cupertino(iOS)风格的复选框
  13. 集线器等(概念,工作原理,以及,应用场景)
  14. CAD图库分享好用免费的CAD图纸
  15. spark任务卡住问题原因之一以及解决方案
  16. python用来查看变量类型的函数是什么_python查看变量类型的函数
  17. 关于居住办公人口的统计技术解决方案
  18. 将多个txt文件批量导入到同个excel的不同sheet中
  19. [生存志] 第107节 秦灭六国兼并天下
  20. echarts 3d地图-成都

热门文章

  1. 计算机二级vb大题,全国计算机等级考试二级vb操作题最后一道大题题库
  2. ERP实施项目的计划阶段要点分析
  3. Windows7下完美绿色版无损分区软件Paragon Partition Manager
  4. php 按指定长度分割字符串,php实现将字符串按照指定距离进行分割的方法
  5. php去掉指定字符串,php如何删除字符串中的指定字符串
  6. 国密SM2算法流程概述
  7. 何为全栈工程师?你是否应该成为一名全栈工程师?
  8. 系统辨识 Identification Algorithm(基础篇)
  9. hfss史密斯图_这个史密斯圆图代表什么意思啊
  10. VC++2010Express下载