【大数据处理与可视化】八、文本数据分析

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——商品评价分析
      • 1、读取数据,并转换成DataFrame对象进行展示。
      • 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
      • 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
      • 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
      • 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
      • 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
  • 实验小结

实验目的

能够熟练运用文本数据分析对文本数据进行分析。


实验内容

商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。


实验步骤

一、案例——商品评价分析

1、读取数据,并转换成DataFrame对象进行展示。

代码:

import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data

截图:


2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。

代码:

file_data = file_data.drop_duplicates()
file_data

截图:


3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。

代码:

cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words

截图:


4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。

代码:

file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:if word not in stop_words:new_data.append(word)
new_data

截图:


5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。

代码:

freq_list = FreqDist(new_data)most_common_words = freq_list.most_common()
most_common_words

截图:


6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。

代码:

from matplotlib import pyplot as plt
from wordcloud import WordCloudfont = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()

截图:


实验小结

通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。

【大数据处理与可视化】八、文本数据分析相关推荐

  1. 专题导读:面向大数据处理的数据流计算技术

    点击上方蓝字关注我们 专题导读:面向大数据处理的数据流计算技术 数据流(data flow)是麻省理工学院(MIT)的Jack B.Dennis教授在20世纪70年代提出的一种计算机体系架构,这在当时 ...

  2. 【数据库系统工程师】第13章 云计算与大数据处理

    目录 思维导图 13.1 云计算基础知识 1.云计算的关键特征 2.云计算分类 3.云关键技术 4.云计算实施 13.2 大数据处理基础知识 1.基本概念 2.大数据处理技术 3.大数据应用 思维导图 ...

  3. 大数据分析的Python实战指南:数据处理、可视化与机器学习【上进小菜猪大数据】

    上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货. 引言: 大数据分析是当今互联网时代的核心技术之一.通过有效地处理和分析大量的数据,企业可以从中获得有价值的洞察,以做出更明智的决策.本文将介 ...

  4. Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)

    相关链接 Python大作业--爬虫+可视化+数据分析+数据库(简介篇) Python大作业--爬虫+可视化+数据分析+数据库(可视化篇) Python大作业--爬虫+可视化+数据分析+数据库(数据分 ...

  5. python基于爬虫技术的海量电影数据分析源码,数据处理分析可视化,GUI界面展示

    基于爬虫技术的海量电影数据分析 介绍 一个基于爬虫技术的海量电影数据分析系统 系统架构 本系统主要分为四个部分,分别为后端爬虫抓取.数据处理分析可视化.GUI界面展示.启动运行,分别对应getData ...

  6. 转:大数据处理与开发课程设计——纽约出租车大数据分析

    ​​​​​​大数据处理与开发课程设计--纽约出租车大数据分析_LHR13的博客-CSDN博客_出租车大数据分析 一.设计目的 综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设 ...

  7. 分享思路:Python+Spark招聘爬虫可视化系统 招聘数据分析 Hadoop职位可视化 大数据毕业设计 51job数据分析(可选加推荐算法)

    开发技术 Hadoop.HDFS.Spark.SpringBoot.echarts.PySpark.Python.MySQL 创新点 大数据架构.爬虫.数据可视化 啰里啰嗦 适合大数据毕业设计.数据分 ...

  8. Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路

    介绍 现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别 ...

  9. Axure高保真智慧消防远程监管系统数据可视化大屏看板+web端高保真大数据分析平台看板+大数据交换配置管理平台大屏动态可视化看板

    作品介绍:Axure高保真智慧消防远程监管系统数据可视化大屏看板+web端高保真大数据分析平台看板+大数据交换配置管理平台大屏动态可视化看板 原型交互及下载链接:https://www.pmdaniu ...

最新文章

  1. 5G NGC — LMF 定位管理功能
  2. MS Reporting Services 报表开发
  3. mvc4 html.beginform,MVC4 Html.BeginForm在Internet Explorer中提交按钮 9不工
  4. bugku web基础$_POST
  5. 处理iPhone5加长屏幕的4种方法
  6. php放量文档,成交量放量过顶买入法(图解)
  7. C语言实验报告排错分析,C语言实验报告模板剖析.doc
  8. html和linux下目录路径中 杠,点杠,点点杠区别
  9. Terraform 基础 定义阿里云资源 VPC、安全组
  10. python123测试4四位玫瑰数_心理测试:4朵玫瑰,你最喜欢哪一朵?测测你这辈子会有多少情债...
  11. 实战 | 如何使用微搭低代码实现按条件过滤数据
  12. 半乳糖-人血清白蛋白 Gal-HSA,Gal-PEG-HSA 半乳糖修饰人血清白蛋白
  13. (Note)七彩虹30系列显卡——《一键超频》按键
  14. C语言程序课程设计—读心术
  15. 洪小文清华论道:AI 的前生今世及未来应用图景
  16. 主流币仍被摁在地上摩擦,平台币已扬起一场美丽的春梦
  17. 华为禁止系统更新的方法
  18. CMMI 级别中和BUG率
  19. WMS系统对接OMS接口经验
  20. 物体空间姿态估计// Robust Planar Pose (RPP)algorithm

热门文章

  1. Java Applet基础
  2. cadence SPB17.4 - allegro - 出装配图
  3. 海外用户用不了鸿蒙系统,鸿蒙系统国内遇冷海外好评 技术壁垒依然存在
  4. 智能驾驶 车牌检测和识别(一)《CCPD车牌数据集》
  5. 猜数字游戏(C语言生成随机数)
  6. Linux系统下安装串口调试工具
  7. Requests源码解读
  8. SSL_1597 石子合并问题
  9. mysql将%3c%3e转义_ESAPI学习笔记
  10. Matlab中坐标轴的刻度显示为10的次方