【大数据处理与可视化】八、文本数据分析
【大数据处理与可视化】八、文本数据分析
- 实验目的
- 实验内容
- 实验步骤
- 一、案例——商品评价分析
- 1、读取数据,并转换成DataFrame对象进行展示。
- 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
- 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
- 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
- 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
- 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
- 实验小结
实验目的
能够熟练运用文本数据分析对文本数据进行分析。
实验内容
商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。
实验步骤
一、案例——商品评价分析
1、读取数据,并转换成DataFrame对象进行展示。
代码:
import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data
截图:
2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
代码:
file_data = file_data.drop_duplicates()
file_data
截图:
3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
代码:
cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words
截图:
4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
代码:
file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:if word not in stop_words:new_data.append(word)
new_data
截图:
5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
代码:
freq_list = FreqDist(new_data)most_common_words = freq_list.most_common()
most_common_words
截图:
6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
代码:
from matplotlib import pyplot as plt
from wordcloud import WordCloudfont = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()
截图:
实验小结
通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。
【大数据处理与可视化】八、文本数据分析相关推荐
- 专题导读:面向大数据处理的数据流计算技术
点击上方蓝字关注我们 专题导读:面向大数据处理的数据流计算技术 数据流(data flow)是麻省理工学院(MIT)的Jack B.Dennis教授在20世纪70年代提出的一种计算机体系架构,这在当时 ...
- 【数据库系统工程师】第13章 云计算与大数据处理
目录 思维导图 13.1 云计算基础知识 1.云计算的关键特征 2.云计算分类 3.云关键技术 4.云计算实施 13.2 大数据处理基础知识 1.基本概念 2.大数据处理技术 3.大数据应用 思维导图 ...
- 大数据分析的Python实战指南:数据处理、可视化与机器学习【上进小菜猪大数据】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货. 引言: 大数据分析是当今互联网时代的核心技术之一.通过有效地处理和分析大量的数据,企业可以从中获得有价值的洞察,以做出更明智的决策.本文将介 ...
- Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)
相关链接 Python大作业--爬虫+可视化+数据分析+数据库(简介篇) Python大作业--爬虫+可视化+数据分析+数据库(可视化篇) Python大作业--爬虫+可视化+数据分析+数据库(数据分 ...
- python基于爬虫技术的海量电影数据分析源码,数据处理分析可视化,GUI界面展示
基于爬虫技术的海量电影数据分析 介绍 一个基于爬虫技术的海量电影数据分析系统 系统架构 本系统主要分为四个部分,分别为后端爬虫抓取.数据处理分析可视化.GUI界面展示.启动运行,分别对应getData ...
- 转:大数据处理与开发课程设计——纽约出租车大数据分析
大数据处理与开发课程设计--纽约出租车大数据分析_LHR13的博客-CSDN博客_出租车大数据分析 一.设计目的 综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设 ...
- 分享思路:Python+Spark招聘爬虫可视化系统 招聘数据分析 Hadoop职位可视化 大数据毕业设计 51job数据分析(可选加推荐算法)
开发技术 Hadoop.HDFS.Spark.SpringBoot.echarts.PySpark.Python.MySQL 创新点 大数据架构.爬虫.数据可视化 啰里啰嗦 适合大数据毕业设计.数据分 ...
- Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路
介绍 现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别 ...
- Axure高保真智慧消防远程监管系统数据可视化大屏看板+web端高保真大数据分析平台看板+大数据交换配置管理平台大屏动态可视化看板
作品介绍:Axure高保真智慧消防远程监管系统数据可视化大屏看板+web端高保真大数据分析平台看板+大数据交换配置管理平台大屏动态可视化看板 原型交互及下载链接:https://www.pmdaniu ...
最新文章
- 5G NGC — LMF 定位管理功能
- MS Reporting Services 报表开发
- mvc4 html.beginform,MVC4 Html.BeginForm在Internet Explorer中提交按钮 9不工
- bugku web基础$_POST
- 处理iPhone5加长屏幕的4种方法
- php放量文档,成交量放量过顶买入法(图解)
- C语言实验报告排错分析,C语言实验报告模板剖析.doc
- html和linux下目录路径中 杠,点杠,点点杠区别
- Terraform 基础 定义阿里云资源 VPC、安全组
- python123测试4四位玫瑰数_心理测试:4朵玫瑰,你最喜欢哪一朵?测测你这辈子会有多少情债...
- 实战 | 如何使用微搭低代码实现按条件过滤数据
- 半乳糖-人血清白蛋白 Gal-HSA,Gal-PEG-HSA 半乳糖修饰人血清白蛋白
- (Note)七彩虹30系列显卡——《一键超频》按键
- C语言程序课程设计—读心术
- 洪小文清华论道:AI 的前生今世及未来应用图景
- 主流币仍被摁在地上摩擦,平台币已扬起一场美丽的春梦
- 华为禁止系统更新的方法
- CMMI 级别中和BUG率
- WMS系统对接OMS接口经验
- 物体空间姿态估计// Robust Planar Pose (RPP)algorithm