电影《战狼》评论词云分析

  1. 导入需要使用的第三方库
import pandas as pd
import numpy as np
import jieba
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import WordCloud

2.读取爬取到的评论

comments_data=pd.read_csv('movie_comment.csv',encoding='utf-8')
comments_data.head(5)

3.统计电影的推荐情况

perfect_counts=(comments_data['推荐']=="力荐").value_counts()
perfect_counts
good_counts=(comments_data['推荐']=="推荐").value_counts()
good_counts
not_bad_counts=(comments_data['推荐']=="还行").value_counts()
not_bad_counts
bad_counts=(comments_data['推荐']=="较差").value_counts()
bad_counts
terrible_counts=(comments_data['推荐']=="很差").value_counts()
terrible_counts
recommend_data=pd.DataFrame({'推荐情况':['力荐','推荐','还行','较差','很差'],'人数':[1779,1041,442,151,145]})
recommend_data

  1. 绘制电影推荐情况柱状图
bar=Bar()
bar.add_xaxis(['力荐','推荐','还行','较差','很差'])
bar.add_yaxis('',[1779,1041,442,151,145])
bar.set_global_opts(title_opts=opts.TitleOpts(title="影片战狼推荐情况",subtitle="人数"))
bar.render()

  1. 对评论进行分词处理
comments=comments_data['评论内容']
#将评论转化为列表
comments_list=list(comments)
#整合全部评论沦为一个字符串,以换行隔开
comments_str=''
for comments in comments_list:comments_str+=comments+'\n'
#获得分词后的列表
seg_list=list(jieba.cut(comments_str))
#利用str.len()筛选字符串长度,选出大于1的字符串
keywords_counts=pd.Series(seg_list)
keywords_counts=keywords_counts[keywords_counts.str.len()>1]
print(keywords_counts)
#统计关键词出现次数
keywords_counts=keywords_counts.value_counts()
print(keywords_counts)
#构建一个过滤词的列表
FILTER_WORDS=['知道','电影','影片','怎么','还有','这个','这部','有用','没用','可以','影评','可能','显示','这篇','有剧','全文','一个','没有','就是','觉得','一部','回应','但是','还是','剧情','我们','还是','不是','什么','自己','看到','没关系','真的','感觉','片子','很多','你们','豆瓣','时候','喜欢','虽然','哪些','那些','这样','因为','有点','这么','有些','那么','这种','主角','作为','非常','意淫','最后','已经','看过','为了','评论','导演','演员','观众','现在','一些','非洲','...','所以','出来','开始','故事','如果','不能','逻辑','确实','地方','应该','其实','一直','各种','首先','一样','题材','这是','来说','他们','对于','不过','特别','比较','里面','评分','评价','有人','今天','这些','只是','尴尬','问题','镜头','完全','一星','不要','光环','而且','不过','然后','需要','一点','感受','之前','看看','之后','场景','类型','只有','不会','甚至','大家','一下','上映','水下','希望','以及','出现','本来','本身','呵呵','整部']
keywords_counts=keywords_counts.astype(str)
#筛选包含过滤词的分词字符串
keywords_counts.str.contains('|'.join(FILTER_WORDS))
#选出不包含过滤词的评论字符串
keywords_counts=keywords_counts[~keywords_counts.str.contains('|'.join(FILTER_WORDS))]
keywords_counts=keywords_counts.value_counts()[:50]
print(keywords_counts)

6.绘制词云图

wordcloud=WordCloud()
wordcloud.add("",tuple(zip(keywords_counts.index,keywords_counts)),word_size_range=[10,130])
wordcloud.set_global_opts(title_opts=opts.TitleOpts(title="战狼电影评论词频统计"))wordcloud.render(path='战狼电影评论词频统计.html')


python小白的第一次尝试,代码可以更加优化的地方,希望大家可以指出来,共同进步。

电影《战狼》评论词云分析相关推荐

  1. 《我不是药神》评论词云分析

    继上一篇爬取<我不是药神>的评论后,现在开始使用jieba分词和词云来分析评论. 下面是代码: import matplotlib.pyplot as plt from wordcloud ...

  2. MongoDB 实战(一)基于PyMongo的电影影评分析 | 对数据结果进行可视化展示以及分析 | 评论词云 | 分时间段分析

    文章目录 一.运行环境 二.实战介绍 三.获取数据 四.PyMongo 实战 4.1 连接MongoDB.创建集合 4.2 向 MongoDB 插入文档 4.3 查询MongoDB的数据 4.4 同样 ...

  3. python爬虫:词云分析最热门电影《后来的我们》

    跟闺蜜周末去看了电影<后来的我们>,被感动的一塌糊涂,回来后心血来潮,写了这么个词云分析工具~ 1 模块库使用说明 1.1 requests库 requests 是用Python语言编写, ...

  4. 词云分析——基于Python对天猫商品评论进行词云分析

    文章目录 0 引言 1 准备工作 2 主程序 3 分析与改进 4 可能出现的报错及解决方案 0 引言 什么是词云分析? 词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视 ...

  5. Python文本分析实战:《跨越星弧》TapTap玩家评论内容词云分析

    许久之前写了一篇<Python网络爬虫实战>的博客,里面讲了爬虫的过程,但是没有讲如何分析.这次讲述一下用如何通过词云分析,来从这些文本数据里面获得结论 首先,回顾一下分析背景 主要是看了 ...

  6. python歌词分析_Python 词云分析周杰伦新歌《说好不哭》

    周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢 ...

  7. Python 词云分析周杰伦新歌《说好不哭》

    周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢上了他的歌 ...

  8. 【小盐巴学习笔记】—美团吃饭哪家强?Python词云分析告诉你

    [小盐巴学习笔记]-美团吃饭哪家强?Python词云分析告诉你 效果图 前言 一.爬虫分析 1.分析网址 2.分析数据 二.完整代码 1.爬取美团牛排店评论 2.绘制词云图 3.词云分析 总结 效果图 ...

  9. 战狼2百度云资源Mp4观看【Mp4/2.5G国语BD】战狼2云盘链接迅雷BT下载edk

    <战狼2电影>高清完整版点击观看>>http://kanayi.cn<<点击观看 <三生三世电影>高清完整版点击观看>>http://kan ...

  10. 大江大河2弹幕数据之词云分析、情感极性分析、主题分析、共现网络分析

    最近,自己在疯狂追<大江大河2>这部剧,作为当下最热门的电视剧之一,这部电视剧深受观众的喜爱,自从播出以后就好评不断 它主要讲述了改革开放三十年,一代人奋斗向阳的故事,看完之后深受启发,特 ...

最新文章

  1. go panic recover 异常处理
  2. SQL游标原理和使用方法
  3. asp.net C# 时间格式大全
  4. selenium的使用教程3
  5. Netweaver和CloudFoundry的log设置
  6. linux中var的作用,linux中var是什么意思
  7. Unity 3D 进度条制作
  8. 学了c再自学python_学过一学期c语言的情况下如何自学python?
  9. 【jQuery笔记Part3】01-jQuery-each遍历
  10. SSH 连接、远程上传下载文件
  11. HTML5从入门到精通电子书pdf下载
  12. PCB通孔类焊盘封装
  13. 树莓派如何连接WiFi
  14. 3+1活动:结交一个朋友、参与一项运动 、培养一个兴趣爱好 、阅读一本好书
  15. [已解决]关于python无法显示中文的问题:SyntaxError: Non-ASCII character '\xe4' in file test.py on line 3, but no enc
  16. 安装JAVA SE 安装包
  17. 计算机电源插座安装,弱电箱里的插座 介绍及安装方法
  18. 音视频入门 (iOS上fdk-aac的交叉编译)
  19. FPGA开发基本流程
  20. 后OA时代:流程再造

热门文章

  1. 电脑硬盘空间如何免费扩容2TB+
  2. Adobe Premiere基础-介绍,配置,快捷键,创建项目,创建序列(一)
  3. 第六届苏州·张家港全球创新创业大赛等你来赛!
  4. Dubbo 线上 Thread pool is EXHAUSTED 问题跟踪
  5. rk板子linux系统安装rga,drm,mpp
  6. 论文笔记 - Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks
  7. mysql大于等于between比较_MySQL范围查询优化,Between与大于等于对比及优化
  8. 计算机图形学一:变换矩阵-Transformation Matrices
  9. 域内计算机桌面背景怎么改,如何将域内用户设置的各种桌面背景都去掉? | 学步园...
  10. java加密方案:Virbox Protector Java版-全新保护方案