跟闺蜜周末去看了电影《后来的我们》,被感动的一塌糊涂,回来后心血来潮,写了这么个词云分析工具~

1 模块库使用说明
1.1 requests库
requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。
1.2 urllib库
urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应.
1.3jieba库

结巴”中文分词:做最好的 Python 中文分词组件

1.4 BeautifulSoup库
   Beautiful Soup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航navigating,搜索以及修改剖析树的操作。
1.5pandas库

pandas是python的一个非常强大的数据分析库,常用于数据分析。
1.6 re库
正则表达式re(通项公式)是用来简洁表达一组字符串的表达式。优势是简洁。使用它来进行字符串处理。
1.7 wordcloud库
python中使用wordcloud包生成的词云图。我们最后要生成当前热映电影的分析词云。
2需求说明
介绍要做什么,将采用的方法、预期得到的结果是什么及其他需求说明。
爬取豆瓣网站https://movie.douban.com/cinema/nowplaying/ankang/ 城市为安康的豆瓣电影数据主要完成以下三个步骤
抓取网页数据
清理数据
用词云进行展示
使用的python版本是3.6.并使用中文分词,词云对豆瓣电影排行榜排行第一的电影进行数据分析,进行相应的词云展示。

3抓取和处理数据算法

1)安装request模块

1.1)安装需要用到的beautifulsoup模块

2)查看要爬取网站的结构

3)初步代码实现

3.1)初步爬取到当前的院线上映信息

4.1)抓取到热映电影的第一个热评信息代码

4.2)成功显示热评信息

5.1)进行数据清洗上一步中格式错乱的代码

5.2)数据清洗后的《后来的我们》评论信息

5.3)再次进行数据清洗去除掉标点符号代码

5.4)去除掉标点符号后的数据

6.1)安装pandas模块 ,用此方法依次安装wordcloud 库等。

def main():# 循环获取第一个电影的前10页评论commentList = []NowPlayingMovie_list = getNowPlayingMovie_list()for i in range(10):num = i + 1commentList_temp = getCommentsById(NowPlayingMovie_list[0]['id'], num)commentList.append(commentList_temp)

使用for语句循环遍历获取排行榜第一的电影的前十页评论

完整代码:

# coding:utf-8
__author__ = 'LiuYang'import warningswarnings.filterwarnings("ignore")
import jieba  # 分词包
import numpy  # numpy计算包
import codecs  # codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import re
import pandas as pd
import matplotlib.pyplot as plt
from urllib import request
from bs4 import BeautifulSoup as bsimport matplotlibmatplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud  # 词云包# 分析网页函数
def getNowPlayingMovie_list():resp = request.urlopen('https://movie.douban.com/nowplaying/ankang/')  # 爬取安康地区的豆瓣电影信息html_data = resp.read().decode('utf-8')soup = bs(html_data, 'html.parser')nowplaying_movie = soup.find_all('div', id='nowplaying')nowplaying_movie_list = nowplaying_movie[0].find_all('li', class_='list-item')nowplaying_list = []for item in nowplaying_movie_list:nowplaying_dict = {}nowplaying_dict['id'] = item['data-subject']for tag_img_item in item.find_all('img'):nowplaying_dict['name'] = tag_img_item['alt']nowplaying_list.append(nowplaying_dict)return nowplaying_list# 爬取评论函数
def getCommentsById(movieId, pageNum):eachCommentList = [];if pageNum > 0:start = (pageNum - 1) * 20else:return Falserequrl = 'https://movie.douban.com/subject/' + movieId + '/comments' + '?' + 'start=' + str(start) + '&limit=20'print(requrl)resp = request.urlopen(requrl)html_data = resp.read().decode('utf-8')soup = bs(html_data, 'html.parser')comment_div_lits = soup.find_all('div', class_='comment')for item in comment_div_lits:if item.find_all('p')[0].string is not None:eachCommentList.append(item.find_all('p')[0].string)return eachCommentListdef main():# 循环获取第一个电影的前10页评论commentList = []NowPlayingMovie_list = getNowPlayingMovie_list()for i in range(10):num = i + 1commentList_temp = getCommentsById(NowPlayingMovie_list[0]['id'], num)commentList.append(commentList_temp)# 将列表中的数据转换为字符串comments = ''for k in range(len(commentList)):comments = comments + (str(commentList[k])).strip()# 使用正则表达式去除标点符号pattern = re.compile(r'[\u4e00-\u9fa5]+')filterdata = re.findall(pattern, comments)cleaned_comments = ''.join(filterdata)# 使用结巴分词进行中文分词segment = jieba.lcut(cleaned_comments)words_df = pd.DataFrame({'segment': segment})# 去掉停用词stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'],encoding='utf-8')  # quoting=3全不引用words_df = words_df[~words_df.segment.isin(stopwords.stopword)]# 统计词频words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数": numpy.size})words_stat = words_stat.reset_index().sort_values(by=["计数"], ascending=False)# 用词云进行显示wordcloud = WordCloud(font_path="simhei.ttf", background_color="white", max_font_size=80)word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values}word_frequence_list = []for key in word_frequence:temp = (key, word_frequence[key])word_frequence_list.append(temp)wordcloud = wordcloud.fit_words(dict (word_frequence_list))plt.imshow(wordcloud)plt.savefig("ciyun_jieguo .jpg")# 主函数
main()

成功获取到结果

到代码路径获取词云结果图片如图:

词云结果图

4结果分析说明
选取安康地区院线电影排行信息,首先对正在上映的电影进行分析,获得最热门的电影信息,第二步对排行中最热门的电影《后来的我们》进行评论抓取,进行数据清洗,去除掉格式错误的错误信息,去除掉标点,中文的叠词,获取到出现频率最高的词汇,为了保证获取到的词云信息准确性,并且循环遍历十页评论信息,统计计数,再通过词云获取到此电影的词云信息。
由最终获得的词云分析图可知,我们顺利的爬取了安康地区的豆瓣电影信息,影院当前正在上映的电影信息,由此得到热门电影《后来的我们》此电影的特征标签,也基本上反映了这部电影的情况,观影者的感受,电影的主要角色,导演信息等一目了然。

扫描下方二维码关注微信公众号「南城故梦」,一个程序猿的后花园

python爬虫:词云分析最热门电影《后来的我们》相关推荐

  1. python爬虫——词云分析最热门电影《后来的我们》

    1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...

  2. Python——爬虫+词云+数据库

    爬取指定新闻网站,将爬取到的数据做词频统计生成词云图,做相应的词频分析饼状图,柱状图,散点图.最后将词频数据存至MySQL数据库. 编译环境:PyCharm 数据库下载:AppServ8.5 需用到的 ...

  3. python爬虫+词云生成小说简介

     我每个月都要读一本书写一个书评,平时写书评用的插图都是在网上找的图,前段时间觉得这样不够炫酷要做一点炫酷的东西.最开始的想法是提取小说中的高频词做成词云,实践下来发现效果并不理想,主要是有吸引力的词 ...

  4. Ubuntu的中文是哪种字体?python的词云分析和 三国演义人物出场统计

    Ubuntu的默认中文是哪种呢? fc-list :lang=zh 用这个命令查看出来 NotoSerifCJK-Bold.ttc 为什么要知道这个呢? 来看一块python3代码 import ji ...

  5. 利用python做微信聊天记录词云分析——记录美好回忆

    目录 1 概述 2 数据准备 2.1 安卓设备 2.1.1 Root手机,安装Root Explorer 2.1.2 用Root Explorer将聊天记录的数据文件导出并存入电脑 2.1.3 对En ...

  6. Python 爬虫实战:分析豆瓣中最新电影的影评

    Python 爬虫实战:分析豆瓣中最新电影的影评 接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...

  7. python歌词分析_Python 词云分析周杰伦新歌《说好不哭》

    周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢 ...

  8. Python 词云分析周杰伦新歌《说好不哭》

    周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢上了他的歌 ...

  9. 【小盐巴学习笔记】—美团吃饭哪家强?Python词云分析告诉你

    [小盐巴学习笔记]-美团吃饭哪家强?Python词云分析告诉你 效果图 前言 一.爬虫分析 1.分析网址 2.分析数据 二.完整代码 1.爬取美团牛排店评论 2.绘制词云图 3.词云分析 总结 效果图 ...

最新文章

  1. seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  2. 学英语不必太在意单词
  3. fatal error C1083 无法打开包括文件“StdAfx.h” No such file or directory
  4. Android studio | Android studio下SVN工具(APP版本管理工具)
  5. 二十不惑,三十而已|网易互联网人的“焦虑必杀技”
  6. easyui,layui和 vuejs 有什么区别
  7. M0最高优先级的中断设计
  8. 全栈工程师的3个关键技能是什么?
  9. [postgresql]postgresql的锁介绍
  10. 14. Window clearInterval() 方法
  11. luogu P3802 小魔女帕琪
  12. 使用Astah画UML类图经验总结
  13. 少时诵诗书少时诵诗书sss
  14. 驱动专题:第四章MTD及Flash驱动 3. nandflash 详细硬件特性
  15. Odoo 14 手册 库存管理 盘点 到按成本 先进先出 追溯 批次 序列号 自动化路线
  16. java 小球抛物线_小球抛物线运动
  17. linux shell -常用脚本
  18. ORA-01547、ORA-01194、ORA-01110
  19. function介绍
  20. 与通用计算机相比较 单片机优势在哪,单片机原理与嵌入式系统-中国大学mooc-题库零氪...

热门文章

  1. Android am 指令的使用
  2. 马哥数据库mysql笔记_马哥笔记-mysql
  3. 服务器内存超频性能,服务器内存超频容易吗
  4. Unix系统环境中“I have no name!”用户名问题处理
  5. YYWebImage的基本用法
  6. JavaScript运算符,下载量瞬秒百万
  7. Nacos学习及详细解释配置与注册
  8. 视频怎么转换为音频文件?快来掌握这几种方式
  9. 按下( )组合键 可以快速锁定计算机,锁定计算机,小编教你锁定计算机的快捷键...
  10. Ubuntu环境下安装FastDFS+Nginx服务的流程