scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

1、数据是使用scrapy-redis爬取的，存放在redis里面，爬取的是最近大热电影《海王》
2、使用了jieba中文分词解析库
3、使用了停用词stopwords，过滤掉一些无意义的词
4、使用matplotlib+wordcloud绘图展示

from redis import Redis
import json
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 加载停用词
# stopwords = set(map(lambda x: x.rstrip('\n'), open('chineseStopWords.txt').readlines()))
stopwords = set()
with open('chineseStopWords.txt') as f:for line in f.readlines():stopwords.add(line.rstrip('\n'))stopwords.add(' ')# print(stopwords)# print(len(stopwords))# 读取影评
db = Redis(host='localhost')
items = db.lrange('review:items', 0, -1)
# print(items)
# print(len(items))# 统计每个word出现的次数
# 过滤掉停用词
# 记录总数，用于计算词频
words = {}
total = 0for item in items:data = json.loads(item)['review']# print(data)# print('------------')for word in jieba.cut(data):if word not in stopwords:words[word] = words.get(word, 0) + 1total += 1print(sorted(words.items(), key=lambda x: x[1], reverse=True))
# print(len(words))
# print(total)# 词频
freq = {k: v / total for k, v in words.items()}
print(sorted(freq.items(), key=lambda x: x[1], reverse=True))# 词云
wordcloud = WordCloud(font_path='simhei.ttf',width=500,height=300,scale=10,max_words=200,max_font_size=40).fit_words(frequencies=freq)  # Create a word_cloud from words and frequenciesplt.imshow(wordcloud, interpolation="bilinear")
plt.axis('off')
plt.show()

绘图结果：

参考：
https://github.com/amueller/word_cloud
http://amueller.github.io/word_cloud/

转载于:https://www.cnblogs.com/keithtt/p/10177266.html

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示相关推荐

用Scrapy框架爬取豆瓣电影，构建豆瓣电影预测评分模型
文章目录前言一.Scrapy爬虫爬取豆瓣电影 1. Scrapy框架介绍 (1) Scrapy框架构造: (2) 数据流 (3) 项目结构 2. 创建爬虫爬取豆瓣 (1)创建项目 (2) 创建It ...
爬取豆瓣电影短评并使用词云简单分析top50
先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...
爬虫利器初体验 scrapy，爬取豆瓣电影
目录前言 scrapy 数据流 scrapy 组件爬取豆瓣电影 Top250 后记送书后话前言为什么要学 scrapy 呢?看下图中的招聘要求,就清楚了.很多招聘要求都有 scrapy,主要 ...
03_使用scrapy框架爬取豆瓣电影TOP250
前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关 ...
python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评
目的:爬取豆瓣[红海行动]电影的首页短评步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...
从入门到入土：python爬虫|scrapy初体验|安装教程|爬取豆瓣电影短评相关信息（昵称，内容，时间和评分）
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
爬虫框架scrapy，爬取豆瓣电影top250
1 . 新建项目进入打算存储代码的目录,命令行运行如下语句 scrapy startproject tutorial 2 . 定义Item import scrapyclass DoubanItem ...
Python爬取豆瓣电影短评
豆瓣是比较难爬取的网站之一,主要因为豆瓣默认如果不登录账号的话只能爬取10页的评论.所以我就带着cookie去爬取,而且设置了一个用户代理池,尽可能的伪装成浏览器.然而当我爬了三四次,一共几十页评论之 ...
杀鸡用用牛刀 scrapy框架爬取豆瓣电影top250信息
文章目录一.分析网页二.scrapy爬虫三.处理数据原文链接:https://yetingyun.blog.csdn.net/article/details/108282786 创作不易,未经 ...
基于Scrapy框架爬取豆瓣《复联4》影评，并生成词云
基于Scrapy框架爬取豆瓣<复联4>影评,并生成词云 1. 介绍及开发环境 2. 爬虫实现 2.1 新建项目 2.2 构造请求 2.3 提取信息 2.4 数据存储 2.4 运行结果 3. ...

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示

scrapy-redis爬取豆瓣电影短评，使用词云wordcloud展示相关推荐

最新文章

热门文章