代码很简单,一看就懂。

(没有模拟点击,所以都是未展开的)

地址:

https://movie.douban.com/subject/26266893/reviews?rating=&start=0这里start就是后面参数变化的地方。一页20条,所以循环的话 每次start加20就好。代码:

import requests

from bs4 import BeautifulSoup

page=0

# url = 'https://movie.douban.com/subject/26266893/reviews?rating=&start='+str(page)

# s = requests.session()

# res = s.get(url).text

# soup = BeautifulSoup(res,'html.parser')

# comments = soup.find_all("div",class_="short-content")

# print (comments[2].get_text().replace("(展开)"," ").strip())

while 1:

url = 'https://movie.douban.com/subject/26266893/reviews?rating=&start=' + str(page)

s = requests.session()

res = s.get(url).text

soup = BeautifulSoup(res, 'html.parser')

comments = soup.find_all("div", class_="short-content")

with open('流浪地球.txt', 'a', encoding='gb18030', errors='ignore') as f:

for comment in comments:

str_comment = comment.get_text().replace("(展开)"," ").strip()

text = str_comment.replace("这篇影评可能有剧透"," ").strip()

f.write(text+"\n")

page+=20

生成词云代码:

# -*- coding: utf-8 -*-

from wordcloud import WordCloud

import matplotlib.pyplot as plt

import jieba

# 生成词云

def create_word_cloud(filename):

text = open("流浪地球.txt".format(filename), encoding='gb18030', errors='ignore').read()

# 结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl = " ".join(wordlist)

# 设置词云

wc = WordCloud(

# 设置背景颜色

background_color="white",

# 设置最大显示的词云数

max_words=2000,

# 这种字体都在电脑字体中,一般路径

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,

# 设置字体最大值

max_font_size=100,

# 设置有多少种随机生成状态,即有多少种配色方案

random_state=30,

)

myword = wc.generate(wl) # 生成词云

# 展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('py_book_流浪地球.png') # 把词云保存下

if __name__ == '__main__':

create_word_cloud('word_py')

结果:

撸码千万条,简洁第一条。代码不规范,编译两行泪。

python电影评论的情感分析流浪地球_python爬取豆瓣流浪地球影评,生成词云相关推荐

  1. 详解使用Python爬取豆瓣短评并绘制词云

    使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...

  2. python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...

    [芝麻IP代理]三.数据分析与可视化 1.获取cookies 城市信息筛选中文字 匹配pyecharts支持的城市列表 2.基于snownlp的情感分析 关于snownlp的作用,主要可以进行中文分词 ...

  3. python电影评论的情感分析流浪地球_《流浪地球》影评分析(一):使用Python爬取豆瓣影评...

    本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...

  4. python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞,超给力!

    原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...

  5. python爬取流浪地球_python爬取《流浪地球》十万个短评得出以下结论

    作者: 小柒 爬取 逼乎上很多高手,对<流浪地球>在豆瓣的评分做了细思缜密的分析,有兴趣的也去自己搜索,这里主要是爬取<流浪地球>的好.中.差短评并分词分析. 爬取数据: im ...

  6. qq动态名片代码_利用Python动态爬取QQ说说并生成词云,分析朋友状况!

    今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况. 这是好友的QQ空间10年说说内容,基本有一个大致的印象了. 爬取动 ...

  7. python提取ajax异步加载数据_python爬取豆瓣电影分类排行榜引出的异步加载(AJAX)问题...

    1.背景 之前的文章中已经介绍过猫眼TOP100的电影信息爬取案例,网页每页有10条电影信息,通过翻页发现URL变化规律构造循环爬取10页100条全部电影信息.但是豆瓣电影分类排行榜的网页情况就所不同 ...

  8. python爬取流浪地球_python爬取《流浪地球》16w评论

    今年春节档电影<流浪地球>火的不要不要,截止到今天 2 月 17 日,上映 13 天,目前票房已达 36 亿,可喜可贺. 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难 ...

  9. python爬取bilibili弹幕_Python抓取BiliBili拦河坝并生成单词云,爬取,bilibili,弹幕

    木秀于林,风亦惧之:虽为萤火,亦绽光芒. Python爬取bilibili弹幕并生成词云 目标网站: 哔哩哔哩: https://www.bilibili.com/ 我这里以 TES vs SN 第四 ...

最新文章

  1. IQueryable和IQueryProvider初尝
  2. Linux(一)——基础入门(1)
  3. boost::mpl模块实现reverse相关的测试程序
  4. js date转string_JS之你到底是什么类型?
  5. Scala可变参数列表,命名参数和参数缺省
  6. uniapp小程序的getsysteminfo_Typecho小程序:Pisces-Mini-Program
  7. 互联网架构设计漫谈 (1)-概述
  8. 在Windows*上编译Tensorflow教程
  9. 人生难免有失意,还是个小姑娘的她...成功的转行测试岗拿到18k offer
  10. 建造者模式 php,PHP设计模式之建造者模式定义与用法简单示例
  11. 【没人看系列】js 数据类型
  12. Gradle学习之闭包
  13. Ubuntu18.04安装网易云音乐后通过图标打不开
  14. SpringBoot的优点及缺点
  15. 怎么恢复我在计算机里删掉的文档,如题,如何彻底删除电脑中的文件,使文件不能恢复?(我的方式是直接? 爱问知识人...
  16. 游戏数据后台,kafka代替rsync同步日志数据
  17. 斯嘉丽约翰逊60张pdf什么时间的?_什么叫美丽与演技并存?
  18. 微信小程序web-view与H5之间交互(含支付)
  19. 计算机类一级学术刊物、核心刊物列表及简介
  20. 文科生学python,可能吗?

热门文章

  1. 分布式应用之监控平台zabbix的认识与搭建
  2. 初学者怎样看懂python代码_Python 初学者,如何快速的入门
  3. 修改dns解析服务器多久生效,域名解析生效时间,域名解析后多久生效 | 帮助信息-动天数据...
  4. 使用share SDK实现人人网授权登录分享(1.x版本)
  5. 被视为“救世主”的架构师,普遍缺失了哪些基础能力?
  6. 车牌号统计,冒泡排序,彩票
  7. c++ 计算长方形的周长和面积
  8. Linux 常用命令(一)
  9. 设置PDA设备的时间
  10. java实现星级评分功能_JS实现星星评分功能实例代码(两种方法)