莴苣第三季part2实在是太棒了!!!制作和配音都绝了,看起来啊!!尤其《白夜》真的是神回!

先放个结果

自动翻页和下载评论部分的代码:

def douban_page_generator(i):new_url =[]for i in range(20,i+20,20):new = 'https://movie.douban.com/subject/30353357/comments?start=' + str(i)+ '&limit=20&sort=new_score&status=P'new_url.append(new)return new_url#进入一个新页面后下载评论
def get_page_reviews(link):reviews = []votes =[]browser = webdriver.Chrome(executable_path='/Users/wang/mmodule/lib/python3.6/site-packages/selenium/webdriver/chrome/chromedriver')browser.get(link)for i in range(1, 21):review = browser.find_element_by_xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div[{}]/div[2]/p/span'.format(str(i))).textvote = browser.find_element_by_xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div[{}]/div[2]/h3/span[1]/span'.format(str(i))).textreviews.append(review)votes.append(vote)data = {'reviews': reviews,'votes': votes,}return data

制作词云:

#制作词云import matplotlib.pyplot as plt
import jieba  #中文词云
from wordcloud import WordCloud
import sys
import xlrddef return_final_dic():#文件名一定要加上绝对路径data = xlrd.open_workbook(r'/Users/wang/Desktop/attack on titan.xlsx')table = data.sheet_by_index(0)# 获得工作表的非空行数nrows = table.nrowsprint('一共有 '+str(nrows)+' 个非空行')with open(r'/Users/wang/Desktop/stopwords.txt', 'r+', encoding='utf-8') as f:stop_word = f.read().split('\n') print('成功获取停用词')#从第二行开始读取到最后一行的循环#对每一条评论而言final_dic = {}for row in range(1, nrows):sent = table.cell_value(rowx= row ,colx=1)votes = table.cell_value(rowx= row ,colx=2)print(sent + ':  ' + str(votes))seg_list = jieba.cut(sent, cut_all=False)#print('精确模式:', ''.join(seg_list))for key in seg_list:#seg_list 是一个generator#if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) :if not(key) in stop_word and not len(key)<2:print(key)final_dic[str(key)] = float(votes)print()return final_dicdef create_cloud(dic):cloud = WordCloud(font_path=r'/Users/wang/Downloads/Noto_Sans_SC/NotoSansSC-Light.otf', background_color='white',max_font_size=80)cloud.generate_from_frequencies(dic)plt.imshow(cloud)plt.axis('off')plt.show()cloud.to_file(r'/Users/wang/Desktop/aot word cloud.jpg')final = return_final_dic()
print(final)
create_cloud(final)

《进击的巨人第三季part2》爬取豆瓣网友评论,制作词云图相关推荐

  1. Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import jsonfrom PIL import Image from pyque ...

  2. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  3. python爬取B站评论制作词云

    python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...

  4. 爬取B站弹幕制作词云图

    大家好,我是天空之城,今天给大家带来,爬取B站弹幕制作词云图. 以下内容部分来自公众号数据分析与统计学之美,号主是大牛,有需要的加他. 首先打开一个b站视频https://www.bilibili.c ...

  5. 爬取指定网页并制作词云图

    利用python中的库和函数设计一个爬取读书网中"软件与程序设计"栏的程序,并对其书名制作词云图,下载其书封面存储到本地文件中. 构建多个函数分别进行网页的请求,html的获取,所 ...

  6. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  7. Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

    Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...

  8. Python - 爬取豆瓣短评评论

    Python - 爬取豆瓣短评评论 import requests from bs4 import BeautifulSoup import re import time# 保存豆瓣评分 source ...

  9. Python爬取豆瓣电影评论数据(通用模板代码)----以《中国医生》为例

    中国医生豆瓣电影评论获取 1 前言 2 数据源分析 3数据爬取(代码实现) 4 结果展示 1 前言   豆瓣是影迷评分.非视频网站,也非购票平台,能长期专门使用豆瓣标记.评价电影的,相对来说是属于影迷 ...

最新文章

  1. Leetcode 129. 求根到叶子节点数字之和 解题思路及C++实现
  2. leetcode day1 -- Reverse Words in a String Evaluate Reverse Polish Notation Max Points on a Li
  3. WebPart(汇总)[转载]
  4. c 编程 mysql结果集_使用mysql C语言API编写程序—MYSQL数据库查询操作(执行查询操作,获取查询结果的字段数,记录行数,...
  5. uilabel自动换行
  6. Linux之vmstat命令
  7. 戴尔硬盘保护增强套件_戴尔4路机架式服务器R940XA原创图集,一部B级车的价值...
  8. android 访问本地image url_微信图片无法通过 WXSS 获取,可使用网络图片或 base64或image...
  9. 2022年6月25日PMP考试通关宝典-2
  10. 【网速监控工具——TrafficMonitor 】的下载安装使用教程
  11. xubuntu装macos未能与服务器,macbook 安装ubuntu(Xubuntu)完整攻略
  12. 系统流程图、数据流程图、IPO图和甘特图
  13. 蓝桥杯大赛——练习系统登录
  14. “小智特惠” Android版已经登录各大电子市场,欢迎试用
  15. 浅谈多重积分及其计算
  16. 计算机毕业设计java+ssm酒店管理系统(源码+系统+mysql数据库+Lw文档)
  17. 手机CMWAP上网设置(完全版)
  18. python获得当前时间戳_python怎么获取当前时间戳
  19. 生成黑白相间的国际象棋棋盘
  20. 三六相PMSM的FOC算法的数字实现(二)

热门文章

  1. 用Python下载一个网页保存为本地的 HTML文件
  2. android-实现一个简单的视频弹幕,Android已死
  3. 打不开regedit.exe、gpedit.msc和taskmgr.exe的解决方法
  4. Android流量监控
  5. 20万粉丝的技术大V是怎样练成的--胡忠想访谈
  6. 【Echarts图例点击事件】自定义Echarts图例legend点击事件(已解决)
  7. 国产达梦数据库学习笔记(一):NeoKylin7.0安装及配置与常用基础命令
  8. 项目管理 王如龙老师 经典语录
  9. 易语言教程数据库置数据库密码
  10. 提交AppStore审核总有意外出现?美团被下架