python爬取流浪地球_python爬取《流浪地球》十万个短评得出以下结论

作者：小柒

爬取

逼乎上很多高手，对《流浪地球》在豆瓣的评分做了细思缜密的分析，有兴趣的也去自己搜索，这里主要是爬取《流浪地球》的好、中、差短评并分词分析。

爬取数据：

import os

import requests

import codecs

from bs4 import BeautifulSoup

'''遇到python不懂的问题，可以加Python学习交流群：1004391443一起学习交流，群文件还有零基础入门的学习资料'''

# 给请求指定一个请求头来模拟chrome浏览器

global headers

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',

'cookie': 'network→www.douban.com→headers查看cookie'}

server = 'https://movie.douban.com/subject/26266893/comments'

# 定义存储位置

global save_path

save_path = os.getcwd()+"\\Text\\"+'短评_好评.txt'

global page_max

page_max = 25

global comments

comments = ''

# 获取短评内容

def get_comments(page):

req = requests.get(url=page)

html = req.content

html_doc = str(html, 'utf-8')

bf = BeautifulSoup(html_doc, 'html.parser')

comment = bf.find_all(class_="short")

for short in comment:

global comments

comments = comments + short.text

# 写入文件

def write_txt(chapter, content, code):

with codecs.open(chapter, 'a', encoding=code)as f:

f.write(content)

# 主方法

def main():

for i in range(0, page_max):

try:

page = server + '?start='+str(i*20)+'&limit=20&sort=new_score&status=P&percent_type=h'

get_comments(page)

write_txt(save_path, comments, 'utf8')

except Exception as e:

print(e)

if __name__ == '__main__':

main()

最终发现，每个类型只能查询出 500 条短评，后面就看不到了，不知道是否豆瓣有意而为之给隐藏了，哈哈哈原来是没登录导致的(headers 设置下 cookie 就可以)。最后读了一下好评文本居然有40MB，不过最终还是按照500条采样。

# 好评500条，中评500条，差评500条，自行更换 percent_type 参数即可。

# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=h

# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=m

# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l

分析

使用结巴中文分词第三方库来进行高频分析：

import jieba

import os

txt = open(os.getcwd()+"\\Text\\"+"短评_差评.txt", "r", encoding='utf-8').read()

words = jieba.lcut(txt)

counts = {}

for word in words:

if len(word) == 1:

continue

else:

counts[word] = counts.get(word, 0) + 1

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

for i in range(0, 10):

word, count = items[i]

print("{0:<6}{1:>6}".format(word, count))

前十好评高频出现词汇：

前十中评高频出现词汇：

前十差评高频出现词汇：

前十高频词汇分析基本没有任何参考价值，基本就是科幻、地球、特效、电影，这些都是电影的基本元素，其它的都是一些中性词汇。

然后，我们分析了11-30的高频词汇，提取了部分关键词：

好评：

结论：国产希望好莱坞科幻煽情大片。大家注意一下，前三十高频词汇只出现了刘慈欣的名字，并没有出现吴京的名字。

中评：

结论：总体来说还算中肯，不知道为啥会出现三星？原谅我没有读过原著，原来是《三体》中"三恒星"系统。

差评：

结论：既然是一星差评，肯定是一黑到底，剧情尴尬、台词尴尬、剪辑尴尬、吴京尴尬，相比于好评中高频出现的原著作者刘慈欣，应该有大部分吴京黑粉。

python爬取流浪地球_python爬取《流浪地球》十万个短评得出以下结论相关推荐

python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞，超给力！
原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...
python爬取流浪地球_python爬取《流浪地球》16w评论
今年春节档电影<流浪地球>火的不要不要,截止到今天 2 月 17 日,上映 13 天,目前票房已达 36 亿,可喜可贺. 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难 ...
python获取天气分析_Python爬取南京市往年天气预报，使用pyecharts进行分析
上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...
python分析b站_Python爬取并分析B站最热排行榜，我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
python制作手机壁纸_Python爬取手机壁纸图片
使用Python爬取图片. 1 说明本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...
python微信爬取教程_python爬取微信文章方法
本文给大家分享的是使用python通过搜狗入口,爬取微信文章的小程序,非常的简单实用,有需要的小伙伴可以参考下本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料, ...
python动态爬取实时_python爬取动态数据实战---猫眼专业版-实时票房（二）
学习python进行简单的数据爬取(基于python 3.x).再进行数据页面解析之后,使用scrapy框架进行爬取数据.没有实现自己预想的效果,着实是自己能力有限,无法灵活使用该框架.就使用自己的办 ...
python微博爬虫分析_python爬取和分析新浪微博（一）：scrapy构建新浪微博榜单、博主及微博信息爬虫...
1. 爬虫项目介绍爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...
python爬取评论_Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
### 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件.然后对影评进行分词分析,使用词云生成树人格鲁特的形象照片. ### 2. 代码实现此部 ...
python向上取整_python向上取整
广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! import math f = 11.2print math.ceil(f) # ...

python爬取流浪地球_python爬取《流浪地球》十万个短评得出以下结论

python爬取流浪地球_python爬取《流浪地球》十万个短评得出以下结论相关推荐

最新文章

热门文章