前言

使用Python爬取指定电影的影评，
注意：本文仅用于学习交流，禁止用于盈利或侵权行为。

操作系统：windows10 家庭版
开发环境：Pycharm Conmunity 2022.3
解释器版本：Python3.8
第三方库：requests、bs4

第三方库的安装

需要安装 bs4 和 requests 库
你可以参考我的以下文章获取些许帮助：

Python第三方库安装——使用vscode、pycharm安装Python第三方库
Python中requests库使用方法详解

示例代码

#code:utf-8
import requests
from bs4 import BeautifulSoup
import time# 如果想多爬几页可以将16修改为更大的偶数
for i in range(2,16,2):url = 'https://movie.douban.com/subject/34841067/comments?start={}0&limit=20&status=P&sort=new_score'.format(i)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}# 请求r=requests.get(url, headers=headers)# 查看状态码print(r.status_code)# 获取标题html = BeautifulSoup(r.text,"html.parser")title = html.find("h1").text# 获取用户名、评论、评分divs = html.find_all("div", class_ = "comment")s = {"力荐":"❤❤❤❤❤","推荐":"❤❤❤❤❤","还行":"❤❤❤","较差":"❤❤","很差":"❤"}with open("{}.txt".format(title),"w+",encoding="utf-8") as f:f.write(str(["用户", "评分", "内容"]))for div in divs:print("---------------------------------")name = div.find("a", class_="").textprint("用户名：",name)content = div.find("span", class_="short").textprint("用户评论：",content)score = Nonefor i in range(1,6):try:score = s[div.find("span", class_="allstar{}0 rating".format(i))["title"]]except:continueif score == None:score = "用户未评分"print("评分：",score)print("[+]...{}的评论已爬取".format(name))f.write("\n")f.write(str([name,score,content]))f.close()

效果演示

以下是控制台的输出结果：

会生成一个以电影名为名字的txt的文件，我们爬取到的数据全部保存在其中，如下：

结尾

这个34841067是《你好李焕英》的编码，你可以试着仅仅将这个数字更换成其他电影编码看看会是怎样的结果。

Python爬虫实战——获取电影影评相关推荐

python爬虫实战——猫眼电影案例
python爬虫实战--猫眼电影案例 ·背景笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...
python爬虫实战—豆瓣电影TOP250
系列文章目录 python爬虫实战前言本文主要用python爬取豆瓣电影TOP250数据并将爬取到的数据保存到MySQL中.同时也介绍了该项目中遇到的问题. 爬取内容:电影名称,电影别名,导演,主 ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
Python爬虫实战之电影爬取过程
俗话说,兴趣所在,方能大展拳脚.so结合兴趣的学习才能事半功倍,更加努力专心,apparently本次任务是在视频网站爬取一些好看的小电影,地址不放(狗头保命)只记录过程. 实现功能: 从网站上爬取采 ...
xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验
影评许可证公众号[2019]第22期本栏目由"数据皮皮侠"独家呈献专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费本期&q ...
Python 爬虫实战：分析豆瓣中最新电影的影评
Python 爬虫实战:分析豆瓣中最新电影的影评接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...
Python爬虫实战Pro | (1) 爬取猫眼电影Top100榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的序号,片名,主演,上映日期,评分和封面等内容. 之前在Python爬虫实战(1)中我们曾爬取 ...
Python爬虫实战（5）：模拟登录淘宝并获取所有订单
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

Python爬虫实战——获取电影影评

Python爬虫实战——获取电影影评

前言

第三方库的安装

示例代码

效果演示

结尾

Python爬虫实战——获取电影影评相关推荐

最新文章

热门文章