Python爬虫实战——获取电影影评
Python爬虫实战——获取电影影评
- 前言
- 第三方库的安装
- 示例代码
- 效果演示
- 结尾
前言
使用Python爬取指定电影的影评,
注意:本文仅用于学习交流,禁止用于盈利或侵权行为。
操作系统:windows10 家庭版
开发环境:Pycharm Conmunity 2022.3
解释器版本:Python3.8
第三方库:requests、bs4
第三方库的安装
需要安装 bs4 和 requests 库
你可以参考我的以下文章获取些许帮助:
Python第三方库安装——使用vscode、pycharm安装Python第三方库
Python中requests库使用方法详解
示例代码
#code:utf-8
import requests
from bs4 import BeautifulSoup
import time# 如果想多爬几页可以将16修改为更大的偶数
for i in range(2,16,2):url = 'https://movie.douban.com/subject/34841067/comments?start={}0&limit=20&status=P&sort=new_score'.format(i)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}# 请求r=requests.get(url, headers=headers)# 查看状态码print(r.status_code)# 获取标题html = BeautifulSoup(r.text,"html.parser")title = html.find("h1").text# 获取用户名、评论、评分divs = html.find_all("div", class_ = "comment")s = {"力荐":"❤❤❤❤❤","推荐":"❤❤❤❤❤","还行":"❤❤❤","较差":"❤❤","很差":"❤"}with open("{}.txt".format(title),"w+",encoding="utf-8") as f:f.write(str(["用户", "评分", "内容"]))for div in divs:print("---------------------------------")name = div.find("a", class_="").textprint("用户名:",name)content = div.find("span", class_="short").textprint("用户评论:",content)score = Nonefor i in range(1,6):try:score = s[div.find("span", class_="allstar{}0 rating".format(i))["title"]]except:continueif score == None:score = "用户未评分"print("评分:",score)print("[+]...{}的评论已爬取".format(name))f.write("\n")f.write(str([name,score,content]))f.close()
效果演示
以下是控制台的输出结果:
会生成一个以电影名为名字的txt的文件,我们爬取到的数据全部保存在其中,如下:
结尾
这个34841067是《你好李焕英》的编码,你可以试着仅仅将这个数字更换成其他电影编码看看会是怎样的结果。
Python爬虫实战——获取电影影评相关推荐
- python爬虫实战——猫眼电影案例
python爬虫实战--猫眼电影案例 ·背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...
- python爬虫实战—豆瓣电影TOP250
系列文章目录 python爬虫实战 前言 本文主要用python爬取豆瓣电影TOP250数据并将爬取到的数据保存到MySQL中.同时也介绍了该项目中遇到的问题. 爬取内容:电影名称,电影别名,导演,主 ...
- python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...
- Python爬虫实战之电影爬取过程
俗话说,兴趣所在,方能大展拳脚.so结合兴趣的学习才能事半功倍,更加努力专心,apparently本次任务是在视频网站爬取一些好看的小电影,地址不放(狗头保命)只记录过程. 实现功能: 从网站上爬取采 ...
- xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验
影评许可证 公众号[2019]第22期 本栏目由"数据皮皮侠"独家呈献 专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费 本期&q ...
- Python 爬虫实战:分析豆瓣中最新电影的影评
Python 爬虫实战:分析豆瓣中最新电影的影评 接触python时间不久,做些小项目来练练手.前几天看了<战狼2>,发现它在最新上映的电影里面是排行第一的,如下图所示.准备把豆瓣上对它的 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- Python爬虫实战Pro | (1) 爬取猫眼电影Top100榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的序号,片名,主演,上映日期,评分和封面等内容. 之前在Python爬虫实战(1)中我们曾爬取 ...
- Python爬虫实战(5):模拟登录淘宝并获取所有订单
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
最新文章
- Java 8 (8) 默认方法
- HDU 1513 Palindrome(最长公共子序列)
- 单机塔防游戏推荐_电脑高自由度单机游戏推荐
- 设置Django关闭Debug后的静态文件路由
- 转载.Android HAL实现的三种方式(1) - 基于JNI的简单HAL设计
- PHP快速排序及其时间复杂度
- LAMP源代码编译整理
- P5703 【深基2.例5】苹果采购(python3实现)--2022.01.29
- [股市]跳搂指数(收藏)
- 【转】并查集算法和路径压缩
- 拓端tecdat|R语言时间序列TAR阈值自回归模型
- 教学管理系统数据库设计Mysql_教务管理系统数据库设计方案.docx
- 支持视频语音通话的免费远程管理软件-Rd远控
- 8、共射放大电路一般性质与放大电路的直流偏移
- Spring容器父子关系
- tomcat之连接器
- 七年级计算机学期教学要求,七年级信息技术教学工作总结
- 区块链是否是骗局?它是否有弊端?大神是这样回答的
- 美国院线AMC真的没救了么?
- 微软面试经历和相关思考总结