猫眼电影

完整代码

import time
import requests
import re
import csvclass MaoYanMovie:file = '猫眼电影排名前100.csv'def get_movie_rank(self, page):# 爬取页面的urlurl = 'https://maoyan.com/board/4?offset={}'.format(page)# 爬取页面的headers，最好加上User-Agent参数，指定浏览器发送请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'}# 获取页面html源代码res = requests.get(url, headers=headers)res_text = res.text# 将正则字符串编译成正则表达式对象，方便复用pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?data-val.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)# 使用正则表达式获取想要的数据items = re.findall(pattern, res_text)# 再次将数据处理干净for item in items:index = item[0]image = item[1]title = item[2]actor = item[3].split('：')[1].strip()time = item[4].split('：')[1].strip()score = item[5] + item[6]# 将获得的数据添加到csv文件中with open(self.file, 'a+', encoding='utf-8', newline='') as f:writer = csv.writer(f)writer.writerow([index, image, title, actor, time, score])if __name__ == '__main__':# 实例化MaoYanMovie类mao_yan_movie = MaoYanMovie()# 清空csv文件的数据with open(mao_yan_movie.file, 'w', encoding='utf-8', newline='') as f:csv_f = csv.writer(f)csv_f.writerow(['排名', '封面图', '电影名称', '主演', '上映时间', '评分'])# 循环10次，依次爬取10页排名for i in range(10):mao_yan_movie.get_movie_rank(i * 10)# 延迟等待1秒，防止过快造成无响应time.sleep(1)

运行结果

Python爬虫实战专栏：

爬虫实战3：爬取天天基金的7663个基金排名保存到excel表

爬虫实战4：爬取猫眼电影排名Top100的详细数据保存到csv文件

爬虫实战5：爬取全部穿越火线武器的图片以武器名称命名保存到本地文件

一个坚持学习，坚持成长，坚持分享的人，即使再不聪明，也一定会成为优秀的人！

如果看完觉得有所收获的话，记得一键三连哦，谢谢大家！

爬虫实战4：爬取猫眼电影排名Top100的详细数据保存到csv文件相关推荐

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
爬取安居客的信息，并保存到csv文件中。
这里说明下不要用xpath进行爬取,因为会被封. # 引入包 import requests from bs4 import BeautifulSoup import time import csv# ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
Python爬虫实战 | (3) 爬取豆瓣电影Top250
在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（上）
今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版我们先观察网页,看看 ...

爬虫实战4：爬取猫眼电影排名Top100的详细数据保存到csv文件

文章目录

猫眼电影

完整代码

运行结果

爬虫实战4：爬取猫眼电影排名Top100的详细数据保存到csv文件相关推荐

最新文章

热门文章