爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件
申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。
文章目录
- 猫眼电影
- 完整代码
- 运行结果
猫眼电影
完整代码
import time
import requests
import re
import csvclass MaoYanMovie:file = '猫眼电影排名前100.csv'def get_movie_rank(self, page):# 爬取页面的urlurl = 'https://maoyan.com/board/4?offset={}'.format(page)# 爬取页面的headers,最好加上User-Agent参数,指定浏览器发送请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'}# 获取页面html源代码res = requests.get(url, headers=headers)res_text = res.text# 将正则字符串编译成正则表达式对象,方便复用pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?data-val.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)# 使用正则表达式获取想要的数据items = re.findall(pattern, res_text)# 再次将数据处理干净for item in items:index = item[0]image = item[1]title = item[2]actor = item[3].split(':')[1].strip()time = item[4].split(':')[1].strip()score = item[5] + item[6]# 将获得的数据添加到csv文件中with open(self.file, 'a+', encoding='utf-8', newline='') as f:writer = csv.writer(f)writer.writerow([index, image, title, actor, time, score])if __name__ == '__main__':# 实例化MaoYanMovie类mao_yan_movie = MaoYanMovie()# 清空csv文件的数据with open(mao_yan_movie.file, 'w', encoding='utf-8', newline='') as f:csv_f = csv.writer(f)csv_f.writerow(['排名', '封面图', '电影名称', '主演', '上映时间', '评分'])# 循环10次,依次爬取10页排名for i in range(10):mao_yan_movie.get_movie_rank(i * 10)# 延迟等待1秒,防止过快造成无响应time.sleep(1)
运行结果
Python爬虫实战专栏:
爬虫实战3:爬取天天基金的7663个基金排名保存到excel表
爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件
爬虫实战5:爬取全部穿越火线武器的图片以武器名称命名保存到本地文件
一个坚持学习,坚持成长,坚持分享的人,即使再不聪明,也一定会成为优秀的人!
如果看完觉得有所收获的话,记得一键三连哦,谢谢大家!
爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件相关推荐
- python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
- Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- 爬取安居客的信息,并保存到csv文件中。
这里说明下不要用xpath进行爬取,因为会被封. # 引入包 import requests from bs4 import BeautifulSoup import time import csv# ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...
- 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
- Python爬虫实战 | (3) 爬取豆瓣电影Top250
在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)
今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...
最新文章
- UVA 11054 Wine trading in Gergovia 葡萄酒交易 贪心+模拟
- Java 8 - Stream实战
- SoapUI工具中的用户名和密码如何用net代码实现传入
- 当一个程序员面临太多选择的时候
- 张清:你hold住微博实名制吗?
- 八个非常实用的vsCode扩展插件,千万别错过了!
- MySQL中B-tree索引和Hash索引区别
- linux nslookup 解析不到dns_涉及DNS的简单操作,只看这一篇就够了
- 深圳惊现“马云网络有限公司” 网友:你好 我是马云公司CEO
- Linux 用虚拟地址(逻辑地址)计算物理地址(十进制 十六进制)
- css mix-blend,CSS mix-blend-mode 属性
- VMware Workstation Player与VMware Workstation Pro的区别
- 阿里达摩院420集python_阿里达摩院推荐的420集的python教程,入门到精通简直不要太简单...
- C#生成Guid,SqlServer生成Guid
- 中国精算师资格考试-考试指南
- 希捷低格工具_拯救硬盘问题的终极大招超强电脑硬盘低格工具
- 硬盘安装Fedora 9成功
- Android日志分析工具的开发介绍
- 解决502 bad gateway的九种方案及原因
- 用Python进行web开发需要学习什么?