申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。

文章目录

  • 猫眼电影
  • 完整代码
  • 运行结果

猫眼电影

完整代码

import time
import requests
import re
import csvclass MaoYanMovie:file = '猫眼电影排名前100.csv'def get_movie_rank(self, page):# 爬取页面的urlurl = 'https://maoyan.com/board/4?offset={}'.format(page)# 爬取页面的headers,最好加上User-Agent参数,指定浏览器发送请求headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'}# 获取页面html源代码res = requests.get(url, headers=headers)res_text = res.text# 将正则字符串编译成正则表达式对象,方便复用pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?data-val.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)# 使用正则表达式获取想要的数据items = re.findall(pattern, res_text)# 再次将数据处理干净for item in items:index = item[0]image = item[1]title = item[2]actor = item[3].split(':')[1].strip()time = item[4].split(':')[1].strip()score = item[5] + item[6]# 将获得的数据添加到csv文件中with open(self.file, 'a+', encoding='utf-8', newline='') as f:writer = csv.writer(f)writer.writerow([index, image, title, actor, time, score])if __name__ == '__main__':# 实例化MaoYanMovie类mao_yan_movie = MaoYanMovie()# 清空csv文件的数据with open(mao_yan_movie.file, 'w', encoding='utf-8', newline='') as f:csv_f = csv.writer(f)csv_f.writerow(['排名', '封面图', '电影名称', '主演', '上映时间', '评分'])# 循环10次,依次爬取10页排名for i in range(10):mao_yan_movie.get_movie_rank(i * 10)# 延迟等待1秒,防止过快造成无响应time.sleep(1)

运行结果


Python爬虫实战专栏:

爬虫实战3:爬取天天基金的7663个基金排名保存到excel表

爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件

爬虫实战5:爬取全部穿越火线武器的图片以武器名称命名保存到本地文件

一个坚持学习,坚持成长,坚持分享的人,即使再不聪明,也一定会成为优秀的人!

如果看完觉得有所收获的话,记得一键三连哦,谢谢大家!

爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件相关推荐

  1. python爬取当当网的书籍信息并保存到csv文件

    python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

  2. Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单

    在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...

  3. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  4. 爬取安居客的信息,并保存到csv文件中。

    这里说明下不要用xpath进行爬取,因为会被封. # 引入包 import requests from bs4 import BeautifulSoup import time import csv# ...

  5. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  6. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  7. 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100

    目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...

  8. Python爬虫实战 | (3) 爬取豆瓣电影Top250

    在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...

  9. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)

    今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...

最新文章

  1. UVA 11054 Wine trading in Gergovia 葡萄酒交易 贪心+模拟
  2. Java 8 - Stream实战
  3. SoapUI工具中的用户名和密码如何用net代码实现传入
  4. 当一个程序员面临太多选择的时候
  5. 张清:你hold住微博实名制吗?
  6. 八个非常实用的vsCode扩展插件,千万别错过了!
  7. MySQL中B-tree索引和Hash索引区别
  8. linux nslookup 解析不到dns_涉及DNS的简单操作,只看这一篇就够了
  9. 深圳惊现“马云网络有限公司” 网友:你好 我是马云公司CEO
  10. Linux 用虚拟地址(逻辑地址)计算物理地址(十进制 十六进制)
  11. css mix-blend,CSS mix-blend-mode 属性
  12. VMware Workstation Player与VMware Workstation Pro的区别
  13. 阿里达摩院420集python_阿里达摩院推荐的420集的python教程,入门到精通简直不要太简单...
  14. C#生成Guid,SqlServer生成Guid
  15. 中国精算师资格考试-考试指南
  16. 希捷低格工具_拯救硬盘问题的终极大招超强电脑硬盘低格工具
  17. 硬盘安装Fedora 9成功
  18. Android日志分析工具的开发介绍
  19. 解决502 bad gateway的九种方案及原因
  20. 用Python进行web开发需要学习什么?

热门文章

  1. 怀孕用计算机有辐射吗,电脑辐射对胎儿有影响吗
  2. 【E2E】E2E通信保护协议学习2
  3. android进阶4step3:Android常用框架——友盟推送简单使用(官翻)
  4. android 心率测试,用手机测量你的心跳!安卓心电图App试用
  5. 带倍速播放的播放器_带有HTML5的MP3播放器
  6. 激光雷达物体检测(二):点视图检测算法
  7. 不敲代码用ChatGPT开发一个App
  8. python-从哪里开始执行?
  9. 【ESP32CAM识别图形左边界】(三)识别图像左边界
  10. 计算机网络工程专业毕业论文,网络工程参考文献