你不一定要点蓝字关注我的

前言

本文主要讲述使用python爬取猫眼TOP100榜的电影名称,评分,以及电影图片等,爬取的URL是:http://maoyan.com/bard/4。

安装类库

pip install requests

分析目标URL

打开http://maoyan.com/bard/4,观察页面规律。

可以看到页面上链接已经变为http://maoyan.com/board/4?offset=10,可以看的出来第二页链接新增了offset=10这个参数,这时可以看到排名20到30的电影信息,我们手动更改这个参数,就可以看到TOP100的全部电影信息了。

抓取单个页面

将url=http://maoyan.com/board/4,传入get_one_page()函数,可以获取目标地址的源代码。

正则解析

打开浏览器调试页面可以发现我们要抓取的所有信息被<dd></dd>标签包含,所以我们只要把<dd></dd>中所有要抓取的信息都用正则表达式匹配出来就可以了。

表达式如下:

排名:<dd>.*?board-index.*?>(.*?)</i>

图片:<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)"

电影名称:

<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?name.*?a.*?>(.*?)</a>

最后解析全部字段解析如下,同时我们还要对解析出来的数据进行结构化处理:

写入文件

写入文件,我们在上面结构化处理后的文件是构建的字典格式,我们可以通过JSON库,序列化输出到本地文件中。

构建分页链接

因为猫眼的偏移量是10,20,,,100,所以在构建的时候可以构建一个生成式传入到mian()函数当中。代码块如下:

全文代码可以点击原文查看

脚下留心

请求的时候带上header,减小被服务器识别为爬虫的概率,算是反反爬的一种。

写在最后

1、之前写爬虫的时候往往一个函数涵盖全部的功能,之后维护起来自己都想抽自己,之后看了几个大佬的代码之后也学习到函数式编程的好处,把功能写成一个个函数方便之后维护,别人也能看的懂你在写什么。

2、还有就是多加注释,实习的时候实习的师傅告诉我最好在写代码的时候注释的量能占到总的百分20%,虽然并没有写到那么多,但是还是养成写注释的习惯,方便自己方便他人。

扫码关注公众号回复关键词获取相应资料:

回复数字【0】获取价值千元的爬虫学习资料

回复数字【0】获取万元学习资料汇总

回复数字【0】干货满满的python爬虫实战课程

公众号的资料库还在不断更新,关注我们获取更多更新~

[爬虫]requests+正则表达式爬取猫眼电影TOP100相关推荐

  1. 爬虫从头学之Requests+正则表达式爬取猫眼电影top100

    爬取思路 当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤 使用requests库爬 ...

  2. Requests+正则表达式爬取猫眼电影(TOP100榜)

    猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...

  3. requests+正则表达式爬取猫眼电影TOP100

    代码: 1 import json 2 from multiprocessing import Pool 3 import requests 4 # http://cn.python-requests ...

  4. Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)...

    requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...

  5. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  6. python爬取猫眼_python正则表达式爬取猫眼电影top100

    用正则表达式爬取猫眼电影top100,具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块:鼠标先点到要导入的函 ...

  7. 利用正则表达式爬取猫眼电影TOP100信息

    本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...

  8. Python爬虫实战01:Requests+正则表达式爬取猫眼电影

    1 目标站点的分析 2 流程框架 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果. 正则表达式分析 根据HTML代码分析得到电影的名称.主演.上映.时间.评分.图片 ...

  9. Requests+正则爬取猫眼电影TOP100

    (一)目标站点的分析 首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下: 而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: ...

  10. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

最新文章

  1. 观点 | 医疗AI:新瓶装旧酒VS新瓶装新酒?——道彤投资创始合伙人孙琦
  2. 上行数据和下行数据什么意思_上行带宽和下行带宽什么意思?
  3. 从输入网址到网页显示过程
  4. tarnado源码解析系列一
  5. Android 编程下的四大组件之服务(Service)
  6. matlab打开笔记本摄像头_如何解决笔记本电脑摄像头异常问题
  7. mysql 代替分号_除了使用分号(;)终止符之外,还有其他可执行MySQL查询的内置命令吗?...
  8. iconfont使用
  9. Python学习 第3天 VS与PyCharm使用对比
  10. [CIFS]解决linux挂载CIFS提示 HOST is down
  11. django接入facebook登陆设置
  12. Jquery中stop()的用法
  13. Unity 常用的几种存档读档方式
  14. 林轩田机器学习基石--The Learning Problem
  15. 小米三季报:手机不振,汽车加码
  16. 总裁演说思维商务谈判中的九大技巧
  17. 布斯(Steve Jobs)在斯坦福大学的演讲稿,中英文对照版
  18. chosen(下拉列表带搜索插件)和layer(弹出框插件)在一起使用会有冲突,解决办法
  19. 百度ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling
  20. 深入了解StringBuilder和String

热门文章

  1. uniapp:小程序对接腾讯云语音视频通话,简单demo
  2. Lenovo家用台式与一体机预装Win8改装Win7的解决方案
  3. error CS0246: 未能找到类型或命名空间名“A”(是否缺少 using 指令或程序集引用?)
  4. 导弹拦截(标题还有字数要求qwq)
  5. 如何用木板做桥_木头做桥基,300年不倒(组图)
  6. Android:自定义View实现绚丽的圆形进度条
  7. Attach函数的讲解
  8. vue从零搭建一个前中后台权限管理模板
  9. php theexcerpt,the_excerpt()函数
  10. 《代码大全》读书笔记