python爬虫实战——猫眼电影案例

·背景

笔者上一篇文章《基于猫眼票房数据的可视化分析》中爬取了猫眼实时票房数据，用于展示近三年电影票房概况。由于数据中缺少导演/演员/编剧阵容等信息，所以爬取猫眼电影数据进行补充。关于爬虫的教学内容，网络上一搜就有很多了，这里我以个人的爬虫习惯，介绍此次过程中所用到的库和代码。流程图，如下图所示：

·抓包

Ajax异步加载的网页，加载数据的URL需要通过抓包获取。一般确认是否异步加载，只需要右键打开网页源代码，如果源码文字内容与前端展示的结果不一致，则属于异步加载。这时需要按F12打开开发者工具的Network，重新刷新网页，就能看到真正的URL。如下图所示，开发者工具中红色框的URL才是真正加载数据的URL。

·concurrent.futures库

利用多核CPU提升执行速度。主要包含两个类：ThreadPoolExecutor和ProcessPoolExecutor，当执行属于IO密集型时，使用ThreadPoolExecutor开启多线程。当执行属于CPU密集型时，使用ProcessPoolExecutor开启多线程。

·requests库

用于发送网络请求。网络请求有get和post两种方式，get()可以直接获取数据，post()需要传递参数后才能获取数据。一般网站都是get方式，若需要登录后才能看到数据的网页则属于post方式。而爬虫中post()通常和session()搭配使用，session()用于保存登录后的cookie。

·Beautifulsoup库

用于解析HTML。爬虫需要懂得基本的HTML语言，通过定位不同的标签来提取数据。

·re库

正则表达式，用来检索或替换符合某个模式(规则)的文本。爬虫过程中如果遇到不能直接提取的脏数据时，一般采用re解决。re功能非常强大，而且上手不难，很多方面都可以运用它，所以掌握re也是一个必备技能。

·redis数据库

非关系型数据库，可以存储多种抽象数据类型。由于读写简单快捷，所以笔者将其当做缓存数据库，用于存储待爬取URL，再配合ThreadPoolExecutor多线程进行爬取，满足高并发需求。

·Mysql数据库

关系型数据库，用于存储最终结果。

·实例

首先，确认URL是否需要抓包获取，还是可以直接手工构建。如下图所示，源码内容与前端展示是一致的，所以可以根据传递的参数内容，直接构建URL。

然后，再根据类型、区域、年代这三个参数，构建首页URL，一般地，遇到像猫眼电影这种有多个分类下有多个类别的网站时，我都会先抓取这些标签编码，根据自己感兴趣的内容再去构建多个首页URL。

接着，获取每种分类的页面数量，再构建页面URL，再存到redis中。这么做的原因是猫眼页面查看数量是有限制的，通过遍历所有分类构建URL可以绕过这个限制。

然后，爬取每个页面中影片的ID，再构建详情页URL。由于多线程爬取速度很快，会导致IP暂时被限制登录，所以需要多一个步骤，来判断IP是否已经被封。利用while语句识别存放在redis中的URL列表是否为空，如果为空则停止或进入下一步，否则继续执行。此外，暂无评分的影片不属于考虑范围，所以剔除。

最后，爬取每条详情页URL的信息，同时也需要判断IP是否被限制。由于无票房的影片不属于考虑范围，所以剔除。将结果直接保存到Mysql中。

如下图所示，20110101-20191005期间，有评分有票房的影片总共有10746条，movie_all这个字段包含了导演/演员/编剧，后期还需要做进一步的数据清洗，这里暂时不涉及数据清洗的内容。

·结语

爬虫入门并不是很难，一般按照流程图的步骤就可以完成一次爬虫。不过，大部分网站都是有限制爬虫的，也就是反爬虫。最常遇到的反爬虫就是封IP，这次爬虫也遇到这个问题。此外，验证码也是常见的反爬虫之一。如果能解决这两点，几乎各类型网站都能爬。