简单爬虫——爬取Scrape|Movie网站电影排行Top10

1.简单说明

本教程仅用来学习，不用于商业目的。这是第一次写文章，排版可能有点差，希望大家理解，嘻嘻。

不喜欢看分析的同学可以直接跳到最后有源代码

我们要爬的网站为：https://static1.scrape.center/
用到的库有requests、re、pyquery，不多说了直接开整。

2.网站分析

首先进入该网站后，右键-检查-Network，点Network后记得刷新（F5），然后在Name一栏点击第一个，找到User-Agent。
下面我们开始一步步写代码：
首先导入所需的库，没有的先安装；添加头部headers，也就是刚才User-Agent的内容。

import requests
from pyquery import PyQuery as pq
import reurl = 'https://static1.scrape.center/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}

然后get()方法请求网页，text属性得到网页的html代码；pyquery再对它进行初始化准备解析网页：

html = requests.get(url).text
doc = pq(html)

分析网页的html代码：

分析发现el-card比较特殊，没有重复出现的属性，于是就选择它来解析网页了。后面加上了items()方法，以便我们后面进行遍历得到电影的名称、类别、上映时间、评分

items = doc('.el-card').items()

下面以解析电影名称为例：

for item in items:# 名称name = item.find('a > h2').text()

find()方法查找到子孙节点h2，text()方法得到节点里的纯文本，也就是第一个电影名称。

后面方法相似，直接上源代码了

import requests
from pyquery import PyQuery as pq
import reurl = 'https://static1.scrape.center/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
html = requests.get(url).text
doc = pq(html)
items = doc('.el-card').items()
# print(items)
# w以写方式打开一个文件，如果该文件已存在，则将其覆盖，若不存在，则创建新文件。
file = open('movies.txt', 'w', encoding='utf-8')
for item in items:# 名称name = item.find('a > h2').text()file.write(f'名称:{name}\n')# 类别categories = [item.text() for item in item.find('.categories button span').items()]file.write(f'类别：{categories}\n')# 上映时间published_at = item.find('.info:contains(上映)').text()published_at = re.search('(\d{4}-\d{2}-\d{2})', published_at).group(1)\if published_at and re.search('\d{4}-\d{2}-\d{2}', published_at) else Nonefile.write(f'上映时间: {published_at}\n')# 评分score = item.find('p.score').text()file.write(f'评分：{score}\n')# 重复'='50次划线file.write(f'{"=" * 50}\n')
file.close()

最后：我们爬取到的结果如下图