一个简单的python网路爬虫示例——爬取《后来的我们》影评

1.爬取第一页的所有影评

首先我们用百度搜索《后来的我们》影评，记录下此时的网址，如下：
https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P

右键当前页面，查看元素，我们可以发现在查看器中，所有的评论都是<p>来显示的，虽然后面的无关文字也有<p>来显示，但我们可以通过限制条件来只选出我们想要的评论。

接下来我们来选择网络，随便点击一个文件，在右边出现一个属性框，我们拉到最下面，记录下我们所用网页的User-Agent。

完成了所有准备工作，我们开始进行写代码。

为了完成我们的爬虫，我们需要导入两个库，一个是requests库，它用于向网页发送请求，具体用法详见linkhttps://www.cnblogs.com/xinz-study/p/9294452.html，另一个是bs4库中的BeautifulSoup类，用于获取网页的源码，具体用法详见linkhttps://www.jianshu.com/p/26a3632796dd。

完整代码如下：

# 需要调用的requests库和 bs4库中的BeautifulSoup工具
import requests
from bs4 import BeautifulSoupnum = 0  # 定义条数的初始值# 定义一个变量url，为需要爬取数据我网页网址
url = 'https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P'# 获取这个网页的源代码，存放在req中，{}中为不同浏览器的不同User-Agent属性，怎么获取前面已经介绍
req = requests.get(url,{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'})# 生成一个Beautifulsoup对象，用以后边的查找工作
soup = BeautifulSoup(req.text, 'html.parser')# 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中
xml = soup.find_all('p', class_='')# 利用循环将xml[]中存放的每一条打印出来
for i in range(20):  # 表示从0到xml的len()长度msg = xml[i].get_text() # 只获取纯文本if not msg is None:num += 1print('第', num, '条', msg)

查看一下输出结果：

2.爬取多页的评论

为了爬取多页的评论，我们只需改变每一次的网址即可，我们可以观察每一页的评论网址：

第一页：https://movie.douban.com/subject/26683723/comments?start=0&limit=20&sort=new_score&status=P
第二页：https://movie.douban.com/subject/26683723/comments?start=20&limit=20&sort=new_score&status=P
第三页：https://movie.douban.com/subject/26683723/comments?start=40&limit=20&sort=new_score&status=P

可以发现，每次的变化就是start=后面数字的变化，而且每页都在前一页的基础上加20,由此，我们便可利用循环语句实现多页的爬取，代码如下：

# 需要调用的requests库和 bs4库中的BeautifulSoup工具
import requests
from bs4 import BeautifulSoupnum = 0  # 定义条数的初始值
page_num = int(input("请输入你先查看评论的页数")) # 想要查看的页数# 定义一个变量url，为需要爬取数据我网页网址
for page in range(page_num):url = 'https://movie.douban.com/subject/26683723/comments?start=' + str(20 * page) + '&limit=20&sort=new_score&status=P'# 获取这个网页的源代码，存放在req中，{}中为不同浏览器的不同User-Agent属性，怎么获取前面已经介绍req = requests.get(url,{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'})# 生成一个Beautifulsoup对象，用以后边的查找工作soup = BeautifulSoup(req.text, 'html.parser')# 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中xml = soup.find_all('p', class_='')# 利用循环将xml[]中存放的每一条打印出来s = len(xml)for i in range(20):  # 表示从0到xml的len()长度msg = xml[i].get_text() # 只获取纯文本if not msg is None:num += 1print('第', num, '条', msg)

查看输出结果：
我们输入的页数为5，可以看到有100条评论。

3.优化

很多网站都会有反爬机制，当短时间内同一个IP多次对服务器进行访问时，服务器会暂时中断对该IP的服务，这样我们就不能得到想要的结果，所以一个办法就是增加延时，下边是加上延时之后代码：

# 需要调用的requests库和 bs4库中的BeautifulSoup工具
import requests
from bs4 import BeautifulSoup
import time
num = 0  # 定义条数的初始值
page_num = int(input("请输入你先查看评论的页数")) # 想要查看的页数# 定义一个变量url，为需要爬取数据我网页网址
for page in range(page_num):url = 'https://movie.douban.com/subject/26683723/comments?start=' + str(20 * page) + '&limit=20&sort=new_score&status=P'# 获取这个网页的源代码，存放在req中，{}中为不同浏览器的不同User-Agent属性，怎么获取前面已经介绍req = requests.get(url,{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'})# 生成一个Beautifulsoup对象，用以后边的查找工作soup = BeautifulSoup(req.text, 'html.parser')# 找到所有p标签中的内容并存放在xml这样一个类似于数组队列的对象中xml = soup.find_all('p', class_='')# 利用循环将xml[]中存放的每一条打印出来s = len(xml)for i in range(20):  # 表示从0到xml的len()长度msg = xml[i].get_text() # 只获取纯文本if not msg is None:num += 1print('第', num, '条', msg)time.sleep(5) # 每隔5秒进行一次访问