利用python爬取豆瓣电影top250：

注：本内容只是作为个人学习记录

1、业务分析

进入网页https://movie.douban.com/top250

可以看见每部电影都呈现在眼前，点击电影进去可以看见更详细的信息：以下就是这次准备提取的数据

返回top250页面，还需要查看一下如何提取每个电影的url，显然一个页面只能有25个电影入口，需要进行翻页再到下一页收集每部电影的url。所以翻页也要看以下如何操作。

这里使用开发者工具（点击F12查看源代码）点击左上角按键直接看指针点击的位置信息

*大体方法都是如此，利用开发者工具查看想要的内容，然后根据内容使用etree中的xpath语法去提取，该内容可以去csdn其他博主上找，简书，菜鸟教程也都有。这里附上W3school的xpath学习网址

2、代码实现

下面是寻找标签及内容的xpath

   0 电影排名        //div[@class="top250"]/span[@class="top250-no"]/text()1 电影标题        //span[@property="v:itemreviewed"]/text()2 导演           //span[@class='attrs']/a[@rel='v:directedBy']/text()3 上映年份      //span[@class="year"]/text()4 豆瓣评星      //div[@class="item"]/span[@class]/text()5 评价人数         //span[@property="v:votes"]/text()6 剧情介绍        //span[@property="v:summary"][position()<=1]/text()7 每个电影的url    //div[@id="content"]//div[@class="hd"]/a/@href8 下一页            //link[@rel="next"]/@href

接下来时看代码了

import os  # 这里用于打开写入的文件
import csv  # csv读取
import pymysql  # 链接数据库
import pandas as pd  # 用于写入csv
import numpy as np  # 设定随机时间停歇，降低封ip的几率
import requests  # 用于网页请求
import time  # 用于显示当前时间
from lxml import etree  # 解析base_url = "https://movie.douban.com/top250"headers = {'Host': "movie.douban.com",'User-Agent': "[这里就不附上了，用浏览器F12直接复制即可]"
}

下面是部分代码，用于show大体上的操作。 代码注释比较清晰，就不进行详细解释。

def get_movies_url(self):"""获得250个电影的url"""movies_url = []url = self.base_url  # 这是最开始的网页loss = []for i in range(1, 12):try:print(f"正在访问:{url}")respond = requests.get(url, headers=self.headers).text  # 取得源代码re_html = etree.HTML(respond)  # 解析网页# 获得当前页面的25个电影的url(是一个列表，最后会成为10*25的二维列表)movies_url.append(re_html.xpath('//div[@id="content"]//div[@class="hd"]/a/@href'))print(f"第{i}次访问成功！")# 准备模仿点击下一页(其实就是获得next url)next_url = re_html.xpath('string(//link[@rel="next"]/@href)')url = self.base_url + next_url  # 拼接print(f"即将访问:{url}")# 提示错误，并且将访问失败的url写入列表 方便后来重新访问except Exception as reason:print(f"第{i}次访问失败原因:{reason.args}")print(f"访问失败url:{url}")loss.append(url)if url == self.base_url:  # 到最后会没有next url 所以拼接后可能是最开头那一页print("访问结束")break  # 这样就退出去freeze(1, 3)  # 随机暂停self.all_url = [x for i in movies_url for x in i]  # 展开 维度2->1if loss:print("有访问失败的页面,已经返回")self.loss_page = loss

def get_in_info(self):"""进入每一个url进行解析每一个电影各种属性都存放在一个字典中然后写入列表最后得到的是列表中有多个字典每个字典存着每个电影的属性"""assert (self.all_url is not None)if not (self.all_url is not None):raise AssertionError('You have to get movies urls first')# with open('movies_info', 'a+', encoding='utf-8') as file:all_info = []loss = []# 这是字典的keys 和 valueslist_keys = ['No.', 'title', 'director', 'year', 'type', 'stars', 'eval_people_num', 'summary']list_values = ['string(//div[@class="top250"]/span[@class="top250-no"])','string(//span[@property="v:itemreviewed"])','string(//span[@class="attrs"]/a[@rel="v:directedBy"])','//span[@class="year"]/text()','//span[@property="v:genre"]/text()','//div[@class="item"]/span[@class]/text()','string(//span[@property="v:votes"])','//span[@property="v:summary"]/text()']self.key = list_keysself.values = list_valuesfor x, i in enumerate(self.all_url):dic = {}  # 每一部电影的信息用一个字典存放，再放入列表中try:cur_re = requests.get(i, headers=self.headers).text  # 访问当前一部电影cur_html = etree.HTML(cur_re)  # 解析for n, m in enumerate(list_values):  # 准备写入字典if n == 5:# 评星内容  删除前后空白并且设计一定的格式在融合例如 : 5星:98% 4星:1%...dic[list_keys[n]] = ''.join([y.strip() + ' ' if t % 2 != 0 else y.strip() + ':'for t, y in enumerate(cur_html.xpath(m))])elif n == 7:# 剧情介绍dic[list_keys[n]] = ''.join([y.strip() for y in cur_html.xpath(m)])elif n == 3 or 4:# 年份和类型dic[list_keys[n]] = str(''.join(cur_html.xpath(m)) + ')').strip('()')else:# 其他直接获取，因为在values中设置成了string()获取，直接是字符串dic[list_keys[n]] = cur_html.xpath(m)if n == 0:# 排名，将其设置为int类型方便数据库中排序dic[list_keys[n]] = int(cur_html.xpath(m)[3:])# print(dic[list_keys[n]])print(f"第{x + 1}次获取信息成功！")except Exception as reason:print(f"第{x + 1}次获取信息失败:原因:{reason.args}")print(f"获取信息失败url:{i}")loss.append(i)  # 保存 访问失败的网页# freeze(0, 3)  # "冷却时间"all_info.append(dic)  # 每一次都存入一个列表当中self.all_info = all_infoif loss:print(f"有访问失败电影网页\n已经返回")self.loss_movies = loss

    def write_in_csv(self):"""写入文件"""assert (self.all_info is not None)if not (self.all_info is not None):raise AssertionError('You have to get movies infos first')  data = pd.DataFrame(self.all_info)data.to_csv(self.file, mode='a', encoding='utf_8_sig')  # 防止乱码的编码方式os.system(self.file)print("Work Done!")

# 最后存入数据库
def write_in_database(self):db_config = {'host': 'localhost',  # 需要连接ip'port': 3306,  # 默认端口3306'user': 'root',  # 用户名.'password': '**********',  # 用户密码'db': 'douban_top250',  # 进入的数据库名.'charset': 'utf8'  # 编码方式.}# 建立连接mq = pymysql.connect(**db_config)# 创建游标对象cursor = mq.cursor()# 读取csv文件# 若是用utf-8则出现# 报错'utf-8' codec can't decode byte 0xc9 in position 67: invalid continuation byte# 最后选择gbk编码方式了= =、with open(self.file, 'r', encoding='gbk') as f:  # 打开文件read = csv.reader(f)  # 返回可迭代对象，转换成列表方便操作for i in list(read)[1:]:  # 第一行（0行）是columns 数据库中已经创建,不入x = tuple(i[1:])  # 第一列（0列）是自动形成的从0开始的有序数列，我们有排名能够对应电影，不写进数据库sql = "INSERT INTO db_250 VALUES" + str(x)  # * INSERT INTO * - 向数据库表中插入数据cursor.execute(sql)  # 执行SQL语句mq.commit()  # 提交数据cursor.close()  # 关闭游标mq.close()  # 关闭数据库

最后的最后就是成果啦！！！

当当当当！！！ 查看方式：使用Navicat 数据库管理工具

可以看见最后还是有一些乱码？？？的，这是再to_csv和读取写入数据库时产生的问题，具体也不清楚何种编码方式才好，utf-8产生的问题在上方的存入数据库的代码块中写到。希望不久后，自己能够发现改进办法

也十分乐意接受路过的大佬们指点！！！请指教。

原创作品 by GreediVic

2021/4/22