#爬取豆瓣电影top250

文章目录

1 创建jupyter环境及安装相关的包
- 1.1 安装jupyter
- 1.2安装requests和lxml
2 分析网页链接
3 爬取网页
- 3.1 请求源代码
- 3.2 设置浏览器代理
- 3.3请求网页代码汇总
4 获取内容
- 4.1 获取xpath路径方法
- 4.2利用包lxml解析网页
- 4.3xpath获取
- - 4.3.1电影名称的获取
5 用正则表达式匹配内容
- 5.1 用正则表达式将星级匹配出来
- 5.2 用正则表达式将评价人数匹配出来
6 将内容写入csv文件
7 爬取豆瓣电影top250代码汇总及爬取结果

1 创建jupyter环境及安装相关的包

1.1 安装jupyter

1.2安装requests和lxml

requests：请求网页时需要导入的包

lxml：对网页解析和过滤时需导入的包

2 分析网页链接

 分析网页有助于我们爬取网页，可以减少代码冗余先分析每一页网页的URL

分析网页链接后会发现红框中的规律，网页每次跳转时是以25的间隔跳转，就可以用for循环来表示网页跳转的规律

知道网页的跳转规律后可用URL表示豆瓣TOP250网页的一般表达式

 url='https://movie.douban.com/top250?start=%s&filter='%page

运用for循环表达出每个网页的URL

for page in range(0, 226, 25):url='https://movie.douban.com/top250?start=%s&filter='%page

3 爬取网页

3.1 请求源代码

以请求第一页网页为例，对此网页进行元素检查，先点击network，再点击all，即可看到网页请求方法为get .

开始导入包requests，请求源代码 https://movie.douban.com/top250?start=0&filter= ，向服务器发出请求，运行后得到200即为成功

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
requests.get(url=test_url)

运行得到418，即网站已经意识到这是一个爬虫程序，触动了它的反爬虫程序

3.2 设置浏览器代理

请求源代码不成功，就要设置一个浏览器代理，告诉它这是浏览器在运行，才可以爬取网页
在检查元素中找到浏览器代理，红箭头所指就是网页的浏览器代理
接着伪装浏览器，构造一个字典

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}

再重新请求源代码，即可成功

3.3请求网页代码汇总

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
#设置浏览器代理，构造一个字典
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}
response=requests.get(url=test_url, headers=headers).text

请求源代码结果图：

4 获取内容

4.1 获取xpath路径方法

将鼠标点击标有序号1的红箭头上所指的小箭头，选择所要获取的内容（如肖申克的救赎），即可看到标有序号3的红箭头所指的一条蓝色框，点击鼠标右键，选择copy，再选择copy xpath即可获取

当我们提取标签内的文本时，需要在复制到的xpath后面加上/text() ，告诉它说我需要提取的内容是一个标签呈现的数据

4.2利用包lxml解析网页

从lxml包中导入etree，对网页进行解析

from lxml import etree
#解析网页
html_etree=etree.HTML(response)

4.3xpath获取

xpath是按照HTML标签的方式进行定位的，谷歌浏览器自带有xpath，直接复制来就可以使用，简单方便，运行速度快

分析每一部电影的xpath路径，就红框中的数字不一样，将数字删除后就可以表示电影的xpath路径

li=html_etree.xpath( '//*[@id="content"]/div/div[1]/ol/li')

4.3.1电影名称的获取

分析电影名称的xpath路径，只有红框中数字不同，红框前半截xpath路径与电影名称相同，可直接截取红框后半截xpath路径为电影名称xpath路径，当获取要获取所需电影时即可获取相应的电影名称

  #电影名称name = item.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]

可用相同的方法获取电影排名，电影链接，电影星级，电影评分和评价人数

5 用正则表达式匹配内容

5.1 用正则表达式将星级匹配出来

正则表达式中可以使用（.*? ）来进行获取信息

import re
test="rating5-t"
re.findall('rating(.*?)-t',test)

将第一个网页的电影星级匹配出来后的内容：

提取出来后要星级进行区分，如红框所示，用正则表达式匹配出来，星级为4.5的会匹配出45

import refrom lxml import etree#解析网页
html_etree=etree.HTML(response)li=html_etree.xpath( '//*[@id="content"]/div/div[1]/ol/li')
for item in li:#等级rating = item.xpath('./div/div[2]/div[2]/div/span[1]/@class')[0]rating = re.findall('rating(.*?)-t', rating)[0]if len(rating) == 2:star = int(rating) / 10  #int()转化为数字else:star = ratingprint (star)

进行整理后，运行所得到的结果为：

5.2 用正则表达式将评价人数匹配出来

用第一个电影的评价人数作为例子

import re
test="1974974人评价"
re.findall('(.*?)人评价',test)

运行结果：

将第一个网页的评价人数匹配出来后的内容：

6 将内容写入csv文件

1.导入包csv

import csv

2.创建并打开文件夹

fp = open("./豆瓣top250.csv", 'a', newline='', encoding = 'utf-8-sig')
writer = csv.writer(fp) #我要写入

3.写入内容

writer.writerow(('排名','名称', '链接', '星级', '评分', '评价人数'))

4.关闭文件

fp.close()

内容写入csv文件代码汇总：

import csv
fp = open("./豆瓣top250.csv", 'a', newline='', encoding = 'utf-8-sig')
writer = csv.writer(fp)
writer.writerow(('排名','名称', '链接', '星级', '评分', '评价人数'))
fp.close()

7 爬取豆瓣电影top250代码汇总及爬取结果

代码汇总：

import re,csv,requests
from lxml import etree#设置浏览器代理，构造一个字典
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'
}#创建并打开文件夹
fp = open("./豆瓣250.csv",'a',encoding='utf-8-sig')
writer=csv.writer(fp)#写入内容
writer.writerow(('排名','名称','链接','星级','评分','评价人数'))#循环所有页面
for page in range(0, 226, 25):print("正在获取第%s页"%page)url='https://movie.douban.com/top250?start=%s&filter='%page#请求源代码，向服务器发出请求reponse=requests.get(url=url,headers=headers).text#解析网页    html_etree = etree.HTML (reponse)#过滤li=html_etree.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')for item in li:#电影排名rank=item.xpath('./div/div[1]/em/text()')[0]  #电影名字                name=item.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]#电影链接dy_url=item.xpath('./div/div[2]/div[1]/a/@href')[0]    #电影星级数rating=item.xpath('./div/div[2]/div[2]/div/span[1]/@class')[0] rating=re.findall('rating(.*?)-t', rating)[0]if len(rating)==2:           star = int(rating) / 10    #字符串不可做运算，故int()转化为整数型else:star=rating#电影分数rating_num=item.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0] #电影评价人数content=item.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0] content=re.sub(r'\D',"", content)  print(rank,name,dy_url,star,rating_num,content)writer.writerow((rank,name,dy_url,star,rating_num,content))
fp.close()

爬取结果：