《爬取电影信息》

1、准备工作
2、分析网页
- 1、打开网页
- 2、选取2019年的电影并分析其网页链接
- 3、分析ajax包的链接
- - （1）查看ajax包是否内容正确
  - （2）分析ajax包的链接的规律
  - （3）用for循环爬取网页所有电影的ajax链接
3、抓取ajax包
- 1、检查网页
- 2、查询ajax的代理和请求方式
- - （1）代理方式
  - （2）字典
- 3、请求网页
- - （1）正常请求
  - （2）cookie值
  - （3）cookie值的查询
  - （4）放入请求代码的headers中
  - （5）加入cookie值后请求的运行结果为：
  - （6）将其赋值给response
  - （7）json解析
  - （8）选取要爬取的内容
4、筛选信息
- 1、导入筛选信息的包
- 2、提取信息
- - （1）提取电影名
- 3、查看内容xpath路径
- - （1）查看内容所在主要路径
  - （2）查看内容所在路径
  - （3）编写路径
  - （4）爬取信息
  - （5）更改部分内容爬取其他年份的电影
6、代码异常处理
- 1、在爬取2020年的电影时出现了一些问题
- 2、处理异常代码
- - （1）try函数
  - （2)查找错误地方
  - （3）对代码进行加工
  - （4）2020年电影输出效果
5、保存
- 1、保存为csv格式
- 2、将代码汇总
6、查看

1、准备工作

和上一次课的准备工作一致。

2、分析网页

1、打开网页

2、选取2019年的电影并分析其网页链接

2019年电影票房
第一页：http://movie.mtime.com/boxoffice/#CN/2019
第二页：http://movie.mtime.com/boxoffice/#CN/2019
…
最后一页：http://movie.mtime.com/boxoffice/#CN/2019
发现每一页的网页链接都是一样的，所以直接爬取网页的链接是不可取的，我们采取上次课的学习内容，用ajax抓包的方式来爬取链接

3、分析ajax包的链接

（1）查看ajax包是否内容正确

发现内容确实是我们所想要的内容

（2）分析ajax包的链接的规律

第一页：http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=0&display=list&timestamp=1587174581492&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json
第二页：http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=1&display=list&timestamp=1587174599209&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json
…
最后一页：http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=9&display=list&timestamp=1587174613531&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json
发现链接之间有变化的为page和timestamp两个部分

（3）用for循环爬取网页所有电影的ajax链接

for page in range(10):#为“for page in range（0，10，1）”的简写print ("正在爬取%s页。。。。。"%(page+1))url = "http://movie.mtime.com/boxoffice/?year=2020&area=china&type=MovieRankingYear&category=all&page=%s&display=list&timestamp=1586758678446&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json"%page

3、抓取ajax包

1、检查网页

2、查询ajax的代理和请求方式

按照顺序点击，并查找

（1）代理方式

（2）字典

3、请求网页

（1）正常请求

import requests
url = "http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=0&display=list&timestamp=1586758678446&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
requests.get(url= url)

运行结果为：

结果输出为521不是200，说明有错误。

（2）cookie值

上面的请求失误是因为网页有反爬虫，这里我们需要一个身份证明，就是“cookie”，将其放入代理中来伪装我们的身份，来跳过网页的反爬虫。

（3）cookie值的查询

与查找代理一样的步骤

（4）放入请求代码的headers中

import requests
url = "http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=0&display=list&timestamp=1587175350317&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json"
headers = {'Cookie':'_userCode_=2020418943319761; _userIdentity_=2020418943319882; userId=0; defaultCity=%25E5%258C%2597%25E4%25BA%25AC%257C290; _ydclearance=0727d3a1a8b8c2b43ce53545-898d-4121-b3ae-c28cad83fd56-1587181343; _tt_=1B6780C77FCA13619F3729D19CEA8D35; Hm_lvt_6dd1e3b818c756974fb222f0eae5512e=1587174213; Hm_lpvt_6dd1e3b818c756974fb222f0eae5512e=1587174213; __utma=221034756.2128731208.1587174213.1587174213.1587174213.1; __utmc=221034756; __utmz=221034756.1587174213.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmb=221034756.2.10.1587174213',
'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
}
requests.get(url=url, headers=headers)

注意在两条代码之间要加分隔符“，”

（5）加入cookie值后请求的运行结果为：

运行结果为200，说明请求成功了

（6）将其赋值给response

response=requests.get(url=url, headers=headers)

（7）json解析

将抓取的包用json解析器解析，其解析结果如下：

可以看出，解析后，我们想要的内容在html中

（8）选取要爬取的内容

response.json()["html"]

运行结果为:

4、筛选信息

1、导入筛选信息的包

from lxml import etree #导入解析库html_etree = etree.HTML(response.json()["html"]) # 看成一个筛子，树状

2、提取信息

（1）提取电影名

name= html_etree.xpath('/html/body/div[3]/div[2]/div[1]/div[2]/div/dd[1]/div/div[2]/h3/a')

运行结果为：
发现提取不了想要的内容
（有时候直接复制内容的xpath路径会失效，这里引入知识点，“手动输入路径“）

3、查看内容xpath路径

（1）查看内容所在主要路径

可以看出电影的所有内容都是在==class=“boxofficelist”==下

（2）查看内容所在路径

（3）编写路径

第一部电影名的xpath路径：/html/body/div[3]/div[2]/div[1]/div[2]/div/dd[1]/div/div[2]/h3/a
第二部电影名的xpath路径：/html/body/div[3]/div[2]/div[1]/div[2]/div/dd[2]/div/div[2]/h3/a
…
第十部电影名的xpath路径：/html/body/div[3]/div[2]/div[1]/div[2]/div/dd[10]/div/div[2]/h3/a
可以看出只有dd标签后的内容发生了变化
所以其路径可以写为如下形式：

//div[@class="boxofficelist"]/div/dd[1]/div/div[2]/h3/a

（4）爬取信息

爬取的代码如下（选取电影的排名、电影名、导演、演员、评分人数为爬取信息）：

dd = html_etree.xpath('//div[@class="boxofficelist"]/div/dd')
for item in dd:rank = item.xpath('./div/div[1]/i/text()')name = item.xpath('./div/div[2]/h3/a/text()')director = item.xpath('./div/div[2]//p[3]/a/text()') #在导演"director"处使用了模糊匹配；这里"div[2]"和"p[3]"之间应该有"b"的，但是b没有被定义，代码会识别不出来，去掉b保留"/"后代码会匹配相似的内容actor = item.xpath('./div/div[2]//p[4]/a/text()') #这里的"a"原应该是分[1]、[2]的，但是我吗要把所有演员都爬取下来，选择去掉后缀来表示爬取全部。act = "、".join(actor) #拼接字符串，将两个字段拼接为一个act = [act] # 将数值转换为数组score = item.xpath('./div/div[3]/p[2]/text()')score = score[0].replace("人评分", "") #替换掉“人评分”，类似于正则表达式的替代，可以使用这种方式将不需要的内容替换掉。score = [score]result = (rank+name+director+act+score)# 将输出结果赋值给"result",字段相加则表示为一个数组

其运行结果为：

（5）更改部分内容爬取其他年份的电影

网页链接：
url = “http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=%s&display=list&timestamp=1587175350317&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json”%page

将年份改为“2018”、“2020”，对应爬取相应年份的电影

6、代码异常处理

1、在爬取2020年的电影时出现了一些问题

这时候引入知识点

2、处理异常代码

因为跨页爬取时，列表超出了循环，代码就会自动终止，为了避免发生这种情况，我们可以使用 try函数来跳过这些错误

（1）try函数

try：print() #输出可运行的内容
except:pass #对不可输出的内容进行跳过的操作break #跳出函数

（2)查找错误地方

可以看到有的电影没有评分，我们就在爬取的信息上添加try函数

（3）对代码进行加工

我们将这种特殊的页面的代码进行加工：

 dd = html_etree.xpath('//div[@class="boxofficelist"]/div/dd')for item in dd:try:rank = item.xpath('./div/div[1]/i/text()')director = item.xpath('./div/div[2]//p[3]/a/text()') actor = item.xpath('./div/div[2]//p[4]/a/text()')act = "、".join(actor)act = [act]try:score = item.xpath('./div/div[3]/p[2]/text()')score = score[0].replace("人评分", "")score = [score]except:passday = item.xpath('./div/div[2]/p[1]/strong[1]/text()')name = item.xpath('./div/div[2]/h3/a/text()')result = (rank+name+director+act+score)print (result)writer.writerow(result)except:            print ("此处错误")break

（4）2020年电影输出效果

5、保存

1、保存为csv格式

保存的代码

import csv
# 创建文件夹并打开
fp = open("./文件名.csv", 'a', newline='', encoding = 'utf-8-sig')
writer = csv.writer(fp) #我要写入
# 写入内容
writer.writerow(('排名', '名称', '链接', '星级', '评分', '评价人数'))
#关闭文件夹
fp.close()

2、将代码汇总

import requests,csv,time, re
from lxml import etree
startTime = time.time() #记录起始时间
headers = {"Cookie":"_userCode_=2020418943319761; _userIdentity_=2020418943319882; userId=0; defaultCity=%25E5%258C%2597%25E4%25BA%25AC%257C290; _tt_=1B6780C77FCA13619F3729D19CEA8D35; Hm_lvt_6dd1e3b818c756974fb222f0eae5512e=1587174213; __utmc=221034756; __utmz=221034756.1587174213.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=221034756.2128731208.1587174213.1587174213.1587180393.2; _ydclearance=b4fbd963ad758a29f9342628-d2be-4383-819c-45bd5d4f2137-1587188617; Hm_lpvt_6dd1e3b818c756974fb222f0eae5512e=1587181435","User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36"
}
# 创建文件夹并打开
fp = open("./电影信息2019.csv", 'a', newline='', encoding = 'utf-8-sig')
writer = csv.writer(fp) #我要写入
writer.writerow(('排名', '名称', '导演', '演员', '评分'))
for page in range(10):print ("正在爬取%s页。。。。。"%(page+1))url = "http://movie.mtime.com/boxoffice/?year=2019&area=china&type=MovieRankingYear&category=all&page=%s&display=list&timestamp=1587175350317&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json"%pageresponse = requests.get(url=url, headers=headers)html_etree = etree.HTML(response.json()["html"])# 提取信息dd = html_etree.xpath('//div[@class="boxofficelist"]/div/dd')for item in dd:rank = item.xpath('./div/div[1]/i/text()')name = item.xpath('./div/div[2]/h3/a/text()')director = item.xpath('./div/div[2]//p[3]/a/text()') #在导演"director"处使用了模糊匹配；这里"div[2]"和"p[3]"之间应该有"b"的，但是b没有被定义，代码会识别不出来，去掉b保留"/"后代码会匹配相似的内容actor = item.xpath('./div/div[2]//p[4]/a/text()') #这里的"a"原应该是分[1]、[2]的，但是我吗要把所有演员都爬取下来，选择去掉后缀来表示爬取全部。act = "、".join(actor) #拼接字符串，将两个字段拼接为一个act = [act] # 将数值转换为数组score = item.xpath('./div/div[3]/p[2]/text()')score = score[0].replace("人评分", "") #替换掉“人评分”，类似于正则表达式的替代，可以使用这种方式将不需要的内容替换掉。score = [score]result = (rank+name+director+act+score)# 将输出结果赋值给"result",字段相加则表示为一个数组print(result)writer.writerow(result)
fp.close()
endTime =time.time()#获取结束时的时间
useTime =(endTime-startTime)
print ("该次所获的信息一共使用%s秒"%useTime)