Jupyter notebook爬取猫眼top100电影信息（Xpath）

文章目录

Jupyter notebook 简介
代码

Jupyter notebook 简介

基于网页交互式运算的应用程序，可以在网页上编写和执行代码。本文将使用Xpath方法获取信息。

代码

导入request包，对网页发出请求、获取响应

导入etree函数

第一个页面中只包含10部电影信息

根据网页的地址信息，利用for循环遍历全部网页

导入csv，将数据存储在本地的csv类型文件中

将以上代码整合

import requests
from lxml import etree
import csv
##创建列表存储数据
mov_list=[]##构造翻页url
for i in range(10):url="https://www.maoyan.com/board/4?offset="+str(i*10)##字符串用+直接拼接#发出请求headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62"}#获取响应try:response=requests.get(url,headers=headers)response.encoding='utf-8'#解析responseresult = etree.HTML(response.text)except RequestException:print("获取错误")#提取节点信息for j in range(1,11):rank=result.xpath("//dd[{}]/i/text()".format(j))[0]name=result.xpath("//dd[{}]//p[@class='name']/a/text()".format(j))[0]actor=result.xpath("//dd[{}]//p[@class='star']/text()".format(j))[0].strip()releasetime=result.xpath("//dd[{}]//p[@class='releasetime']/text()".format(j))[0]score_list=result.xpath("//dd[{}]//p[@class='score']/i/text()".format(j))score=score_list[0]+score_list[1]mov_list.append([rank,name,actor,releasetime,score])##存储数据
with open('result.csv','w',newline="",encoding='utf-8') as f:##或者encoding='utf-8-sig'，newline=''保证存储数据不空行columns_name = ['rank','name','actor','releasetime','score']writer = csv.writer(f)##创建初始化写入对象writer.writerow(columns_name)##一行一行的写入colums_namefor row in mov_list:writer.writerow(row)

注释：如果将with open() as f写入循环内，每执行一个层次，都会将前面的信息覆盖，虽然最后的结果一样，但较大耗费。

Jupyter notebook爬取猫眼top100电影信息（Xpath）相关推荐

python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...
爬取猫眼 TOP100 电影并以 excel 格式存储
爬取目标本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...
python爬取猫眼top100电影,经典永远是经典
想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...
抓取猫眼top100电影信息
1. 在google浏览器中输入maoyan.com, 点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...
爬取猫眼TOP100电影
import json import re import requests from requests import RequestException from multiprocessing imp ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
python 爬取豆瓣top100电影页面
python 爬取豆瓣top100电影页面运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存避免多次访问 (登陆状态需页面cooki ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
爬取猫眼top100并存入csv文件中
使用python爬虫爬取猫眼电影top100 import requests import re import csvif __name__=="__main__":headers ...

Jupyter notebook爬取猫眼top100电影信息（Xpath）

文章目录

Jupyter notebook 简介

代码

Jupyter notebook爬取猫眼top100电影信息（Xpath）相关推荐

最新文章

热门文章