Jupyter notebook爬取猫眼top100电影信息(Xpath)
文章目录
- Jupyter notebook 简介
- 代码
Jupyter notebook 简介
基于网页交互式运算的应用程序,可以在网页上编写和执行代码。本文将使用Xpath方法获取信息。
代码
导入request包,对网页发出请求、获取响应
导入etree函数
第一个页面中只包含10部电影信息
根据网页的地址信息,利用for循环遍历全部网页
导入csv,将数据存储在本地的csv类型文件中
将以上代码整合
import requests
from lxml import etree
import csv
##创建列表存储数据
mov_list=[]##构造翻页url
for i in range(10):url="https://www.maoyan.com/board/4?offset="+str(i*10)##字符串用+直接拼接#发出请求headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62"}#获取响应try:response=requests.get(url,headers=headers)response.encoding='utf-8'#解析responseresult = etree.HTML(response.text)except RequestException:print("获取错误")#提取节点信息for j in range(1,11):rank=result.xpath("//dd[{}]/i/text()".format(j))[0]name=result.xpath("//dd[{}]//p[@class='name']/a/text()".format(j))[0]actor=result.xpath("//dd[{}]//p[@class='star']/text()".format(j))[0].strip()releasetime=result.xpath("//dd[{}]//p[@class='releasetime']/text()".format(j))[0]score_list=result.xpath("//dd[{}]//p[@class='score']/i/text()".format(j))score=score_list[0]+score_list[1]mov_list.append([rank,name,actor,releasetime,score])##存储数据
with open('result.csv','w',newline="",encoding='utf-8') as f:##或者encoding='utf-8-sig',newline=''保证存储数据不空行columns_name = ['rank','name','actor','releasetime','score']writer = csv.writer(f)##创建初始化写入对象writer.writerow(columns_name)##一行一行的写入colums_namefor row in mov_list:writer.writerow(row)
注释:如果将with open() as f写入循环内,每执行一个层次,都会将前面的信息覆盖,虽然最后的结果一样,但较大耗费。
Jupyter notebook爬取猫眼top100电影信息(Xpath)相关推荐
- python爬虫练习--爬取猫眼top100电影信息
#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...
- 爬取猫眼 TOP100 电影并以 excel 格式存储
爬取目标 本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...
- python爬取猫眼top100电影,经典永远是经典
想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...
- 抓取猫眼top100电影信息
1. 在google浏览器中输入maoyan.com, 点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...
- 爬取猫眼TOP100电影
import json import re import requests from requests import RequestException from multiprocessing imp ...
- python爬虫:爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
- python 爬取豆瓣top100电影页面
python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- 爬取猫眼top100并存入csv文件中
使用python爬虫爬取猫眼电影top100 import requests import re import csvif __name__=="__main__":headers ...
最新文章
- Zip文件中文乱码问题解决方法(MAC->Windows)
- JAVA数据库编程(JDBC技术)-入门笔记
- c++字符数组整数转换中文大写金额的形式_数字大写转换烦,内置格式多缺陷, VBA函数来解难...
- lufylegend库 鼠标事件 循环事件 键盘事件
- 【HDL系列】半减器、全减器和减法器原理和设计
- 各种常见3D建模软件比较
- 2021年中国DevOps现状调查报告发布!
- Cypress前端测试左移分享
- 网易,这次你让粉丝们失望了
- raid服务器怎么装win7系统安装,安装win7系统时怎么加载SATARAID驱动
- 10个非常适合菜鸟练手的Python项目,墙裂建议收藏!
- Oracle 三种常与开窗组合使用的方法
- 怎么把图片文件压缩到最小?
- flask+gunicorn部署
- KB,Kb单位换算,网络带宽中的Kbps和KB/s到底是什么意思?
- 2021年软件测试入门到进阶全套学习内容
- 计算机无法卸载软件,电脑软件无法卸载怎么解决 电脑卸载顽固软件超有用的三种方法...
- 论PMI-ACP敏捷项目管理认证考前培训必要性
- (转)CSS 基本知识
- linux虚拟机安装sd卡,使用Vmware虚拟机安装RHEL 6.0