文章目录

  • Jupyter notebook 简介
  • 代码

Jupyter notebook 简介

基于网页交互式运算的应用程序,可以在网页上编写和执行代码。本文将使用Xpath方法获取信息。

代码

导入request包,对网页发出请求、获取响应

导入etree函数

第一个页面中只包含10部电影信息

根据网页的地址信息,利用for循环遍历全部网页

导入csv,将数据存储在本地的csv类型文件中

将以上代码整合

import requests
from lxml import etree
import csv
##创建列表存储数据
mov_list=[]##构造翻页url
for i in range(10):url="https://www.maoyan.com/board/4?offset="+str(i*10)##字符串用+直接拼接#发出请求headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62"}#获取响应try:response=requests.get(url,headers=headers)response.encoding='utf-8'#解析responseresult = etree.HTML(response.text)except RequestException:print("获取错误")#提取节点信息for j in range(1,11):rank=result.xpath("//dd[{}]/i/text()".format(j))[0]name=result.xpath("//dd[{}]//p[@class='name']/a/text()".format(j))[0]actor=result.xpath("//dd[{}]//p[@class='star']/text()".format(j))[0].strip()releasetime=result.xpath("//dd[{}]//p[@class='releasetime']/text()".format(j))[0]score_list=result.xpath("//dd[{}]//p[@class='score']/i/text()".format(j))score=score_list[0]+score_list[1]mov_list.append([rank,name,actor,releasetime,score])##存储数据
with open('result.csv','w',newline="",encoding='utf-8') as f:##或者encoding='utf-8-sig',newline=''保证存储数据不空行columns_name = ['rank','name','actor','releasetime','score']writer = csv.writer(f)##创建初始化写入对象writer.writerow(columns_name)##一行一行的写入colums_namefor row in mov_list:writer.writerow(row)

注释:如果将with open() as f写入循环内,每执行一个层次,都会将前面的信息覆盖,虽然最后的结果一样,但较大耗费。

Jupyter notebook爬取猫眼top100电影信息(Xpath)相关推荐

  1. python爬虫练习--爬取猫眼top100电影信息

    #! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/bo ...

  2. 爬取猫眼 TOP100 电影并以 excel 格式存储

    爬取目标 本文将提取猫眼电影 TOP100 排行榜的电影名称.时间.评分.图片等信息,URL 为http://maoyan.com/board/4,提取的结果我们以 excel 格式保存下来. 准备工 ...

  3. python爬取猫眼top100电影,经典永远是经典

    想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的<霸王别姬>,"哥哥"在里 ...

  4. 抓取猫眼top100电影信息

    1. 在google浏览器中输入maoyan.com,  点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + st ...

  5. 爬取猫眼TOP100电影

    import json import re import requests from requests import RequestException from multiprocessing imp ...

  6. python爬虫:爬取猫眼TOP100榜的100部高分经典电影

    1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...

  7. python 爬取豆瓣top100电影页面

    python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...

  8. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  9. 爬取猫眼top100并存入csv文件中

    使用python爬虫爬取猫眼电影top100 import requests import re import csvif __name__=="__main__":headers ...

最新文章

  1. Zip文件中文乱码问题解决方法(MAC->Windows)
  2. JAVA数据库编程(JDBC技术)-入门笔记
  3. c++字符数组整数转换中文大写金额的形式_数字大写转换烦,内置格式多缺陷, VBA函数来解难...
  4. lufylegend库 鼠标事件 循环事件 键盘事件
  5. 【HDL系列】半减器、全减器和减法器原理和设计
  6. 各种常见3D建模软件比较
  7. 2021年中国DevOps现状调查报告发布!
  8. Cypress前端测试左移分享
  9. 网易,这次你让粉丝们失望了
  10. raid服务器怎么装win7系统安装,安装win7系统时怎么加载SATARAID驱动
  11. 10个非常适合菜鸟练手的Python项目,墙裂建议收藏!
  12. Oracle 三种常与开窗组合使用的方法
  13. 怎么把图片文件压缩到最小?
  14. flask+gunicorn部署
  15. KB,Kb单位换算,网络带宽中的Kbps和KB/s到底是什么意思?
  16. 2021年软件测试入门到进阶全套学习内容
  17. 计算机无法卸载软件,电脑软件无法卸载怎么解决 电脑卸载顽固软件超有用的三种方法...
  18. 论PMI-ACP敏捷项目管理认证考前培训必要性
  19. (转)CSS 基本知识
  20. linux虚拟机安装sd卡,使用Vmware虚拟机安装RHEL 6.0

热门文章

  1. 2BizBox合作伙伴持续招募中
  2. 2018云和恩墨大讲堂石家庄站成功举办
  3. mysql purge master logs_MySQL Binlog--PURGE MASTER LOGS失败
  4. 游戏学院改变了谁的命运?
  5. LFU -- Javascript实现版本
  6. USB数据传输形象讲解
  7. 2015网易游戏校园招聘笔试题 运维开发岗
  8. 小程序WXML之引用
  9. linux 系统函数调用脚本文件,Linux系统调用fsync函数详解
  10. 单片机学习笔记————51单片机实现在数码管中实现iphone4S开机密码锁的程序